365日配信されるレース映像と、競輪・PIST6・オートレースを友達と一緒に楽しむことができるサービス『TIPSTAR』では、配信映像内に表示されるテロップやBGM等をAI技術によって自動編集しています。(※特許申請中)前回(2020年9月)の記事では、その自動編集の仕組みと展望を担当の橋口と馬淵にインタビューしましたが、その後さらに進化を遂げたということで、AIによる自動編集の最新状況を改めて伺いました。
橋口 昂矢(はしぐち たかや) 開発本部 CTO室 たんぽぽグループ(写真左)
2012年 新卒入社。SNS mixi.jpの新検索エンジンの開発・運用を担当。2013年 社内ベンチャー制度によって株式会社ノハナの立ち上げに参画・創業。モバイルアプリの新規開発、機械学習を用いた機能開発やGoogle Cloudへのバックエンド移行に従事。『みてね』では、1秒動画における画像認識エンジンを開発。2017年 株式会社スマートヘルスの立ち上げに参画・創業。姿勢推定を用いたプロダクト開発や京都大学医学部と共同研究講座を開設。並行して現在は『TIPSTAR』で、AI映像編集システムの開発・運用に従事。
藤田 恵梨香(ふじた えりか) 開発本部 CTO室 MLグループ(写真右)
新卒でeコマース企業に入社し、バックエンドエンジニアを経験。その後 中途入社した会社で機械学習エンジニアとなり、画像認識技術の研究開発に従事。2021年9月 ミクシィへ中途入社。『TIPSTAR』でAI映像編集システムの開発・運用に従事。
全会場でAIによる自動編集化を実現
━━ 2020年9月のインタビュー時から、AIによるレース映像の自動編集はどのように進化したのでしょうか?
橋口 当時は、AIによる自動編集(以降、AI編集)に対応できるレース会場が10程度だったのですが、現在は競輪とオートレースを含めて全ての会場で、全てのレース映像をAI編集できるようになりました。また当時はAI編集の実証実験段階だったので、いわゆる「裏レース」と呼ばれる演者配信ではないレースでAI編集を試していたのですが、そこから「これは素晴らしい!」という評価を得ていき、ほどなくして『TIPSTAR』対象レースのAI編集が本格的にスタートすることになりました。
それでも、グレードレース(GP、GI、GII、GIII)はしばらくAI編集の対象外で、スタッフによる手動編集が行われていたのですが、AIによる自動編集の方が、手動よりもミスが少なく、精度が高いという評価を得られたため、現在はグレードレースを含めたすべてのレースをAIが編集し配信しています。
━━ それはすごいですね!ちなみに、手動編集と比べてどのような優位性があるのでしょうか?
橋口 レース映像の編集は、ある意味「同じ作業の繰り返し」なので、手動では人間の集中力の低下や疲労等によってテロップを入れるタイミングが遅れたり、作業のやり忘れが発生したりすることがあります。また同時刻に複数レースが行われるので、レース映像を見逃したり、予定表の抜け・漏れが発生したり等のヒューマンエラーが一定程度発生してしまいます。
━━ AIであれば、そうしたミスを回避して安定運用できるわけですね
橋口 そうですね。AI編集の実績を重ねて、AIの精度と信頼性が認められたことによって、2021年の9月には競輪の全会場にAIによる自動編集が導入されました。その後に、オートレース版のAI編集を作りはじめました。
━━ AIによる自動編集に対応する会場を増やす時に、大変なことって何ですか?
橋口 会場ごとの映像差です。オープニングやファンファーレ等の演出、カメラ台数・配置が異なるので、それぞれに合ったチューニングを行う必要があります。また会場の演出や撮影を担当する業者が年度ごとに代わることがあるため、そのタイミングで映像演出も刷新されることがあります。それに合わせてAIを更新する必要があります。
グレードレースの時にはカメラの台数が増えたり、カメラアングルが変わったりすることもあるので、その都度対応が必要です。それとAIは芝生の色が変化するだけで映像解析に影響することがありますし、ゲリラ豪雨や濃霧のような自然現象による映像の変化に対応できないこともあるので、そういう時は人の手による対応が必要になります。逆に濃霧時の人の目でも認識できないような映像を、ちゃんと編集できている時もありますが(笑)
━━ チューニング作業は、その都度、現場で対応しているのですか?
橋口 いえ、実は私は会場には1回も足を運んだことはなくて、全てリモートで対応しています。AI編集の導入時には、各会場の過去2年分のレース映像を少なくても20レース、多い時には100レースほど観て、会場ごとの特徴をつかんでいます。その勘所はだいぶつかめてきました。
━━ AI編集によって得たメリットは、やはり人的負荷が大幅に改善されたことでしょうか?
橋口 そうですね。手動編集に比べて、大幅に人的負荷が改善されましたし、安定運用化と編集基準の平準化が実現できたと思います。とはいえ完全無人化をしたわけではなく、編集された映像のチェックは最終的に人間がリアルタイムに行っています。現在は、AIが編集した映像に問題がないか常時1人以上でチェックする体制になっています。
競輪とオートレースは別物。どのようにAIを進化させたのか
━━ 競輪の全会場の自動編集化を実現してから、オートレース版を作ったとのことですが、どのような違いがありますか?
橋口 色んな違いがありますが、特徴的なのはスタート方式の違いですね。競輪の場合は、徒競走のスタートのように、号砲音を合図にレースのスタートをAIが検知しています。一方オートレースの場合は場内の大時計(発走合図機)の針が12時を指したら、一斉にスタートする方式なのですが…AIが取り扱う映像では大時計の映像は配信されないので、どうやってAIがレースのスタートを検知するか工夫が必要でした。
━━ 具体的にどのようにスタート検知しているのでしょうか?
橋口 レースがスタートすると、エキゾーストノートというバイクのマフラーから発生する排気音が急上昇するとともに、バイクを捉えるカメラの動きが急加速するので、その変化を複合的に捉えることで、スタートを検知できるようにしました。
━━ 動画像処理と音声用のAIを組み合わせているんですね!
橋口 そうなんです。カメラの動きの変化を捉える技術は、以前担当した事業で開発した映像解析技術の知見が活きましたね。万が一、音声が届かないトラブルがあっても、多少の精度ロスは発生するものの映像だけでスタートを検知できるようにもなっています。他にもフライングや出走トラブルによる例外的な再出走や、レースの不成立もAIが検知しなくてはならないのですが、そのパターンをつかむのも大変でした。
━━ どういうことですか?
橋口 例えば川口オートレース場だと再出走時に赤旗が振られるので、その特徴をAIに学習させれば良いのですが、それ以外の会場では「ゆっくり1周してくる」くらいしか映像的な特徴がなくて…(苦笑)。それで異常を捉えて再出走や不成立を検知する必要があります。
他にも映像が動かなくなったり、救護映像が流れたり、館内放送の音声を捉えて複合的に落車を検知するなどしています。またオートレースの特徴のひとつに「試走」という本番前に各選手・バイクのタイムを測るための走行があるのですが、第1レースの試走はどのタイミングで始まるのかが当日にならないとわからないので、AIに「試走」なのか、「レース本番」なのかを見分けさせるのも大変でした。
(cap) AIによって映像・音声を認識し、レース状況を検知している。
━━ AIに学習させるパターンがたくさんあるんですね
橋口 他に苦労したケースとしては、会場によって、リプレイ映像を流す回数やタイミングが異なる場合の対応ですね。ほとんどの会場は通常スーパースローのリプレイ映像を1回だけ流して、次のレースへ進行することが多いのですが、カメラ台数が多い会場では、色んなアングルのリプレイ映像を可変的に流すことがあるんです。
━━ リプレイ映像にイレギュラーなパターンがあるわけですね
橋口 そうです。AIにとって、それはリプレイなのか、次のレース映像なのかを判別するのが難しいという課題がありました。当初は「本番レース終了後、数秒間の映像はリプレイである」みたいな感じで大まかに処理しようとしていたのですが、ある時点でそれだと対応しきれないことがわかり、後からリプレイ専用のAIを作ることになりました。
━━ それは想定外のことだったんですね?
橋口 そうですね。設計段階で想定しきれてなかったことの代償を後で払うことになってしまったのですが、素直に失敗を認めて速やかに軌道修正できたことは、結果的に良かったと思います。
━━ 全レースの自動編集を実現するためには、そうしたイレギュラーを高精度で検知する必要があるわけですね。実際、落車や再出走等の事象はどれくらいの頻度で発生するのですか?
橋口 オートレースだと全会場あわせて1日1回以下、競輪だと開催節ごとに1回くらいですね。それが毎日・毎節繰り返されるわけなので、年間で換算すると相当数を正しく検知する必要があります。
(cap) 左が元映像、右がAIによる自動編集された映像。「AIのキモチ」がステータスを表している。
AIによる自動編集は次の段階へ
━━ 実際にAIによる自動編集を運用してみての感触はいかがでしょうか?
橋口 今のところ順調に運用できていると思います。隣にいる藤田さんが加わってくれたことで、ブラウザで映像編集ができるツール『BreezeCast(ブリーズキャスト)』の方も大幅な進化を遂げていて、『BreezeCast』からのフィードバックによって、AIの方もどんどん進化するという好循環が生まれています。
藤田 そうですね。AIによる自動編集が標準になったので、それに合わせて『BreezeCast』もリニューアルしてさらに進化しています。
━━ 今後の課題は、何が残っていますか?
橋口 AIによる自動編集を全会場・全レースで実現するという目標は一旦クリアできましたし、自動編集された映像は人間によるチェックを行う体制もとれているので、あとはPDCAを細かく回して、適宜最適化を図っていく段階になれたかなと思います。
━━ 前回のインタビューでは「これまで4会場あれば編集担当4人必要だったのが、1名で補完できるような形になるのが理想」と言ってましたが、それも実現できたんですね?
橋口 はい。最大で7会場で同時にレースが行われる場合がありますが、タブレット端末を7台並べて、1名で全てをチェックすることができるようになっています。
Cloud AutoML と Edge TPU を用いて競輪ライブ映像の自動編集を実現した事例 – Google Cloud Day: Digital ’21
━━ すごいですね!次回は『BreezeCast』の進化について藤田さんにお話を伺おうと思います。ありがとうございました。