AIによる自動編集・低遅延を実現する動画配信技術とは？　ミクシィの競輪投票サービス「TIPSTAR」開発陣に聞く：年間2万レースをライブ配信、運用課題をどう解決したか

ミクシィは2020年6月、スマホブラウザやアプリで競輪（KEIRIN）のライブ動画視聴と勝者投票券を購入できるサービス「TIPSTAR」をリリースした。全国に43カ所ある競輪場から年間約2万レースをライブ配信している。映像の伝送技術やAI技術について開発陣に話を聞いた。

» 2021年01月19日 05時00分公開

[松林沙来，＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　ミクシィは2020年6月、スマホブラウザやアプリで競輪（KEIRIN）のライブ動画視聴と勝者投票券（以下、車券）購入ができるサービス「TIPSTAR」をリリースした。同サービスの開発に当たっては、低遅延のインターネット配信からAI（人工知能）による映像編集の自動化まで、幅広い取り組みを行ってきたという。

　開発に携わる橋口昂矢氏（開発本部インフラ室映像技術グループ）と馬淵俊弥氏（開発本部インフラ室映像技術グループ）に、TIPSTARで使われている技術について話を聞いた。

ただの「車券購入アプリ」にしない、ミクシィ流のコンセプト

橋口昂矢氏（開発本部インフラ室映像技術グループ）

――車券の購入を中心としたサービスですが、無料メダルで投票できたり、いわゆる「ガチャ」があったり、有名人がレース予想をしている様子をライブ配信していたりするところがユニークですよね。どういったいきさつで、このアプリを開発されたのでしょうか。

橋口氏　この企画が立ち上がったのは、2018年ごろでした。その初期段階からベッティングを中心にみんなでわいわい盛り上がれるアプリにしたい、という構想がありました。ベッティングの対象が競輪に定まった後は、他社のサービスのように車券だけ購入するのか、今のTIPSTARのように出演者さんと視聴者の方が一緒に盛り上がれるようにするのかを検討して、仕様を詰めていきました。サービスの根幹に、友達と盛り上がれるような楽しみ方の部分を置いて、特に重要視しています。

――最初から友達と盛り上がるというコンセプトがあったのですね。

橋口氏　そうですね。車券を売るだけのサービスは他社からも出ています。ミクシィでこのサービスを開発する意義は何かを考えたとき、コミュニケーションを大事にする会社だというのがありました。SNSの「mixi」はもちろんですが、スマホゲーム「モンスターストライク」も友達とマルチプレイをした方が得をするようなゲーム構成にして、コミュニケーションを取ってほしいというメッセージを出しています。

馬淵俊弥氏（開発本部インフラ室映像技術グループ）

　ベッティングを軸に置きつつ、ミクシィが今まで培ってきたコミュニケーションを活発にするノウハウとのシナジーが生まれるのではないかということで、今回のTIPSTARも友達と盛り上がれることをコンセプトとしています。

――技術的なお話を伺いたいのですが、2人はTIPSTARの開発ではどのような部分を担当しているのでしょうか？

馬淵氏　2人とも、もともとTIPSTAR事業部のメンバーではなくて、社内の各事業部が抱えている技術的な課題解決の補助をするエンジニア本部に所属しています。私は映像の伝送技術に詳しい人がいないので助けてほしい、ということでTIPSTARの開発に関わり始めました。

全国43ある競輪場、映像出力は同軸ケーブルのみ――低遅延が重視されるインターネット配信にどうつなげたか

――映像の伝送技術について詳しく教えてください。

馬淵氏　現在、全国にある43カ所の競輪場から配信される映像は、SDIと呼ばれる放送機器用のインターフェースでしか出力されません。競輪場ごとに「はいこれ」とSDIの映像と音声が入った同軸ケーブルが渡されるイメージです。その同軸ケーブルから得た映像をどうやってデータセンター（DC）のある東京まで持っていくかを解決するのがTIPSTARでの最初の仕事でした。

TIPSTARにおける映像の伝送技術の全体像（2020年6月30日時点での構成）（出典：ミクシィ）《クリックで拡大》

馬淵氏　この図が全体のイメージです。競輪場にある同軸ケーブルは100メートルほどしか伸ばせないため、映像をネットワーク上に流せるデータに変換できるエンコーダーという機械を使って送信し、DCまで持ってきた映像をもう一度同軸ケーブルに変換して、映像を編集する機械と接続して使えるような構成にしています。レースは1日当たりおよそ10の競輪場で開催されるので、受信側（デコーダー）は10ほど用意しています。

――図を見ると、競輪場から送られてきた映像は、デコーダーを経由した後に「ATEM」という機器に送信されるのですね。ATEMはどういった役割を持っているのでしょうか？

馬淵氏　ATEMは、いわゆる「プロダクションスイッチャー」と呼ばれる映像編集機器です。主にテレビ局で使われているような、複数のボタンが付いていてそれを押すことでテロップや効果音などを映像に合成できる機械のことを言います。例えば競輪場からの映像が入ってきたとき、ボタンを押すと、テロップや効果音を合成した映像を、処理時間の遅延なく、出力します。

　TIPSTARで採用しているATEMはラックマウントタイプのものです。テレビ局などで使われているデスクに置くタイプは人が押しやすい形に作られているのですが、今のTIPSTARでは直接ボタンに触って操作する必要がないような体制を整えているので、ラックマウント用のものにはボタンがほとんど付いていません。

テレビ局でも使われているようなタイプのATEM。現在TIPSTARで使われているものとは異なる機種だ（出典：ミクシィ）

レースは年間2万回以上、人がボタンを押し続けるのは難しい

――人が直接ATEMのボタンを操作しないという運用はどう実現しているのでしょうか。

馬淵氏　開発期間中は編集スタッフがボタンのたくさん付いたATEMを直接操作する従来の方式だったのですが、最終的に人の手でボタンを押す必要をなくし、編集を自動化したいと考えていました。というのも、競輪のレースは年間2万回以上開催されます。BGMも全43会場全て違うものを自社で用意していますし、レースの時間帯によって演出を変えている部分もあります。このような状況で、全てを手作業で運用するのは厳しいと想定していました。

　そこで、ATEMを介した非圧縮映像のリアルタイム編集をWeb上で可能にする「BreezeCast」を開発し、ソフトウェア制御、手動制御どちらも柔軟に対応できるようにしました。当初は社内のスタジオで映像を投影し、その中でBreezeCastを操作する運用を想定していました。しかし、新型コロナウイルス感染症（COVID-19）の流行で、「密」を避けるため急きょ遠隔地からでもスタジオと同じような動画編集ができるようにする必要が出てきました。スタジオのモニターに投影していた映像の確認もBreezeCast上で実現できるよう試行錯誤しました。

BreezeCastはWebブラウザ上で物理ボタンを押さずに編集できるシステムだ（出典：ミクシィ）

――BreezeCastの開発で難しかったところはありますか。

馬淵氏　モニターで投影していた映像を遅延なくインターネットで配信するのが課題でした。映像編集をする場合、編集前の画面と編集後の画面の2つを見ながらの操作が前提となります。編集前の画面を投影する際に遅延があると、その時押したボタンに対応していた「スタート」などの編集処理が実際の映像のタイミングとずれてしまいます。リモートでの操作だとよりリアルタイム性が求められるわけですね。

　リアルタイム性を確保するため、Web会議システムに利用される技術でもある「WebRTC（Web Real-Time Communication）」を採用しました。これにより、現地映像との遅れを最大でも0.1秒ほどまでに抑えることができました。BreezeCastに映像を配信するためのサーバに時雨堂が提供する「WebRTC SFU Sora」「WebRTC Native Client Momo」を導入しています。

橋口氏　電車内など、出先でも遅延なく編集できるようになりました。他社でWebRTCがどう活用されているのかあまり詳しくは分かりませんが、365日このような運用をしているケースは珍しいのではないかと思います。

特許申請中、AIによる映像編集技術

――映像編集はAIを利用して自動化しているそうですね。

橋口氏　一部の競輪場では、人手を使わずにAIが映像を編集しています。2020年12月現在、実装できているのは20会場ほどです。

――自動化について、詳しく教えてください。

橋口氏　端的に言うと、人間が映像を編集するのと同じ操作を自動で実施するものになります。

BreezeCastを自動で操作し映像を合成する（出典：ミクシィ）《クリックで拡大》

橋口氏　画像中央の黄緑色のボタンに「自動編集」と書いてあります。この表示がある場合、自動編集に該当しているレースです。中央のボタンに「ML Status」と表示されていますが、AIが映像をどう認識しているかを示しています。この画像ですと「Start」と表示しているため、レースのスタート画面が表示されていることをAIが問題なく認識していることが分かります。

　認識できたら、スタート画面であれば「スタート」のテロップ、ファンファーレなどのBGMを自動で追加します。スタート後は、1周目、2周目をカウントし、ゴール後の場面まで適切な演出を選択して人と同様にBreezeCastを操作します。

――実際に配信されている映像を見せていただきましたが、これを自動で編集しているなんて、驚きました。

橋口氏　ここに使われている技術は、特許出願済みです。現状自動化できているのは20会場ほどなので、2021年3月までに全国43会場全てに実装できるようモデルの作成を進めています。

――どのようにモデルを作成されているのでしょうか。

馬淵氏　最初は、古典的な画像解析の手法を手探りで進めていました。汎用（はんよう）性のある1つのモデルを作ることで全会場を網羅できるものをイメージしていました。しかし、周回数の長さ、設置してあるカメラの個数、映像の角度からピストル音に至るまで、会場ごとに異なるためうまく作り込むことができませんでした。

橋口氏　そこで、会場ごとに画像モデルと音のモデルを作成して運用しています。43会場×2で86のモデルを作る必要があります。作るのも運用するのも大変です。例えば、今は冬なので競輪場の芝は枯れていますよね。でも夏になると青々としてしまって、学習した映像の精度が少し下がってしまうのです。このようなケースに日々対応、メンテナンスしながらモデルを作成しています。

――機械学習モデルの構築はもちろん、運用にも取り組んでいるわけですね。ところで、映像の配信ではリアルタイム性が求められるとのことでしたが、AIが映像を編集する場合も強くリアルタイム性が求められるわけですよね。AIによる低遅延の映像認識はどのように実現しているのでしょうか。

橋口氏　機械学習の推論に特化した「Edge TPU」を使って、競輪場から受け取った生の映像と音を複合させて、リアルタイムで推論し、レース状況を推定する仕組みを採用しました。

　機械学習のプロセスに学習と推論がありますよね。競輪場の映像などをAIに見せてこれはどんな場面かどうかなどの情報を与えるのが学習で、競輪場の映像をAIに見せ、「スタートした」「1周目だ」という情報を推定するのが推論です。学習に関してはGPUを使用しています。

　Edge TPUは、整数計算しかできず、GPUと比べメモリもコア数も多くありません。ただ、どれだけリッチな映像でも2～3ミリ秒で推論処理ができます。60fpsの4K映像が流れてきても、余裕でさばけるくらい早く処理できます。もう1つメリットとして、安価であることが挙げられます。GPUは1台当たり約100万円かかります。年間開催される2万レース全ての推論処理をGPUで賄おうとすると10台（約1000万円）は必要になるでしょう。一方、Edge TPUは1つ数千円程度で済みます。TIPSTARでは12枚使っているのですが、全部で十数万円ほどです。消費電力もGPUと比べはるかに省エネです。

AIによる自動編集の仕組み

・技術構成：Python + TensorFlow Lite + Edge TPU（ASIC）

・学習はCloud AutoML Vision Edge、推論はEdge TPU

音はメルスペクトログラム画像化して学習・推論

モデル構造はMobileNetV2をベースに、少量のカスタマイズ

Edge TPUに最適化して使用（学習後、モデルはINT8ビット量子化され、1つのOperationにまとめられる）

・レース状態に応じてBreezeCast（映像編集API）から編集

――TIPSTARにはさまざまな技術が使われているのですね。今後アップデートしたい機能は何かありますか。

馬淵氏　動画に描画を追加するだけだと、できる演出に限りがあります。特にCGを使っていない平面の演出をよりユーザーがわくわくできるものにしたいですね。動画編集の中でCGを表現するのは難しいため、ゲームエンジンなどのCG処理が得意なソフトウェアに任せることも検討しています。

橋口氏　機械学習を活用した映像編集の基本実装はできたと考えています。今後は、競輪をあまり知らないユーザー向けのUI、演出ができるAIを作りたいですね。

　例えば、競輪には「結託」という制度があります。出走者はもちろん全員敵同士ですが、同じ県出身だから、同じ地域出身だからとレース中盤まで「ライン」と呼ばれるチームを作って走るのです。ライン同士で起こる駆け引きも、競輪ならではの面白さです。その他にも、出走者の自転車のギア比、戦略、足の質によって予想するのも面白いです。競輪場によっても直線の長さ、カーブの長さなど、特徴があるんですよ。そういった競輪を面白くする要素をもっと初心者の方にも伝えられるものを開発していきたいと考えています。