IPテレフォニー最前線　Stable Diffusion、Starlink実戦投入の可能性は？：羽ばたけ！ネットワークエンジニア（61）

IPテレフォニー（IP電話）においても生成AIや低周回軌道衛星の利用が可能になった。その最先端の研究事例を紹介する。

» 2023年02月27日 05時00分公開

[松田次博，＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

連載：羽ばたけ！ネットワークエンジニア

　筆者が主宰する情報化研究会は2023年1月28日に、第85回研究会「IPテレフォニー最前線」をオンライン開催した。ふだん生成AIに触れることがない筆者には新鮮な内容だった。

　ChatGPT（OpenAIが2022年11月に公開したチャトbot）も名前しか知らなかったが、研究会の後で使ってみた。「企業ネットワークを進化させる3大要因は？」という質問をすると図1の回答が返ってきた。

図1 ChatGPTの回答例

「クラウド」「5G」「IoT」の3つを挙げている。同じ質問を何度かするとその度に違った回答を返す。中には的外れなものもあるが、かなり精度が高いことに感心した。

　さて本論に入ろう。研究会ではIPテレフォニー、特にソフトフォンに強い「ageet」の岡崎昌人氏に、生成AIや低周回軌道衛星通信サービス、Starlinkの研究事例を紹介いただいた。

通話録音の内容を「イメージ」（画像）に要約する

　ネットビジネス全盛の時代になっても、顧客と企業の接点として音声によるコミュニケーションは重要だ。コンタクトセンターなどで顧客との通話は録音される。録音された音声をテキスト化してテキストマイニングを行い、マーケティングやサービス改善に利用したり、テキストをAIで自動要約したりすることは数年前から行われている。

　ageetは通録の内容を「イメージ」に要約する実験を行った。

　筆者は「面白いことを考えるなあ」と感心した。通話内容がテキストに要約されても、「文字を追う」には時間がかかる。しかし画像なら、見た瞬間に「何についての会話か」理解できる。その仕組みが図2だ。

図2 通話録音を「イメージ」に要約する“Speech to Image”の仕組み

　まず通話録音された音声をテキストに変換する。音声認識にはOpenAIの「Whisper」を使っている。音声認識AIは一度に処理できる音声の長さに制約があるため、前処理で音声を1分以内に分割する。音声のない「無音区間」を区切りにしている。

　テキスト化された音声を要約する準備として「形態素解析」を行う。形態素解析は自然言語のテキストを意味のある最小単位「形態素」に分割して、その品詞などを判別する。形態素分析には工藤拓氏が開発した「MeCab」が使われている。出現数の多い形態素を調べ、文章を選択するという方法で要約する。

　要約したテキストを「Stable Diffusion」に入力してイメージ化する。Stable Diffusionはミュンヘン大学のCompVisグループが開発した画像生成AIで、2022年に公開された。

　図2の実行例では、天気予報の内容をテキスト化し、要約したテキストをもとにイメージを描画している。完璧とはいえないが「当たらずとも遠からず」のレベルだ。

　ageetのアイデアは「Speech to Text」と「Text to Image」を組み合わせて「Speech to Image」を実現するという簡単な仕組みだが、精度と処理時間（現時点では分単位の時間を要する）が改善されれば、とても面白い応用ができそうだ。早期の実用化を期待したい。

Starlinkを使ったIP電話

　ここからは既に実用になっている低軌道周回衛星による衛星通信サービスを使ったIP電話の話だ。

　かつて衛星通信の主流は、約3万6000キロの軌道上の静止衛星を使うものだった。高い高度で電波を送受するため衛星は大型で、衛星自体や打ち上げ費用が高いため利用コストも高い。衛星が遠い軌道にあるので遅延時間は400ミリ秒以上かかる。しかし、2000キロ以下の低軌道衛星を低コストで打ち上げる環境が整い、大容量、低遅延の衛星通信を安価に提供できるようになった。

　軌道が低く衛星と端末間の距離が短いので、電波の出力や消費電力が抑えられ、衛星を小型化、低コスト化できる。遅延時間は静止衛星と比べて10分の1未満になる。

　低軌道衛星を使った衛星通信サービスの代表格はイーロン・マスク氏が率いる「スペース・エクスプロレーション・テクノロジーズ」（通称スペースX）が提供する「Starlink」だ。

　スペースXが独自開発したロケットを使って打ち上げたStarlinkの衛星は2023年2月2日時点で3857基になっており、これらが約500～1000キロの軌道を周回しながら連携して地表面をカバーしている。日本でも2022年10月に「レジデンシャル」という個人向けのインターネット接続サービスを開始した。企業向けはKDDIと提携して「Starlink Business」を提供することを2022年12月に発表しているが、2023年2月時点で具体的な時期やサービス内容は明らかになっていない。

　日本でStarlinkに割り当てられている周波数帯は下り10.7～12.7GHz、上り14～14.4GHzとかなり広帯域だ。速度の理論値は下り350Mbps、上り130Mbpsとなっている。

写真1 StarlinkのアンテナとWi-Fiルーター

　今回ageetがIP電話の実験に使ったのは「レジデンシャル」だ。サービスを申し込むとスペースX社からアンテナとWi-Fiルーターが送られてくる（写真1）。アンテナの大きさは横約30センチ×縦約50センチで、周回する衛星を自動追尾する。1つの衛星を常に追尾するわけではなく、離れて行く衛星から近づいてくる衛星への切り替えが随時行われる。

　アンテナと機器の初期費用は定価7万3000円だが、3万6500円に値引きされたそうだ。月額料金は、2022年10月は1万2000円だったが2022年12月と2023年1月に値下げされ、2023年2月現在は6600円になった。

　ageetの所在地は京都府向日市で、そこでの速度は下り16Mb/s～85Mb/s、上り6Mb/s～30Mb/sだ。遅延時間は最小27ms、最大135ms、平均55msが実測された。遅延時間は4Gと比べても遜色のない短さで、リアルタイム性が求められるIP電話に適しているといえる。

　図3は、Starlinkを使ったIP電話の構成だ。インターネット接続に衛星回線を使うだけなので、スマートフォンやクラウドPBXはStarlinkの回線を意識せず簡単に利用できる。ただし、衛星回線とインターネットを使ったIP電話で良好な音質を得るためには適切なコーデック（CODEC）の選択、PTIMEやジッタバッファの設定が必要だ。

図3 StarlinkによるIP電話（内線通話）の構成

　ここでいうコーデックは、アナログ信号である音声を送信側でデジタル化し、受信側でアナログに復号する方式だ。固定電話網や携帯電話網では1972年にCCIT（現在のITU-T）で制定された「G.711」が広く使われている。G.711では1秒間の音声が64Kbitにデジタル化される（ビットレート64Kb/s）。2012年にITEFで標準化された「Opus」は、ビットレートが6～510 Kbit/sで、低ビットレートでも音質が良いのが特徴だ。

　IP電話では音声を一定の時間でまとめてデジタル化する。この時間を「PTIME」という。PTIMEは20msがよく使われる。20ms分を1個のパケットに格納するので、1秒（1000ms）では50個のパケットを送信することになる。

　専用回線のようにネットワークが十分な帯域幅を確保しており、輻輳（ふくそう：ネットワークの混雑）が全くない環境なら遅延時間は一定で、20ms間隔で送信された音声パケットは受信側でも20ms間隔で連続して受信し、途切れることなく音声を再生できる。

　しかし、インターネットは帯域が保証されておらず、輻輳状態も刻々と変化する。そのため、遅延時間がゆらぐことになる。後に続く音声パケットが遅延すると音声が途切れてしまう。これを軽減するのが「ジッタバッファ」だ。

　ジッタバッファはスマートフォン上のソフトフォン（通話アプリ）が持っている。音声パケットを数個、ジッタバッファに蓄積し、そこから音声パケットを一定速度で取り出して音声を再生する。後続するパケットの遅延が大きくなっても、ジッタバッファに音声パケットがある間は途切れることなく再生できる。途中で滞留していた複数のパケットが一気に到着してもジッタバッファに受信できればパケット落ちで音が途切れない。ジッタバッファの深さ（パケットを蓄積できる量）は、遅延のゆらぎが大きい場合は深く、小さい場合は浅く調整される。

　前置きが長くなった。表1は図3の実験構成でコーデック、PTIME、パケットサイズの違いが音質にどう影響するか実験した結果だ。コーデックがG.711の場合、PTIMEが20msと短く、パケットサイズが小さい場合は良好な音質だがパケットサイズが大きいと著しく悪い。

表1 Starlinkを使ったIP電話におけるコーデック、PTIME、パケットサイズと音質の関係

　G.711より低ビットレートで使えるOpusは、PTIMEが同じ20msでもパケットサイズはG.711の半分程度で、音質は「優」だ。OpusのPTIME40msはパケットサイズがG.711の20msより大きいのに音質がG.711より良いのはコーデックとしての性能が優れているからだろう。

　PTIMEが小さく、コーデックの圧縮性能がいいとパケットサイズを小さくできる。パケットサイズが小さいと衛星回線や地上回線上の伝送時間が短くなるだけでなく、パケットが回線に送出される際の待ち時間も短くなる。待ち時間は、回線使用率が75％だと伝送時間の3倍になる。パケットサイズが小さく伝送時間が短ければ、回線使用率が高く輻輳した状態でも待ち時間を抑えられ、伝送時間と合わせた遅延時間も抑制できる。遅延のゆらぐ幅が小さくなり、ジッタバッファからのパケット落ちが少なくなって音質が良くなるのだ。

　インターネットのように遅延のゆらぎが大きいネットワークではパケットサイズを小さくすることが肝要だと分かる。ちなみに、図3の構成ではネットワークの遅延はStarlinkの区間より、地上系のインターネット／4Gの区間の方が大きいと考えられる。なぜなら、Starlinkの区間では音声パケットは衛星で1回中継されるだけだが、地上系の区間では何度もルーターなどで中継されるからだ。

　「IPテレフォニー最前線」として、「Speech to Image」と「Starlinkを使ったIP電話」を紹介した。

　Speech to Imageは実用まで少し時間がかかりそうだが、Starlinkは既に利用できる。4G／5Gや光ファイバーが広く普及している日本では、へき地での利用やBCP（事業継続計画）が用途として考えられる。近い将来、スマートフォンとStarlink衛星が直接通信できるようになれば、モバイルの世界が大きく変わるだろう。

筆者紹介

松田次博（まつだつぐひろ）

情報化研究会（http://www2j.biglobe.ne.jp/~ClearTK/）主宰。情報化研究会は情報通信に携わる人の勉強と交流を目的に1984年4月に発足。

IP電話ブームのきっかけとなった「東京ガス・IP電話」、企業と公衆無線LAN事業者がネットワークをシェアする「ツルハ・モデル」など、最新の技術やアイデアを生かした企業ネットワークの構築に豊富な実績がある。本コラムを加筆再構成した『新視点で設計する　企業ネットワーク高度化教本』（2020年7月、技術評論社刊）、『自分主義　営業とプロマネを楽しむ30のヒント』（2015年、日経BP社刊）はじめ多数の著書がある。

東京大学経済学部卒。NTTデータ（法人システム事業本部ネットワーク企画ビジネスユニット長など歴任、2007年NTTデータプリンシパルITスペシャリスト認定）、NEC（デジタルネットワーク事業部エグゼクティブエキスパート等）を経て、2021年4月に独立し、大手企業のネットワーク関連プロジェクトの支援、コンサルに従事。新しい企業ネットワークのモデル（事例）作りに貢献することを目標としている。連絡先メールアドレスはtuguhiro@mti.biglobe.ne.jp。

Stable diffusionから派生した画像生成AI「stablediffusion-infinity」と「Waifu Diffusion」違いはどこ？　使い方も紹介
画像生成AI「Stable diffusion」の公開後、これを基にした画像生成AIが多数発表されている。Stable diffusionの派生AI、「stablediffusion-infinity」「Waifu Diffusion」の2つを紹介する。
「Stable Diffusion」でノイズから画像が生成される過程を確認しよう
ホントにノイズからノイズを除去していくとキレイな画像が生成されるのか。これを今回は自分の目で確認してみましょう。
テスラ車オーナーによる、衛星インターネット「Starlink」導入レポート！　気になる使い心地は？
衛星インターネットのStarlinkがサービスを開始した。通信速度は？　遅延は？　設置場所の最適解は？　アンテナの方角は？　気になる点について、早速導入した筆者の使用レポートをお届けする。
スターリンク（Starlink）とは？　【ITワード365】BNPL／マイナンバーカード／STEM教育／DNS／SEO／マルチキャスト
最新IT動向のキャッチアップはキーワードから。専門用語でけむに巻かれないIT人材になるための、毎日ひとことキーワード解説。