検索
ニュース

強化学習によってIoT機器が自ら最適な無線チャネルを選択 東京理科大通信の安定性を「報酬」と考える

東京理科大学工学部電気工学科の教授を務める長谷川幹雄氏らのグループは、強化学習によって個々のIoT機器が自ら最適なチャネルを選択する自律分散型アルゴリズムを開発した。省電力、低性能の機器にも実装できる。

Share
Tweet
LINE
Hatena

 東京理科大学工学部電気工学科の教授を務める長谷川幹雄氏と慶應義塾大学大学院政策・メディア研究科の特任准教授を務める金成主氏らの研究グループは2019年11月11日、強化学習によって個々のIoT(モノのインターネット)機器が自ら最適なチャネルを選択する「自律分散型」のアルゴリズムを開発したと発表した。省電力で演算性能の低い機器に実装して検証した結果、30台以上のIoT機器が密集して稼働し、ネットワーク負荷が頻繁に変化するような環境でも、安定した無線通信に成功したとしている。

 IoT機器のような無線通信機器が密集した状況では、パケットの干渉や衝突など、ネットワークの混雑によるデータ転送の遅延や断絶の頻度が高まる。同じ周波数帯域でも異なるチャネルを使えばネットワークは混雑しないため、それに向けて、例えばその都度最適なチャネルを割り当てる「マルチチャネル」型アルゴリズムなどが開発されている。

画像

 ただ、工場やビル、農場などでデータをリアルタイム収集する目的に使われるIoT機器は一般に、省電力で演算性能が低い。そのため、機器ごとの時刻の同期や、機器間での頻繁な通信などが必要なマルチチャネル型アルゴリズムは、こうしたIoT機器への実装に向いていない。

「多腕バンディット問題」をモデルに

 長谷川氏らのグループが開発したアルゴリズムは、省電力で演算性能の低い機器にも実装できるアルゴリズムだ。強化学習の課題の1つである「多腕バンディット(MAB)」問題をモデルとした。

 強化学習は行動の結果得られる報酬が最大になるように学習する。MABは、ギャンブラー(バンディット)がスロットマシンから最大の報酬を得るために、当たる確率の高いスロットマシンを見つけ出そうとする問題。複数ある各スロットマシンは、事前に検証できないので、実際にプレイする途中で報酬を最大化するマシンを見つけ出す必要がある。

 長谷川氏らのグループは、金氏が開発した「綱引き(tug-of-war:TOW)」ダイナミクスと呼ぶ原理を基にした独自の強化学習アルゴリズムを用いた。これは、全ての無線通信チャネル(MABのスロットマシンに相当)が持っている報酬の総量が保存されるというルールに基づいたアルゴリズムで、無線通信のように報酬が得られる確率が環境に応じて変化しやすい用途に適しているという。

独自アルゴリズムで「1メートル四方の範囲に30台の機器」でも安定

 長谷川氏らのグループでは、開発したアルゴリズムを、独自のIoT機器に実装して検証した。検証用機器は、強化学習と少量のデータを送受信する機能のみを実装した。送信と受信を同時にはできず、送受信をしないときはスリープモードになる。

 データの送受信には、920MHz帯の物理層を使った標準規格IEEE 802.15.4g/4eの通信プロトコルを使用し、30台の検証用IoT機器と、チャネルの異なる3台のルーターを用意した。IoT機器は3つの無線チャネルの中から1つを選んでデータを送信し、データを受け取ったルーターからデータの到着を知らせるメッセージを受信する。IoT機器はルーターからのメッセージを受信することで送信が成功したと判断し、次の送信に備えてチャネルを選択するという仕組み。

 強化学習アルゴリズムを実装せず、あらかじめ設定したチャネルでのみ通信する機器でも同様に実験して比較した。その結果、独自アルゴリズムを実装した機器は、1メートル四方の範囲に30台を密集させても安定して通信できた。

 さらに一部のチャネルに負荷を加えて「疑似的にネットワークを混雑させても、チャネルを固定した比較用機器よりもチャネル接続の成功率が高い」ということが分かった。独自アルゴリズムを実装した機器では、ネットワーク中の全ての機器が公平なチャネル接続機会を得られていたという。

 また、チャネルに加える負荷を経時的に変化させると、負荷が高まったチャネルへの接続を回避しており、強化学習によって最適なチャネルを選択していることを確認したとしている。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る