生成AI×自動運転で注目のTesla・Waymo・NVIDIA　各社が目指す「フィジカルAI」は何が違うのか：ものになるモノ、ならないモノ（100）

日本政府が戦略的強化分野に掲げる「フィジカルAI」――その社会実装の最前線の一つが自動運転システムだ。熾烈な開発競争が繰り広げられている中、生成AIの進化は各社の競争にどのような変化をもたらしているのか。Tesla、Waymo、NVIDIAの最新動向を整理する。

» 2026年06月17日 05時00分公開

[山崎潤一郎, 編集：石川俊明，＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　日本政府が戦略的強化分野として「フィジカルAI」というキーワードを掲げて注目を集めている。高市首相が2026年の年頭会見で引用したことでも話題となったが、これはかつてDX（デジタルトランスフォーメーション）の文脈で盛んに語られた「デジタルツイン」の一歩先を行く概念だ。

　デジタルツインが、センサーやカメラを使って物理的な「モノ・空間・システム」をデジタル上に忠実に複製・再現するモデルだとすれば、フィジカルAIは、デジタルツインにAIを融合させたものだ。

　AIが現実空間の仕組みを理解し、自律的なフィードバックによって現実世界の機器を動かす――。フィジカルAIの例としてヒューマノイド型ロボット、産業用ロボット、自律型ドローンが挙げられる中、市場の規模感の大きさや社会実装が近い領域として特に期待されているのが「自動運転システム」だろう。

　そこで本稿は、SAE（Society of Automotive Engineers：米国自動車技術会）が定める「レベル4」以上の無人走行による自動運転システムを巡る近年のトレンドや、主要各社の技術的なアプローチの違いを整理する。

SAEが定義している運転技術の自動化レベル

　ただ、こうした従来のレベル分けの枠組み自体、業界内では「形骸化」の兆しもあるようだ。ある大手国産メーカーの自動運転開発責任者は、筆者にこう漏らしている。

「国際基準が現実の技術に追い付かなくなっている。SAEのレベル分け自体、そのうち意味のないものになるだろう」

　なぜ、従来の基準が通用しなくなりつつあるのか。その背景には、生成AIの進化による技術開発手法の変化がある。

生成AIの進化で「自動運転」の意味が変わった　そのワケ

　自動運転システムの開発手法は、従来のルールベースから「E2E」（End to End）へと移行しつつある。ルールベースとは、「人間があらかじめ書いた『If-Then』のルール集で動くシステム」のこと。「前方の信号が赤だったらブレーキを踏む」といった決め事を大量に記述することで、自動運転の実現を目指していた。

　だが、ルールベースには以下のような課題があり、無人走行のような本格的な自動運転システムの実現が遅々として進まなかった。

人間が想定していない状況には対応できない
現実の道路はルールで書き切れないほど複雑
ルールが増えると互いに矛盾が生じやすい

　これらの課題は、クルマを運転したことのある読者なら容易に想像がつくだろう。ルールベースは「人間の知識をコードに翻訳したもの」であり、「全ての交通状況を網羅できる全知全能の開発者」でもない限り、あらゆる状況に臨機応変に対応する人間のドライバーと同等の仕組みを構築するのは大変だ。いや、不可能だと言ってもいい。

ルールベースの場合「ルールエンジン」の部分を作り込む必要がある

　そこで、自動運転技術のアプローチとしてE2Eが主流となりつつある。人間がコードを書く代わりに、大量の走行データをAIに学習させ、自動運転における判断の根拠をAI自らに構築させる方法論だ。ChatGPTのような対話型AIサービスがインターネット上の各種データを学習して構築されているのに対し、E2Eは、現実世界から集めたデータをAIが学習するアプローチだ。これがフィジカルAIといわれるゆえんだ。

　E2Eの代表的な事例は、Teslaが開発しているバージョン12以降の「FSD」（Full Self-Driving）というシステムだろう。世界中を走る数百万台のテスラ車両から、人間が運転した際のカメラなどのデータを日々収集し、FSDの開発に利用しているのは有名な話だ。

　バージョン12以前の「FSD」は、車両からのデータとルールベースによる判断を組み合わせたハイブリッド手法で開発されていた。しかし、2023年に「人間が書いた30万行のC++スパゲティコード（ルールベース）を捨て、数百万個のビデオクリップから学習したニューラルネットワークに置き換えた」とTeslaのイーロン・マスク氏が公言しているように、Teslaは「純粋」なE2Eへとかじを切った。

　2023年8月26日にはイーロン・マスク氏が、初期段階の純粋なE2Eによる自動運転でシリコンバレーをドライブする様子をX（旧Twitter）でライブ配信した。

　約45分にも及ぶ「FSD BETA v12」によるドライブだったが、マスク氏自身、最後に「とてもスムーズ。1回の介入があったけど学習量を増やせば直る」と絶賛した。そして、配車サービスであるUberのドライバー評価に例えて「介入がなければ星5つ」と結んでいる。

　イーロン・マスク氏の配信から2年、Teslaは2025年6月からテキサス州オースティンの一部地域において、FSD Unsupervised（ドライバーによる監視なし）を搭載したロボタクシーの検証を開始した。当初は安全監視員が同乗する形で運行され、2026年1月からはごく一部の車両で「監視員なし」の無人走行に移行した（※無人走行車両の後方で安全監視員が乗った追跡車両が伴走しているとも報じられている）。

Teslaのロボタクシー。ステアリングなどの操作系装置が一切付いていない。ただ、X上では、ステアリング付き車両をドライバーが操作してドライブしている動画が流布している

　そして2026年5月28日、テキサス州の公道における無人自動運転車両の商業運行に対して、事前認可取得を義務付ける法律が施行された。本法の施行以前は、FSD Supervised（監視付）でロボタクシーの検証を実施していたTeslaだが、義務化により今後どのような形で検証を実施するのかが問われている状況でもある。こうした海外の動きは、日本の道路運送車両法などの安全性評価の方向性がどうなるのかという論点とも重なる。

ロボタクシーのWaymoは、E2Eとは異なるアプローチ

　では、自動運転システムの開発において、TeslaのようなE2Eが唯一の正解なのかというと、別のアプローチを採る企業もある。

　フェニックス、サンフランシスコ、ロサンゼルスの一部地域において、運転席に誰もいない「完全無人」のタクシーサービスを商用レベルで提供しているWaymoだ。同社は、本稿執筆時点（2026年6月）でE2Eによるアプローチを採用していない（なお、Waymoは日本交通やタクシーアプリの「GO」と提携し、東京でもAIのトレーニングを開始している）。

芝公園付近を走行するWaymoの検証車両　ドライバーが運転席に座り監視付で検証している。Jaguar I-Paceを改造した車両で約40個のLiDARやカメラなど豊富なセンサー類を搭載した車両だ

　Waymoが推進しているのは、従来のルールベースとも異なる「モジュール型ML（機械学習）」アプローチだ。これは、システムを「認識」「予測」「計画」「制御」といったモジュールに分割し、各モジュールを現実世界から取得したデータで学習させるというものだ。

　従来のルールベースでは、人間が書いたコードで制御していたが、そこにニューラルネットワークを導入することでルールベースの欠点を補おうという考えだ。

　Waymoの共同CEO（最高経営責任者）であるドミトリ・ドルゴフ氏は、米メディア「Understanding AI」の取材に対し、Teslaのようなモノリシック（単一の大規模ニューラルネットワーク）なE2Eアーキテクチャについて、「導入は非常に簡単だが、安全かつ大規模に完全自動運転を実現するには全く不十分だ」と指摘している。

　Teslaが採用する純粋なE2Eは、モノリシックな巨大ニューラルネットワークの中で、認識・判断・制御を単一のAIが一括処理していることから、「なぜその判断をするのか」を事前に説明できないというデメリットがある。人命に関わる可能性もある自動運転において、欧州や日本の規制当局が認可を出す際に重視するAIの「説明可能性」の確保が困難というわけだ。

　ただし、WaymoもE2Eという手法そのものを否定しているわけではない。Googleの「Gemini」を活用したE2Eマルチモーダルモデル「EMMA」を発表しており、次世代ソリューションとして、Waymo車両への導入に向けた研究を進めている。

　EMMAの革新的な部分は、車両からのあらゆる情報を「自然言語」として扱う点にある。「道路脇からボールが転がってきた。子どもが飛び出すかもしれないから回避行動をとる」といった“人間的”な予測行動を、AI自らが言語化（出力）できる。つまり、E2Eの処理能力を生かしつつ、事前・事後に人間が評価・検証できる「説明可能性」を持たせようという試みだ。

Waymoは「説明できる安全性」を最優先にしているため、各モジュールを個別にテスト・検証できるモジュール型を維持

自動運転に人間のような思考力を与える？　NVIDIAが本格参戦

　熾烈な自動運転技術の開発競争が進む中、NVIDIAが「Alpamayo」という名称のシステムで本格参戦してきた。しかも、オープンソースでの提供となる。つまり、下図にあるように、Alpamayoの根幹をなす「1. VLAモデル」「2. 大規模データセット」「3. シミュレーター」を無料で開放するという。ただ、オープンソースでの提供となると、NVIDIAのビジネスモデルが気になる。

　これは筆者の推測だが、GPU（推論コンピュータ）、レファレンスプラットフォーム、GPUクラウドのようなトレーニング環境といった、ハードウェアとその周辺の仕組みを販売するのではないのだろうか。

　同社のGPU向け「並列計算プラットフォーム」および「プログラミングモデル」であるCUDAを無償で開放したことと本質的に似た戦略にも思える。つまり、「標準を握ることで、ハードウェアの必然的選択肢になる」という構造をAlpamayoでももくろんでいるのではないだろうか。しかし、自動車市場特有のリスクもありCUDAの成功モデルがそのまま通用するとは限らない。

　Alpamayoを巡ってはメルセデス・ベンツCLAへの搭載が最初の量産車向け展開として予定されている。2026年3月中旬に開催された「NVIDIA GTC Keynote 2026」ではジェンスン・フアンCEOがBYD、ヒョンデ、日産、ジーリーもパートナーとして加わったことを発表している。

　2016年には「PilotNet」と呼ばれるE2E方式の先駆け的な実験を進めていたNVIDIAだが、複雑な交通シナリオに対して脆弱（ぜいじゃく）な面があったことから後継の研究に分岐した過去がある。同社はこの検証でE2Eの知見だけでなく、限界を思い知ったともいえる。

　NVIDIAは、PilotNetの検証で得たE2Eの弱点をAlpamayoで克服しようとしている。PilotNetの経験を通じて純粋なE2Eのみでは「完全自動運転（レベル4～5）を社会実装するのは不可能だ」という結論に至ったのだ。

　Alpamayoを一言で表すと、「自動運転に人間のような思考力を与えるAIプラットフォーム」だ。これは、純粋なE2Eの課題とされているブラックボックス問題への、NVIDIAとしての解といえる。

　Alpamayoは、VLA（Vision-Language-Action）モデルという仕組みによって実現される。VLAの各要素は以下の通りだ。

Vision（視覚）：複数カメラ・LiDAR・レーダーで周囲を「見る」
Language（言語）：「なぜそう判断したか」を自然言語で説明できる
Action（行動）：具体的な走行軌道（ステアリング・ブレーキ操作）を出力する

Alpamayoの概要　大規模データセット内にあるHugging Faceとは、AIモデルとデータセットの世界最大級のオープンソースAIプラットフォーム。オープンソースであることの証左でもある

なぜAIに「説明可能性」が必要？　日本の道交法から考える

　自動運転システムの実装を議論する上で、日本の道路交通法第38条の「横断歩道における歩行者保護の義務」を取り上げたい。条文では「横断しようとしている歩行者」とあるだけで、具体的な行動基準（車道に足を踏み出した、直前で立ち止まっているなど）は明記されていない。

　明確な行動基準が定められていないため、ドライバーの主観、そしてもし事故が起きた場合には警察の取り締まり基準、司法の解釈（裁判）といった人間同士の判断が積み重なる曖昧な状況だ。

　こうした状況に置かれた場合、TeslaのようなモノリシックなE2E方式は「過去の学習データに基づく統計的なパターンマッチング」で処理する。結果として、人間のドライバーと同じようにクルマを減速・停止させることは可能だとしても、システム内部には「歩行者保護の義務があるから」という法的な理由は存在しない。これでは、万が一事故が起きた際に、警察や裁判所、あるいは社会に対して「なぜその挙動をとったのか」を人間の言葉で証明できない。

　Alpamayoは歩行者を認識した上で、システム内部で「法律上の義務」を言語的に推論し、停止という行動につなげる。これなら、なぜ止まったのか、あるいはなぜ止まれなかったのかを事前・事後に言葉で説明・検証することが可能になる。ただし、AlpamayoのVLAモデルなら万全かというと、やはり実走行データへの依存は免れないだろう。現実世界からのフィードバックを大規模データセットとして積み重ねるプロセスが必要な点では、従来の手法と同様だ。

　またLLM（大規模言語モデル）が学習した知識が、必ずしも世界共通の常識とは限らないリスクもある。国や地域によって交通法規や暗黙の慣習が異なれば、誤った推論を導く可能性も否定できない。

　つまり、歩行者が本当に渡ろうとしているのか、それともただ立っているだけかという歩行者の意図を推定するには、LLMだけではなくカメラ・センサー類からの情報が不可欠だ。Alpamayoのアプローチは、「実走行データ」と「LLMの持つ世界知識」の両面を掛け合わせて学習を進めようとしているというわけだ。

上記は筆者の特ダネ写真なのだが、自車で横浜市内を走行中偶然、Alpamayoの検証車両に遭遇した。車両の側面には「Mercedes-Benz AG」「NVIDIA Corporation」の文字が書かれていた。右写真は信号待ちのときにiPhoneで撮影、左写真の画質が荒れているのは、解像度の低いTeslaのサイドカメラ画像によるもの

自動運転、日本ではいつ？　FSD Supervised（レベル2）の動向に注目

　ここまで解説してきたように、Tesla、Waymo、NVIDIAが取り組む自動運転システムは、それぞれ異なる哲学や技術アプローチに基づいている。自動運転の社会実装は、単なるAIの推論やハードウェア制御の進化といった技術論にとどまらず、各国の法制度、国際標準化、地域の交通文化までも複雑に入り組む、一筋縄ではいかない複雑な領域だ。

　自動運転技術の動向を占う上で、直近で大きなトピックが幾つかあった。2026年4月10日に、オランダ車両局（RDW）がTeslaの「FSD Supervised」の型式認可を発行し、オランダ国内での使用が可能になったのだ。またオランダに続き、デンマーク、ベルギーなど、5カ国で承認に至っている。

　Teslaは「2026年夏のEU（欧州連合）全域承認」を目標に掲げているが、2026年6月のEU自動車技術委員会の会合においてスウェーデン、フィンランドなど北欧の国が懸念を示しており、EU全域での承認が2027年第1四半期にずれ込むとみる向きもある。ちなみに、世界に目を向けると、米国、カナダ、中国、韓国、オーストラリアなどを含め13カ国で認証済みだ。

　安全性を説明できないブラックボックス型のモノリシックなE2Eに対し、WP29（自動車基準調和世界フォーラム）やISO（国際標準化機構）が定める高度運転支援に関する規制もある中、欧州当局が最終的にどのような判断を下すのか。結果次第では、今後の自動運転技術の勢力図を大きく左右する可能性もある。

　そしてこの議論は、日本にとってもひとごとではない。Tesla Japanの代表者は「2026年内のFSD Supervisedリリースを日本で実現したい」とメディアで公言している。

　レベル2とはいえ、型式認定取得済みのフリート車両に対し保安基準に影響する機能変更（ステアリング・ブレーキ制御など）をOTAアップデートで追加する場合、「特定改造許可・届け出」が必要になる。何よりも安心・安全を重視する日本が、ブラックボックス化したTeslaのFSD Supervisedにどのような裁定を下すのか。

　この結果次第で、レベル4の無人自動運転システムに対する日本の規制当局の考え方や方向性を占うことができるだろう。その動向を慎重に見守りたい。

著者紹介

山崎潤一郎

音楽制作業の傍らIT分野のライターとしても活動。クラシックやワールドミュージックといったジャンルを中心に、多数のアルバム制作に携わる。Pure Sound Dogレーベル主宰。ITライターとしては、講談社、KADOKAWA、ソフトバンククリエイティブといった大手出版社から多数の著書を上梓している。また、鍵盤楽器アプリ「Super Manetron」「Pocket Organ C3B3」などの開発者であると同時に演奏者でもあり、楽器アプリ奏者としてテレビ出演の経験もある。音楽趣味はプログレ。

X（旧Twitter） ID: yamasaki9999