AIブラウザの現実と構造的課題：及川卓也からエージェント時代の開発者たちへ（2）

「AIブラウザ」という言葉を目にする機会が急に増えました。しかし、その盛り上がりにもかかわらず、「本当に実用的なのか」という疑問は拭えません。期待されている姿と、実際に試してみた時の手触りには、思った以上に大きな差があると感じています。

» 2025年12月01日 05時00分公開

[及川卓也，Tably株式会社]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　2025年後半、「AIブラウザ」という言葉を耳にする機会が一気に増えました。

　「ChatGPT Atlas」「Perplexity Comet」、Arcの流れを汲む「Dia」、そして「 Opera Neon」など、さまざまな企業が「AI搭載ブラウザ」を次々と発表しました。この活況ぶりは、ブラウザが再び主役の座を取り戻したかのような熱気に満ちています。

　未公開企業やベンチャー投資、M&Aなどのデータを提供するPitchBookの分析でも、ブラウザが再び注目される理由として「検索から委任へ」という大きな転換が語られています。これまではブラウザは「検索する→読む→判断する」という、人間が画面の前で行う操作のためのツールでした。しかし、AIに「探して」と一言伝えれば、必要なサイトに移動し、比較し、整理し、条件に合わせて選び、結果を返してくれる──そんな世界が本当に来るのではないかという期待が広がっています。

　この変化を「Googleの牙城を揺るがすチャンス」と捉える声もあります。先のPitchBookの分析でも、Webのエコシステムがこれで大きく変わると解説しています。確かに、AIを通じて目的に最短距離で到達できるようになり、“ゼロクリック”で情報が得られるということが実際に起きています。

　私は2000年代初頭にMicrosoftでInternet Explorerの開発に携わり、その後GoogleでChromeの立ち上げにも参加しました。こうした経緯から、現在見られる動きには、人一倍強い関心と大きな期待を寄せています。もちろん、CometやAtlasが利用可能になったと聞いた時点ですぐさま試してみました。

幻滅せざるを得ない現実

　AIブラウザに対する大きな期待とは裏腹に、エージェントモードを試したユーザーの反応は非常に厳しいものでした。私もその一人です。XやRedditをのぞくと、率直な不満や戸惑いの声が次々に出てきます。中でも多かったのは「とにかく遅い」という指摘です。数十秒どころか、簡単な操作に数分かかることも珍しくありません。画面の前でじっと待ち続けるうちに、「自分でやったほうが早い」と判断して操作を奪い返す。そんな投稿が幾つも見られました。

　動作が不安定という声も多く、ページを行き来するだけで無限ループに陥ったり、操作途中で固まってしまったり、理由が分からないまま別のタブを開き始めたりします。フォーム入力に挑戦したかと思えば、入力したはずの値を上書きしてしまうこともあり、「意図しない動作」が日常的に起きているという報告も少なくありませんでした。極め付きは「完了の幻覚（ハルシネーション）」です。予約や購入の操作を任せたところ、AIが「完了しました」と報告したにもかかわらず、実際には何も完了していなかったというケースが複数見られました。

　AIブラウザのAtlasやCometを試用した際、私はまさに「幻滅」を体験しました。定型的なコピペやルーチンワークの自動化を期待してAIに操作を任せたものの、スムーズな進行は望めませんでした。エージェントモードのAIは、思考過程や作業手順を「独り言」として可視化するため、その処理を待つ間、視覚的に思考や手順を追わざるを得ません。

　この状況は、初めてのお使いをする子どもを見守る親のようで、「がんばれ！」と応援してしまう自分に気付かされます。AIが何度もつまずく姿を見ると、つい介入して助けてしまいます。「任せておける」状態には程遠く、結果的に画面を監視し続けることになりました。

　失敗とやり直しを繰り返した結果、レート制限に達してしまうこともあり、AIによる自動化が「本当に楽になる未来はまだ遠い」と痛感させられました。

　もちろん、単に情報を読み取るだけのタスク（例：ページの要約）や、静的な画面での操作であれば、安定して動作します。しかし、そのような単純なタスクであれば、そもそもエージェントモードを利用するまでもなく、従来のスクレイピング技術で十分対応可能です。

なぜAIエージェントはWebを「理解できない」のか

　このようなAIブラウザの限界は、単なる「機能の未完成」では説明しきれません。より本質的には、Webという環境そのものがAIエージェントにとって扱いづらい構造をしているという点にあります。ここでは、その理由を少し丁寧に掘り下げてみたいと思います。

Webは「人間の視覚認知のため」に作られている

　私たちは画面を目で見て理解しています。商品の説明文の位置やボタンの色、ラベルの意味付けなどを、視覚的な文脈から自然に把握します。一方、AIが扱うのはDOM（Document Object Model）というツリー構造です。見た目ではすぐ隣にある要素が、実際には階層の深い別の枝にぶら下がっていることも珍しくありません。

　さらに近年のWeb アプリケーションは、ReactやVue.jsといったフレームワークで構築されるSPA（Single Page Application）が主流になりました。画面全体を都度読み込み直さず、一部だけを動的に書き換える仕組みはユーザー体験を高めますが、同時に“状態が絶えず変化する環境”を作り出します。Lazy Loadingで商品一覧が後から追加されたり、入力と同時に候補リストが挿入されたり、同じ場所にあるはずの要素がJavaScriptによって静かに書き換えられたりと、ユーザーインタフェース（UI）は常に動き続けています。

　人間は、この変化にごく自然に追従できます。視覚的な手がかりから「今なにが起きたか」を瞬時に捉え、次の行動をその場で調整できるからです。しかし、AI エージェントは本質的に OODA（Observe → Orient → Decide → Act）型で動きます。つまり、まず画面を“観察（O）”し、状況を“理解（O）”し、方針を“決め（D）”、そして“行動（A）”します。

　問題は、対象である今日のWebがあまりに動的であるため、AI が観察し判断した直後に、前提となるUIが既に変わってしまっていることです。AIがAct に移ろうとした瞬間、それまでのObserveの結果そのものが書き換わってしまう──いわば、踏み出そうとした足元の地面が静かにスライドするような状態です。

　この“前提の崩壊”が頻発するため、AIエージェントは計画通りに操作を進められず、途中で混乱したり、誤った手順に進んだり、無限ループに陥ったりします。SPAの動的性質とAIのOODA型の振る舞いは、構造的に衝突しているのです。

　さらに、LLM（大規模言語モデル）そのものの設計にも限界があります。LLM は本来「一度の入力に対して一度の推論で応答を返す」モデルであり、前提がリアルタイムに変化し続けるWeb操作には構造的に向いていません。UIが書き換わっても、その“変化自体”を検知する仕組みは弱く、AIは直前の観察結果を前提に動き続けてしまいます。本来であればプログラム的な制御──例外処理やループ処理、バックトラッキング──が必要となる場面までLLMに担わせている現状には、どうしても無理があります。

　加えて、近年のフロントエンドでは開発効率の観点から、DOM要素に付くクラス名がランダムな文字列になっていることも多く、AIが意味付けしづらい構造になっています。例えば “css-1a2b3c” のように、見た目のスタイル以外の意味を一切持たないクラス名が一般的です。また、本来スクリーンリーダー向けに意味を伝えるために用いられる ARIA（Accessible Rich Internet Applications）属性も、実際の現場では必ずしも正しく設定されているとは限りません。ラベルが誤っていたり、意図しない要素に付いていたりするケースも珍しくなく、これらがAIの判断をさらに混乱させます。

　では、DOMではなく人間と同じように画像として画面全体を認識させればよいのではと考える人もいるかもしれません。しかし、Vision Language Model（VLM）で画面を処理する方式には大きな制約があります。まず、画面全体を「画像」として扱うには莫大なトークンが必要で、処理は重く、推論時間も長くなります。また、画像として扱う以上、AIは静止画を前提に状況を把握するため、画面が書き換わるたびに丸ごと認識し直す必要が生じます。これでは、動的に変化し続ける現代のWebに追従することはできません。

　こうした背景が重なることで、AIがWeb上で「正しく理解しながら操作する」ことは、人間が思っている以上に難しいものになっているのです。

エコシステムの拒絶

　さらに厄介なのが、Web側がAIエージェントを歓迎していないという現実です。CloudflareなどのBot検知は、AIエージェントの挙動（高速すぎるページ遷移、不自然なマウス操作、ヘッドレスブラウザ特有の指紋）を即座に検知してブロックします。その結果、CAPTCHAばかりが表示され、AIは前に進めなくなります。

　また、Amazonをはじめとする大規模サイトは、AIエージェントによる自動操作を法的にも拒む姿勢を見せています。彼らはAIをユーザーではなくスクレイパーやBotとして扱い、アクセス自体を遮断する方向へ動いています。つまり、AIがWebを自由に歩き回るための社会的な許可が、現時点ではそもそも存在していないのです。

　投資家が期待するように、エコシステムは変わるのかもしれませんが、今現在活況を制しているWebのエコシステムはAIを前提とする新しいエコシステムを歓迎しているわけではないのです。

セキュリティ上の問題も　AIは「だまされやすい代理人」

　そして見逃せないのが、セキュリティ上の脆弱性です。AIブラウザの最も危険な点は、「ユーザーの代理人として操作できるのに、最もだまされやすい存在である」ということです。ページ内に隠された命令文（display:noneで隠したテキストなど）を読み取ってしまい、不正な操作を実行する「間接プロンプトインジェクション」が典型例です。

　人間なら違和感に気付くリンクや画面の崩れも、AIは「見た目」では把握できないため、巧妙な偽サイトに誘導される危険性も高まります。一般的なブラウザが持つ防御機構と比べても、防御率は大きく劣るという研究結果もあります。

　このように、AIエージェントがWebを正しく扱えない理由は「性能が足りない」という単純な話ではなく、Webの構造、AIのアーキテクチャ、そしてエコシステムの力学が複雑に絡み合った結果として生じている『構造的な限界』だと言えます。

デジタル世界でも環境は甘くない

　現在、AIはデジタルの領域から一歩外に踏み出し、「フィジカルAI」として私たちの日常生活の中に入ろうとしています。フィジカルAIとは、ロボットや自律エージェントが現実空間で人間の代わりに動き、タスクをこなす存在のことです。OpenAIやソフトバンク、NVIDIAといった大手企業も「フィジカルAIがやってくる」と語り、次の巨大市場として位置付けています。

　ただ、その未来像を思い描くとき、私はどうしても今のAIが置かれている現実を思い返してしまいます。というのも、今まで見てきたように、AIエージェントは物理空間どころか、デジタル世界であるWebでさえ、まだ自由に扱える状態には程遠いからです。Webはデータの世界だと誤解されがちですが、実際には人間の生活や商習慣、文化的な文脈がそのまま形として表れた、極めて人間くさい環境です。

　例えば、ページ構成やUIの変化には、マーケティングやデザインの意図がありますし、ECサイトや予約サイトにある独自仕様や複雑なフォームも、人間の業務や運用ルールが反映された結果です。言い換えれば、デジタル世界もまた人間社会の延長線上にあり、純粋な機械が迷わず動けるように整えられた場所ではありません。

　つまり、AIがWeb上でうまく立ち回れないのは、単なる技術不足ではなく、デジタル世界そのものが人間中心に最適化されてきた結果だと言えます。もし AIが現実空間へ本格的に進出するのであれば、Webですら手こずるAIが、この人間の営みが染み込んだ現実世界をどのように理解し、乗り越えていくのかが大きな課題になるでしょう。

　AIブラウザには、確かに未来を感じさせる瞬間があります。ページの上を縦横無尽にAIが動き、私たちの代わりに作業を進めてくれる。そんな世界は、これまでのWeb体験とは全く異なるものです。一方で、現在のAtlasやCometが示したのは、期待を実現するにはまだ越えるべき壁が多いという現実でした。Webの構造、LLMアーキテクチャ、セキュリティ、そしてエコシステムの受容性といった、根の深い構造的な課題が横たわっています。

　それでも、AIがインターネットとの関わり方を変えていく流れは確実に進んでいます。私たちがすべきことは、過度な幻想に飛びつくことではなく、この技術と適切な距離を保ちながら、その可能性を見極めていくことです。AIがWebを扱う未来は、まだ道半ば──しかし、その方向性だけははっきりと見え始めています。