AIエージェントの「見えなさ」が気持ち悪い　ブラックボックスとの現実的な付き合い方を考える：及川卓也からエージェント時代の開発者たちへ（3）（1/2 ページ）

AIエージェントの動きは、見えるようで見えせん。何か頼んだとして、うまく動いた場合も、失敗した場合も、理由が分からないのです。この曖昧さが、日々使っている私にとってはどうにも気持ち悪い。そんなAIエージェントとの現実的な付き合い方を考えてみました。

» 2026年01月06日 05時00分公開

[及川卓也，Tably株式会社]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　前回は、AIブラウザが画面の上で動き回る様子を取り上げました。リンクをたどり、文章を読み取り、操作しているように見えます。しかし、本当に何が起きているのかは、実際にはよく分かりません。

　この感覚は、一般的な生成AIチャットbotエージェントでも同じです。「Deep Research」などの作業ステップ表示を見ると、タスクを進めてくれている「らしい」ことは分かるものの、どの情報を読み、どう判断し、なぜその行動を選んだのかは見えてきません。目を凝らして眺めていても、一瞬で流れていってしまい、ちゃんと追いきれないのです。画面に一瞬だけ表示されるステップが、本当に内部の動きと一致しているかどうかも判断できません。

　失敗しているのなら理由を教えてくれれば、こちらも正しいやり方を伝えられるのに、とも思いますし、逆に「変なことをしていないだろうか」と心配にもなります。

　まるで、小さな子どもが初めてのお使いに出かけるのを親が見守るような感覚です。きちんと道順を理解しているのか、寄り道していないか、危ないことをしていないか……。つい、そんな気持ちでAIエージェントを見守ってしまいます。

　一方で、自分では思いつかないような進め方をしているなら、それを知りたいし、学びたいとも思います。「ああ、こういう調べ方をするのか」「こういう段取りで進むのか」など参考にしたい。だからこそ、「今何が起きているのか分からない」という状態が落ち着かないのです。

　エージェントが何をしているのか分からないまま使い続けるのは、個人としても不便ですし、開発者としても落ち着きません。では、実際にはどこまで明かされているのでしょうか？　そして、その「見えなさ」にどう向き合えばいいのでしょうか。

　なお、本稿では便宜上、ツール実行や複数ステップの判断を内部で行う生成AI全般を「AIエージェント」と呼ぶこととします。第1回で「何でもエージェントと呼ぶこと」に警鐘を鳴らした経緯を踏まえつつも、エージェントが抱える課題について言及するに当たり、広義のAI全般が対象となるため、今回はこのような対応をしています。

従来のITシステムにおける「ログ」の位置付け

　私たちは普段から、知らず知らずのうちに「ログ」に頼っています。例えば、自分のPC（私の場合はMacBook Pro）が急に重くなったり、Wi-Fiがつながらなくなったり、アプリが落ちたりしたときに、まず確認するのは、何が起きていたのかです。

　アクティビティモニタを開いてCPUの跳ねを見たり、最近開いたアプリのクラッシュ情報を調べたり。「このプロセスが暴れていたのか」「このアプリが落ちていたのか」といった手がかりを追って原因をつかみます。

　これがまさにログの世界です。Macの内部で起きていた出来事が記録されているからこそ、あとから振り返って原因を推測できるわけです。

　従来のITシステムもこの延長線上にあります。ひとことで言えば、私たちが長く扱ってきたITシステムは、原因を追えばどこかに必ずたどり着ける、比較的扱いやすい存在でした。その前提を支えていたのがログです。

　こうした性質を、情報システムの世界では「決定論」と呼びます。決定論的とは、同じ入力を与えれば、必ず同じ結果が返ってくるという性質のことです。

　　f(x) = 2x + 3

という関数にx = 10を入れれば、結果は必ず23になります。何度繰り返しても23。プログラムも基本的にはこれと同じで、「書かれているとおり」に動きます。

　だからこそログをたどれば「どこでつまずいたのか」を突き止められる可能性が高いのです。「少し重くなった」「レスポンスが遅い」「エラーになった」などなど。ログという痕跡を追えば、こうした問題の原因にたどり着ける。再現性も説明責任も、この前提があってこそ成立しています。

AIエージェントが従来ログの前提を破壊する

　従来のシステムは、障害対応や性能改善の際、原因究明が比較的容易でした。ログを確認すれば、少なくとも原因にたどり着く手がかりが得られるという期待があり、「ログを見る」ことが問題解決の出発点だったのです。

　ところがAIエージェントは、表面的にはスムーズに動いているように見えても、内部で何をどう判断しているのかがほとんど見えません。

　まず厄介なのは、既に説明した非決定性です。同じ入力を与えても、AIは毎回同じ結果を返すとは限りません。微妙な文脈の違いや確率的なゆらぎによって挙動が変わり、同じルートをたどってくれず、異なる結果になることがほとんどです。

　さらに、説明不可能性もあります。多くの商用生成AIは、内部の生の思考過程を返していません。画面上で見えているステップはあくまでも説明用に用意されたものであり、実際の内部推論そのものではありません。

　加えて、そもそもログが残らないという問題もあります。画面上に一瞬だけステップが見えることはありますが、後から追跡可能な形では残されていません。API経由で取れる各種ツール呼び出しに相当する「Function Calling」以外の行動履歴については、エンドユーザーがアクセスしたり再利用したりできる形では、ほとんどログが提供されていません。もちろん、サービス内部では詳細なログが取られているが、それが外部からはブラックボックスになっているのです。

　つまりAIエージェントでは、行動の理由や経緯を後から追うことが難しく、「何が起きたのか分からない」状態が起こりやすくなります。

　ただし、ここで誤解してほしくないのは、「だからAIエージェントは危険で使えない」という話ではない、という点です。むしろ重要なのは、従来のITシステムと同じ前提で扱おうとすると破綻（はたん）する、という事実です。

　行動の理由が見えない、ログが残らない──だからこそ、使い方や設計の段階で工夫が必要になります。完全なブラックボックスとして受け入れるのではなく、「どうすればマシに扱えるか」を考える対象になった、と捉えるほうが実態に近いでしょう。

AIエージェントに必要な新しい形のログとは？

　　　　　　 1|2 次のページへ

SpecialPR