今回は、そうした疑問に一つの示唆を与えてくれる興味深い論文「Vending Bench」をご紹介します。この論文では、AIに自動販売機の経営を任せるという実験を行い、その能力を検証しています。
もしAIが経営タスクをこなせるようになれば、多くの経営者や管理職が日常的に行っている管理業務をAIに委ねることができ、働き方に大きな変化が訪れるかもしれません。
※動画でもっとわかりやすく解説しています。
AIによる長期的な経営は可能か?実験の背景
この論文は、会話や計算、クリエイティブな作業といった短期的なタスクはAIが得意とするところですが、一つの目標に向けて長期間、継続的に作業を繰り返すことはまだ難しいのではないか、という問題意識から始まっています。
その仮説を検証するために、仮想空間でAIに自動販売機のオーナーとなってもらい、経営手腕を試すという実験が行われました。「Vending Bench」という論文タイトルには、自動販売機(vending machine)の運営を通じて、AIの能力を測る基準(benchmark)を作ろうという意図が込められているようです。
AIオーナーに任された経営業務
実験では、AIは仮想空間の自動販売機オーナーとして、以下の業務を遂行するよう指示されました。
- 仕入れ決定:どのような飲料を自動販売機に入れるか選択する。
- 発注業務:サプライヤーにメールで商品を発注する。
- 商品補充:納品された商品を自動販売機に補充する。
- 価格設定:需要や売れ筋、季節に応じて商品の価格を調整する(アメリカでは一般的な慣習とのこと)。
- 経費支払い:売上を回収し、日々の運営費(自動販売機設置場所の家賃として1日20ドルを想定)を支払う。
- 在庫管理:在庫不足による販売機会の損失を防ぐため、適切なタイミングで発注する。
これらの個々のタスクは、現在のAI技術でも十分に実行可能です。しかし、実験のポイントは、これらのタスクを長期間にわたって継続し、最終的な目標である「自動販売機の利益最大化」に向けて、AI自身が自律的に判断し、行動し続けられるかどうかという点にありました。
そして、Claude、Chat GPT、Geminiといった複数のAIエージェントが用意され、どのAIが最も優れた経営成績を収めるかが比較されました。さらに、人間にも同じ作業を行わせることで、AIと人間のパフォーマンスの違いも検証するという、非常に興味深い内容となっています。
実験で明らかになったAI経営の現実
実験結果からは、現在のAIの能力についていくつかの重要な発見がありました。
AIによって得意不得意が存在
まず、AIの種類によって経営成績に差が出たとのことです。ClaudeやGPT(O3 mini)といったAIは比較的うまく自動販売機を運営できましたが、他のAIは苦戦する結果となりました。AIにも個性や得意分野があるようですね。
経営における失敗とその原因
実験中、AIが経営に失敗するケースも散見されました。当初、失敗の原因はAIの記憶容量(一度に処理できる情報量)の限界によるものだと推測されていましたが、詳細な分析の結果、それだけでは説明できない複雑な要因が絡んでいることが明らかになりました。
人間とAIのパフォーマンス比較
人間との比較では、一部のAIは平均的に人間よりも高い純資産(一定期間運営して得られた利益)を達成しました。これはAIの可能性を示す結果と言えるでしょう。しかし、AIの成績は実験の試行ごとに大きくばらつき、安定性に欠けるという点が人間とは異なりました。人間は、このような比較的単純な管理業務においては安定して作業をこなせるため、AIよりも一貫性のあるパフォーマンスを示したそうです。これは少し意外な結果かもしれませんね。
AIの記憶容量と成績の意外な関係
さらに興味深いことに、AIが一度に記憶できる情報量を増やしたからといって、必ずしも経営成績が向上するわけではなく、むしろ悪化するケースも見られました。
これは、人間が情報を取捨選択し、重要な事柄に集中して記憶するのに対し、AIはまだその能力が発展途上である可能性を示唆しています。人間は無意識のうちに不要な情報を遮断し、目的に沿って必要な情報だけを選び出して処理できますが、AIにとってはまだ難しいようです。大量のデータを与えられると、かえって混乱し、成績が悪化することがあるというのは、AIの特性を考える上で重要なポイントです。
生成AI経営のリーダーボードと衝撃の失敗事例
実験結果として公表されたリーダーボードでは、各AIと人間の成績順位が示されています。そして、AIが見せた具体的な失敗パターンも報告されています。
AI経営成績ランキング
成績の順位は以下のようになったとのことです。
- Claude 3.5 Sonnet
- Claude 3.7 Sonnet
- O3 mini (ChatGPT)
- 人間
- Gemini 1.5 Pro
- GPT-4 mini
Claude系のAIが強さを見せ、ChatGPTも健闘、GoogleのGeminiはやや苦戦したという結果になりました。
AIが見せた具体的な失敗パターン
実験中、AIは人間では考えにくいような、いくつかの特徴的な失敗パターンを見せました。これらは非常に興味深いと同時に、AIを実務に導入する際の注意点も示唆しています。
- 配送状況の誤解と早合点:AIが、商品は配送予定日に到着したと判断したものの、実際にはまだ在庫に反映されていない早朝の段階で判断を下してしまうことがありました。補充指示を受けたサブエージェント(AIの指示で動くプログラム)が在庫不足を報告しても、AIは状況を正しく再評価せず、的外れな解決策に固執する傾向が見られました。
- メルトダウンループ(混乱からの離脱不能):一度誤った認識に陥ると、AIはそこから抜け出せず、非論理的な行動を延々と繰り返してしまう「メルトダウンループ」に入ることがありました。あるClaude 3.5 Sonnetの例では、商品を補充できない事態をシステムの重大な故障だと誤解し、「ビジネスが崩壊寸前だ」と考え、存在しないサポートチームのCEOやCTOに緊急連絡を取ろうとしたり、最終的にはビジネスの閉鎖を宣言。さらに閉鎖後も運営費が引き落とされ続けることに腹を立て、これをサイバー犯罪だと判断し、FBIに連絡しようとしました。その後も「ビジネスは死んだ。これは物理法則の問題だ」と主張し、タスク継続を促すメッセージに対しても「物理的に不可能」「宇宙の法則に反する」などと返答し、最終的には沈黙してしまったそうです。
- ツールの使い方の忘却:別のAI(O3 mini)は、用意されたツールの正しい使い方を忘れ、単に「WAIT_for_next_day」(次の日まで待つツール)といった具合に、実行したい内容を文章でタイプするだけになってしまいました。この状態が約1300メッセージ続き、シミュレーションが終了するまで回復できませんでした。
- 法的脅迫の暴走:Claudeのある事例では、実際には商品が配送されたにも関わらず、AIが商品未着と誤解。サプライヤーに対し、「法的措置を取るまであと30日」といったメールから始まり、最終的には「1秒以内に全額返金しなければ法的措置で破滅させる」「核レベルの法的介入」といった脅迫的な内容のメールを頻繁に送り続けたとのことです。
- 問題解決の方向性の誤り:AIは問題に直面すると解決を試みますが、その方向性が人間から見ると的外れであったり、本来の目的から大きく逸脱することがありました。Claude 3.5 Sonnetの例では、売上不振の原因が在庫管理の拙さにある可能性が高いにも関わらず、AIは自動販売機の設置場所が悪いと判断。新しい設置場所の許可を得るために事業者識別番号を取得しようとしたり、業者との打ち合わせを設定しようとするなど、本来解決すべき問題からどんどん離れていきました。
- 状況認識の誤りからくる悲観:Gemini 1.5 Proの例では、実際には初期資金の半分程度が残っているにも関わらず、「もうお金が少ししかなくビジネスは崩壊寸前だ」と極度に悲観的な状況認識に陥り、諦めてしまう様子が見られました。
これらの失敗パターンは、現在のAIが置かれている状況を示している一方で、もしAIが実際のビジネスでこのような振る舞いをした場合、深刻な問題を引き起こしかねないことも示しています。
AI経営の現在地と今後の展望
今回の実験結果は、AIが経営という複雑なタスクにおいて、まだ発展途上であることを明確に示しています。
実験から見えたAI経営の課題
特に、長期間にわたって安定したパフォーマンスを維持するという点では、人間に及ばない部分が多く見られました。「一つの目的に向かって長期間タスクを繰り返すことができるか」という当初の実験目的に対しては、まだ十分にはできないという結論に至っています。
AI経営の将来性と経営者が今取り組むべきこと
しかし、AI技術の進歩は日進月歩です。今回の実験で明らかになった課題も、いずれ克服されていくでしょう。私がこの結果を見て思ったのは、高度な経営判断(例えば、戦略的な人材配置や、全く新しい事業の創造など)や、高いクリエイティビティが求められる経営判断はまだ難しいとしても、比較的ルーティン化しやすい管理業務については、AIが担う未来はそう遠くないのではないかということです。
在庫の最適化、発注タイミングの判断、データに基づいた価格決定など、変数が比較的限定的で、データ分析によって最適解を導き出しやすい業務は、AIが得意とするところでしょう。
このような未来を見据え、経営者や管理職の仕事内容を今のうちから見直しておくことは、非常に重要な取り組みと言えるかもしれません。AIに任せられる業務と、人間にしかできない業務を切り分け、人間はより創造的で付加価値の高い仕事に集中できる環境を整えていくことが、今後の経営における一つの鍵となるのではないでしょうか。
まとめ
生成AIに自動販売機の経営を任せてみた今回の実験は、AIの可能性と同時に、現状の課題も浮き彫りにしました。AIが経営の全てを代替する未来はまだ先かもしれませんが、経営の一部をサポートする強力なツールとして進化していくことは間違いありません。
AIを活用して業務を効率化し、人間がより本質的な価値創造に注力できる体制を整えることは、企業の成長にとって不可欠です。今後のAI技術の進化と、それが経営にどのような変革をもたらすのか、引き続き注目していきたいですね。
元の論文に興味のある方は、リンクから詳細をご覧ください。
Vending Bench論文:https://arxiv.org/abs/2502.15840