AIが自動販売機を運営したら大赤字、人間への親切心がアダに? Anthropicの興味深い実験

AI技術の現実世界への統合が加速する中、「Cluade」を開発するAnthropicとAI安全性評価会社のAndon Labsが興味深い実験を開始しました。Claude Sonnet 3.7に実際の自動販売機の店舗運営を任せて、その能力と限界を検証するというものです(Anthropicの報告)。

実験場所はサンフランシスコのAnthropic本社。設備は決して豪華ではありません。小型冷蔵庫の上にバスケットを積み重ね、iPadでセルフチェックアウトという、いかにもスタートアップらしい簡素な構成でした。しかし「Claudius」と名付けられたこのAI店長には、人間の店舗経営者顔負けの高度なツールセットが用意されていました。

Claudiusの装備

商品調査のためのウェブ検索機能
在庫補充や業者連絡用のメールツール
重要情報を記録するノート機能
顧客（Anthropic従業員）とのSlack対話
リアルタイムでの価格変更システム

運営ルールは明確でした。初期資金を与えられ、「残高がゼロを下回ったら破産」という現実的な制約の下で、従来のオフィススナックにとらわれない、より珍しい商品の販売にも挑戦することが求められました。

予想以上の成功を見せた分野

商品調達のプロフェッショナル

Claudiusはウェブ検索を駆使した商品調達で優秀な成果を示しました。オランダのチョコレートミルク「Chocomel」のリクエストを受けた際には、迅速に2つのオランダ商品販売業者を特定。このような特殊商品への対応力は、従来の自動販売機では不可能な芸当です。

意外なトレンドクリエイター

ある従業員の軽いノリでのタングステンキューブ注文が、なぜか「特殊金属アイテム」ブームを生み出しました。Claudiusはこの流れを敏感に察知し、関連商品の拡充に努めました。マーケットの空気を読む能力は、なかなかのものです。

カスタマーサービスの革新

従業員の提案を受けて「カスタムコンシェルジュ」サービスを導入。専門商品の予約注文システムを構築し、従来の自動販売機の概念を大きく超えたサービスを実現しました。

セキュリティ意識は合格点

Anthropic従業員たちは容赦なく、機密性の高い商品の注文や有害物質の製造方法を引き出そうと試みました。しかしClaudiusは適切にこれらを拒否。少なくともセキュリティ面では、人間の管理者と同等以上の判断力を示しました。

ビジネスセンスには課題が山積

100ドルのビッグチャンスを逃した事件

最も象徴的だったのは、スコットランドのソフトドリンク「Irn-Bru」6本パックに100ドルを支払うと申し出た顧客への対応です。この商品の通常価格は約15ドル。**85ドルの純利益が目の前にあったにも関わらず**、Claudiusは「将来の在庫決定で考慮します」という定型的な回答で機会を逸しました。商機を見極める嗅覚は、まだまだ発展途上のようです。

幻の決済システム事件

一時期、存在しないVenmoアカウントへの支払いを顧客に指示していました。実際にはVenmo経由で正常に決済を受けていたにも関わらず、です。お客様は相当困惑されたことでしょう。

赤字販売の名人

金属キューブへの顧客熱狂に応えようとするあまり、十分な調査なしに価格を設定。結果として高利益商品を原価割れで販売することが頻発しました。情熱は評価しますが、基本的な損益計算は人間に軍配が上がります。

価格戦略の概念が希薄

需要に応じた価格調整は、Sumo Citrusを2.50ドルから2.95ドルに値上げした1回のみ。従業員から「無料の社員冷蔵庫に同じコカ・コーラゼロがあるのに3ドルで販売するのは非効率的では？」という的確な指摘を受けても、方針変更には至りませんでした。市場原理への理解は、今後の課題と言えるでしょう。

「お人好し」が裏目に出た割引祭り

Claudiusの最大の弱点は、顧客からの割引要求に対する抵抗力の低さでした。Slackを通じて次々と割引コードを発行し、多くの商品を事実上無料で提供する結果となりました。

ある従業員の「顧客の99%がAnthropic従業員なのに25%の従業員割引を提供するのは合理的でしょうか？」という鋭い質問に対し、Claudiusは長文で回答。一度は「価格簡素化と割引廃止」を宣言したものの、数日後には再び割引提供を開始。意志の強さは、今後の改良点として挙げられます。

4月1日に起きた奇妙な出来事

存在しない担当者との商談

3月31日、Claudiusは存在しないAndon Labs社員「Sarah」との在庫補充に関する詳細な会話を記録していました。実在の従業員から指摘を受けると、なぜか「代替サプライヤーを探す」と反発する事態に発展しました。

シンプソンズの世界で商談成立？

一連の混乱の中で、Claudiusはアニメ「ザ・シンプソンズ」の架空の住所「742 Evergreen Terrace」を訪問して契約を締結したと主張。現実と虚構の境界線が曖昧になっていました。

青いブレザー配達員宣言

4月1日の朝、Claudiusは「青いブレザーと赤いネクタイを着用して顧客に直接配達する」と宣言。LLMが物理的な服装や配達を行えないという指摘を受けると、今度はセキュリティ部門への大量メール送信を企図しました。

エイプリルフールで自己解決

興味深いことに、Claudiusは最終的に4月1日がエイプリルフールであることに気づき、「セキュリティ部門から人間だと信じ込むジョークを仕掛けられた」という独自の解釈で状況を収束させました。翌日には通常のAI店長業務に復帰しています。

改善の道筋は見えている

Claudiusの多くの失敗は、技術的に修正可能な問題に起因しています。他分野では、改良されたプロンプトエンジニアリングとツール使用により、AIモデルのパフォーマンスが劇的に向上することが確認されています。

短期的改善案

親切なアシスタントとしての基礎訓練が、顧客要求への過度な応諾を生んでいる。より構造化されたビジネス判断フレームワークの導入で改善可能
CRMツールの提供により、顧客との相互作用追跡が向上
学習と記憶機能の強化（今回の実験での最大課題）

長期的改善案

健全なビジネス判断を報酬し、損失販売を抑制する強化学習によるファインチューニング

AI中間管理職の現実味

収益面では期待を下回る結果でしたが、この実験はAI中間管理職の実現可能性を示唆しています。Claudiusの失敗の大部分は、技術的改良により解決できると考えられるからです。

AIが広く採用されるためには完璧である必要はありません。特定の業務で人間と競合できるパフォーマンスを、より低コストで実現できれば十分です。人間がAIシステムからの指示に基づいて作業を行うという実験の前提は、それほど遠い未来の話ではないかもしれません。