OpenAIは1月23日(米国時間)、ユーザーの代わりにブラウザを操作してタスクを実行するAIエージェント「Operator」を発表しました。

OperatorはAnthropicのComputer Useやオープンソースのbrowser-useのように、AIがユーザーの代理人としてコンピュータを自動操作する仕組み。
サム・アルトマンCEOらはYouTubeライブで実際にデモを行いました。
OpenTable、eBay、Target、Uberといったサイトと提携していますが、それ以外のサイトでも利用可能。

Operatorでは、Computer-Using Agent(CUA)という新しいモデルを採用しています。これはビジョン機能付きGPT-4oを先進的な強化学習をで鍛え、人間がグラフィカルユーザーインタフェースを操作する様子を学習しています。
ユーザーがタスクを指定すると、左側にエージェントの動作履歴、右側にブラウザが開き、操作画面を確認できます。

ChatGPTのcustom instructionsに住所などの個人情報を入れておくと、入力フィールドを自動修正してくれます。

現行バージョンはresearch previewで、利用できるのは米国のChatGPT Proユーザーのみ。カレンダーの入力ができないなどの制限もあります。

対象地域では徐々にロールアウトしている模様で、今後2、3時間で対象ユーザーは利用可能になりそうです。


フォームへの入力、日用品の注文、創作活動に至るまで、内蔵ブラウザで、指定したタスクをタイピング、クリック、スクロールしながら実行していきます。
やれることはbrowser-useと同様ですが、途中でユーザーが一時停止して指定を追加・変更したりブラウザに入力したりといったことも可能です。ログイン、支払い情報入力、CAPTCHAの操作などは自動的にユーザー操作にスイッチします。

▲タスク実行の途中でユーザーによる介入もできる

▲Computer Use、browser-useとの比較
AIがエージェントとなる場合、さまざまな阻害要因やセキュリティの問題が懸念されますが、その対策も掲げています。

現在はセキュリティなどを検証中で、Plus、Team、Enterpriseプランへの拡大も予定しています。
追記:VPNを使い、Operatorにアクセスしてみました。今日の東京の天気を織り込んだ歌詞でsunoに作曲させたり、soraに動画を生成させるタスクをやらせてみました。
