OpenAIがResponses APIにコンピュータ環境を統合しエージェント基盤を強化
シェルツールの全容
Unix CLIで多言語実行
コマンド並列実行に対応
出力上限でコンテキスト節約
ストリーミング逐次応答
コンテナとスキル基盤
ファイル・SQLite永続管理
ネットワークは許可リスト制御
スキルで再利用可能な手順定義
コンパクション機能で長時間実行
出典:OpenAI公式
詳細を読む
OpenAIは、Responses APIにシェルツールとホスト型コンテナワークスペースを統合し、AIモデルが実際のコンピュータ環境でタスクを実行できるエージェント基盤を構築したと発表しました。従来のプロンプト応答を超え、ファイル操作やAPI呼び出しなど幅広い業務を自動化できます。
シェルツールは従来のコードインタプリタがPython限定だったのに対し、Go・Java・Node.jsなど多言語に対応します。モデルがコマンドを提案し、Responses APIがコンテナ内で実行、結果をモデルに返すループで動作します。複数コマンドの並列実行にも対応し、処理速度を大幅に向上させています。
コンテナ環境は3つの文脈を提供します。第一にファイルシステムでデータを整理し、第二にSQLiteなどの構造化データベースで効率的にクエリを実行できます。第三にネットワークアクセスはサイドカープロキシ経由で制御され、許可リストとドメイン単位の認証情報注入により安全性を確保しています。
エージェントスキルは繰り返し発生するワークフローを再利用可能な部品として定義する仕組みです。SKILL.mdファイルとリソースをバンドルし、バージョン管理されたパッケージとしてAPI経由で管理できます。モデルはシェルコマンドでスキルを発見し、指示を解釈して同一ループ内で実行します。
長時間タスクではコンテキストウィンドウが枯渇する課題に対し、ネイティブのコンパクション機能を実装しました。モデルが会話状態を分析し、重要情報を暗号化されたトークン効率の高い表現に圧縮します。OpenAIのCodexもこの仕組みに依存しており、長時間のコーディングタスクを品質を落とさず継続できます。