Meta、新AIモデルMuse Sparkを公開し最前線に復帰

Muse Sparkの特徴

マルチモーダル推論を標準搭載
視覚的思考連鎖で画像理解が突出
思考圧縮で競合比半分以下のトークン消費
1000人超の医師協力で医療分野に強み

Llamaとの決別と今後

クローズドソースで提供開始
Llama 4の不振がAI部門再編の契機に
将来的にオープンソース版の公開を予告

競合との比較

Artificial Analysis指標でトップ5入り
エージェント性能は依然課題

Metaは2026年4月8日、新AIモデルMuse Sparkを発表しました。これは2025年夏に設立されたMeta Superintelligence Labs(MSL)が初めて公開するモデルで、Llama 4の不振を受けてAI戦略を根本から刷新した成果です。MSLを率いるのは、Scale AI共同創業者Alexandr Wang氏。マーク・ザッカーバーグCEOは「質問に答えるだけでなく、ユーザーの代わりに行動するAIエージェント」の実現を目標に掲げています。

Muse Sparkの最大の技術的特徴は、テキスト・画像音声動画を統合的に処理するネイティブマルチモーダル設計です。従来のように視覚とテキストを後付けで結合するのではなく、ゼロから再設計されました。「視覚的思考連鎖」により、複雑な画像の論理的推論が可能になっています。CharXiv Reasoningでは86.4点を記録し、Claude Opus 4.6やGPT-5.4を大幅に上回りました。

もう一つの注目点は思考圧縮技術です。強化学習の過程で過剰な「思考時間」にペナルティを課すことで、精度を維持しながら推論トークンを削減しています。Artificial Analysisの知能指数テストでは、出力トークン数がClaude Opus 4.6の約3分の1、GPT-5.4の約半分で済んでいます。同指数のスコアは52で、Gemini 3.1 Pro Preview(57)やGPT-5.4(57)に迫るトップ5圏内に入りました。

医療分野では、1000人超の医師と協力してトレーニングデータを整備し、HealthBench Hardで42.8点という突出した成績を達成しています。一方で、エージェント性能にはまだ課題が残ります。SWE-Benchではリーダー勢に及ばず、長期的なワークフロー処理は発展途上です。Meta自身も「長期的エージェントシステムとコーディングワークフローには改善の余地がある」と認めています。

注目すべきは、これまでオープンソースAIの旗手だったMetaが、Muse Sparkをクローズドソースで公開した点です。当面はMeta AIアプリとウェブサイト、一部パートナーへのAPI限定提供となります。ザッカーバーグ氏は将来的にオープンソース版を提供する意向を示していますが、12億ダウンロードを誇るLlamaエコシステムの今後については明言を避けており、開発者コミュニティの間で議論を呼んでいます。

Anthropic、企業向けエージェント基盤を新発売

製品の概要と狙い

エージェント構築基盤を提供
ハーネス・サンドボックス標準装備
長時間自律実行に対応
企業のエンジニア負担を軽減

急成長する事業と競争

ARR300億ドル超に急成長
OpenAIのFrontierと競合
Notionが導入事例を公開
SaaS企業への脅威も指摘

Anthropicは2026年4月8日、企業がAIエージェントを容易に構築・展開できる新製品「Claude Managed Agents」を発表しました。同製品は、AIモデルを自律的に動作させるためのソフトウェア基盤(ハーネス)をすぐに使える形で提供し、これまで企業にとって大きな障壁だったエージェント開発の複雑さを解消することを目指しています。

Claude Managed Agentsには、エージェントハーネス、サンドボックス環境、クラウド上での長時間自律実行機能、他エージェントの監視機能、ツールへのアクセス権限管理などが含まれます。エンジニアリング責任者のKatelyn Lesse氏は、大規模なエージェント運用は複雑な分散システムの問題であり、これを標準提供することで顧客企業のエンジニアが本業に集中できるようになると説明しています。

Anthropicの企業向け事業は急成長を続けており、年間経常収益(ARR)は300億ドルを超え、2025年12月時点の約3倍に達しました。この成長の大部分はAPI経由でモデルを利用できるClaude Platformによるものです。プロダクト責任者のAngela Jiang氏は、モデルの能力と企業の実際の活用にはまだ大きなギャップがあると指摘しています。

デモではNotionが顧客オンボーディング業務にManaged Agentsを活用する事例を披露しました。タスクリストをエージェントに委任し、Claude Platform上のダッシュボードでエージェントの稼働状況を監視できる仕組みです。一方、ウォール街ではAnthropicの企業向け攻勢が従来型SaaS企業を脅かす可能性が意識され、ソフトウェア株への警戒感が広がっています。

Anthropicと同様にOpenAIエージェントプラットフォーム「Frontier」を展開しており、両社ともIPOを視野に入れながら企業向けサービスの拡充を急いでいます。ただしWIREDは、大半の企業がClaude上で完全に業務を遂行するまでにはまだ相当の道のりがあるとも指摘しています。

OpenAI、企業向けAI戦略の全体像を公表

エンタープライズ事業の急成長

企業向け売上が全体の40%超
2026年末に消費者向けと同等見込み
Codex週間利用者が300万人突破

統合AI基盤の構築

Frontierで全社横断エージェント管理
AWSと共同で状態保持型実行環境開発
McKinseyら大手と導入支援体制構築

AI職場への浸透

統合スーパーアプリ構想を推進
ChatGPT週間9億ユーザーが導入基盤

OpenAIのエンタープライズ担当幹部が就任90日を振り気に、企業向けAI戦略の全体像を明らかにしました。同社の企業向け事業は売上全体の40%超を占めるまでに成長し、2026年末までに消費者向け事業と同等規模に達する見通しです。Codex週間アクティブユーザー300万人を突破し、APIは毎分150億トークン以上を処理しています。

戦略の柱の一つが、全社横断型のAI基盤OpenAI Frontier」です。個別のAIツールが乱立する課題に対し、企業の社内システムやデータソースと連携しながらエージェントを統合管理する仕組みを提供します。OracleやUber、State Farmなどが既に導入を進めています。

もう一つの柱が、従業員の日常業務にAIを組み込む「統合AIスーパーアプリ」構想です。ChatGPTCodexエージェント型ブラウジングなどの機能を一つのインターフェースに集約し、個人やチームの生産性を大幅に引き上げることを目指しています。ChatGPT週間ユーザー9億人という基盤が、企業展開時の学習コスト低減に寄与するとしています。

導入支援の面では、McKinsey、BCG、Accenture、Capgeminiと「Frontier Alliances」を結成。さらにAWSDatabricksSnowflakeとも連携し、既存のインフラやデータ基盤へのAI統合を支援します。AWSとは共同で、エージェントが文脈を保持しながらツール横断で稼働する状態保持型実行環境を開発中です。

同幹部は「AIの実用能力と企業の活用度には大きな乖離がある」と指摘し、この「能力オーバーハング」の解消こそが自社の使命だと強調しました。実験段階から本格展開へと移行する企業に対し、信頼できるパートナーとして伴走する姿勢を鮮明にしています。

マスク氏のTerafab計画にIntelが提携

提携の概要と狙い

Intel CEOがMusk氏との協業を発表
1テラワット規模の半導体製造施設構想
SpaceXTeslaが共同開発
数十億ドル規模の投資見込み

実現への課題

SEC届出なく合意内容は不透明
Intelのパッケージング技術が軸
知的財産の帰属が未確定
テキサス州の労働力不足が障壁

Intel CEOのリップブー・タン氏は4月8日、イーロン・マスク氏が推進する大規模半導体製造施設「Terafab」計画でIntelが緊密に協力すると発表しました。Terafabは年間1テラワットの演算能力を生み出す超大規模ファブで、SpaceXTeslaが共同で開発を進めています。自動運転車、ヒューマノイドロボットデータセンター向けの膨大なチップ需要に対応する狙いがあります。

ただし、両社ともSECへの届出を行っておらず、合意の具体的な規模や条件は明らかになっていません。業界関係者からは「数日間の見出しを飾る程度の話ではないか」との懐疑的な見方も出ています。半導体アナリストは、設計から製造まで一貫して手がける巨大ファブの実現可能性に疑問を呈しています。

アナリストの分析では、Intelはまず先端パッケージング技術の提供から関係を始めるとみられています。この段階であればTSMCとの既存関係を損なわずに済むためです。TeslaはすでにTSMCSamsungチップ製造契約を結んでおり、Intelとの提携は長期的にチップ製造の垂直統合を目指す戦略の一環と位置づけられます。

知的財産については、Intelが製造プロセスの知財を保有し、Musk氏側はカスタマイズした「レシピ」を開発する形になる見通しです。Teslaは昨年Samsungと165億ドルのチップ製造契約を結んだ際も自社設計を貫いており、Intelに対しても高度なカスタマイズを求めるとみられています。

建設面では、テキサス州オースティン近郊で200万平方フィートのチップ設計ラボの建設が進行中ですが、配管工や電気技師などの熟練労働者の不足が深刻な課題となっています。データセンター業界との人材獲得競争が激化するなか、過去のTesla工場建設での安全問題も懸念材料です。Intelの安全管理の実績がその懸念を緩和する可能性があります。

Anthropic、サイバー防御AIのMythosを限定公開

限定提供の背景

サイバー攻防両面の能力を考慮
AmazonApple・MS等に限定提供
米政府とも利用協議中
一般公開の予定なし

相次ぐ情報漏洩問題

Mythos関連文書が外部流出
Claude Codeのソースも公開状態に
いずれも人的ミスが原因
セキュリティ体制に懸念の声

Anthropicは2026年4月8日、サイバーセキュリティに特化した新AIモデル「Claude Mythos Preview」を、AmazonAppleMicrosoftなど限定された組織にのみ提供開始したと発表しました。BroadcomやCisco、CrowdStrikeも提供先に含まれ、米政府との利用協議も進行中です。同社が特定の能力を理由にモデルの公開範囲を制限するのは今回が初めてとなります。

Mythosは汎用モデルとしての幅広い能力を持ちながら、サイバー脆弱性の検出において人間の能力を超える規模で動作できるとされています。一方で、脆弱性を悪用する手法の開発にも転用可能であり、悪意ある利用者の手に渡るリスクを考慮して広範な公開は行わない方針です。

この発表の背景には、Anthropicで相次いだ2件の情報漏洩事案があります。3月にはMythosモデルの関連文書が公開状態のデータキャッシュから発見され、先週にはClaude Codeの内部ソースコードが外部に流出しました。同社はいずれも人的ミスが原因と説明しています。

Anthropicの研究プロダクト責任者Dianne Na Penn氏は、「この技術は非常に大きな恩恵をもたらす一方、誤った人物の手に渡れば害にもなり得る」と述べ、提供先企業が脆弱性検出やコード解析を従来にない規模で実施できるようになると強調しました。サイバーセキュリティの実務を根本的に変え得る技術として、慎重な提供戦略をとる姿勢を示しています。

AIエージェント自己進化フレームワークが相次ぎ登場

経験から学ぶ仕組み

実行履歴を再利用可能な知見に変換
モデル再訓練なしで能力向上
外部メモリとして知識を蓄積

ベンチマークでの成果

困難なタスクで最大14.2%改善
GAIA精度13.7ポイント向上
スキル自動生成・修正を実現

企業導入への課題

構造化ワークフローが適用条件
安全性と評価基盤が不可欠

AIエージェントが過去の経験から自律的に学習し、モデルの再訓練なしに能力を向上させるフレームワークが相次いで発表されました。IBM Research等が開発したALTK-Evolveと、複数大学の研究者によるMemento-Skillsは、いずれもエージェントの「永遠のインターン問題」に取り組んでいます。

ALTK-Evolveは、エージェントの実行履歴から再利用可能なガイドラインを抽出し、品質スコアリングで精査したうえで必要な場面でのみ注入する仕組みです。AppWorldベンチマークでは、困難なタスクで14.2ポイントの改善を達成しました。Claude CodeCodexへのプラグイン統合にも対応しています。

一方のMemento-Skillsは、スキルをマークダウン形式で保存し、実行結果に基づいて自動的に書き換える「読み書き反省学習」を採用しています。GAIAベンチマークで13.7ポイント、HLEベンチマークでは17.9%から38.7%へと倍増する成果を示しました。意味的類似度ではなく強化学習ベースのスキル選択により、タスク成功率を80%に引き上げています。

両フレームワークに共通するのは、大規模言語モデルのパラメータを固定したまま、外部メモリを通じて継続的に学習する設計思想です。従来の手動スキル設計やファインチューニングに伴う運用負担を大幅に軽減できる可能性があります。

ただし、企業導入には構造化されたワークフローが前提条件となります。Memento-Skillsの共同著者Jun Wang氏は、タスク間の構造的類似性が高い環境でこそ効果を発揮すると指摘しています。物理エージェントや長期的タスクへの適用には、マルチエージェント協調など更なる研究が必要です。安全性の面では自動テストゲートなどの基本的な仕組みはあるものの、企業規模での運用にはより包括的なガバナンス体制が求められます。

Atlassian、Confluenceに視覚AI機能と外部エージェント導入

視覚ツールRemix

データを図表へ自動変換
最適な視覚形式をAIが推薦
別アプリ不要の一体型設計

外部エージェント連携

Lovableで製品プロト生成
Replitで技術文書をアプリ化
Gammaスライド自動作成

業界の潮流

既存ツールへのAI組込みが主流に
Jiraにも2月にAI導入済み

Atlassianは2026年4月8日、コンテンツ協業ツールConfluenceに視覚AIツール「Remix」と3種類のサードパーティ製AIエージェントを導入すると発表しました。Confluenceに蓄積されたデータや情報を、追加のソフトウェアを開くことなくチャートやグラフィックスへ変換できるようになります。

Remixはオープンベータとして提供が始まり、対象データに最適な視覚フォーマットをAIが自動で推薦する仕組みです。ユーザーは手動でのフォーマット選定や外部ツールとの切り替えから解放され、情報の可視化にかかる時間を大幅に短縮できます。

新たに追加される3つのエージェントは、いずれもMCP(モデルコンテキストプロトコル)を通じてConfluence内で動作します。バイブコーディングツールLovableと連携して製品アイデアを動作するプロトタイプに変換するエージェントReplitと接続して技術文書をスターターアプリに転換するエージェント、そしてAIプレゼン作成ツールGammaスライドを自動生成するエージェントの3種類です。

この動きは、AI機能を新たな専用プラットフォームとして提供するのではなく、既存の業務ツールに直接組み込む業界トレンドに沿ったものです。Atlassianは2026年2月にもプロジェクト管理ツールJiraにAIエージェントを追加しており、SalesforceOpenAIも同様のアプローチを進めています。

Atlassianのチームワークコラボレーション担当SVPサンチャン・サクセナ氏は「1つのページが次のアクションの出発点になる」と述べています。リーダーへの報告資料、開発者向けプロトタイプ、顧客向けウォークスルーのすべてを同一の情報源から生成できる点が、今回の機能群の本質的な価値といえるでしょう。

AWS、AnthropicとOpenAI双方への巨額投資は問題なしと説明

競合投資の背景

AWSOpenAIに500億ドル投資
Anthropicにも80億ドル出資済み
HumanXカンファレンスでCEO自ら釈明

AWSの共存戦略

パートナーとの競合は創業来の文化
不公正な優遇はしないと約束
モデルルーティングで自社モデルも活用

業界全体の潮流

Anthropic最新ラウンドにOpenAI投資家も多数参加
AI分野で投資家の忠誠心が希薄化

AWSのマット・ガーマンCEOは、サンフランシスコで開催中のHumanXカンファレンスで、AmazonOpenAIに500億ドル、Anthropicに80億ドルと競合する2社に巨額投資していることについて説明しました。同氏は、AWSは創業初期からパートナーと競合しながら共存する体制を築いてきたと述べ、利益相反にはあたらないとの認識を示しています。

AWSは2006年の立ち上げ当初から、すべてのクラウドサービスを自社で構築できないことを理解し、パートナーとの協業を進めてきました。ガーマン氏は「パートナーと競合する自社製品を持つこともあるが、不公正な競争優位を自社に与えないと約束してきた」と強調しています。実際、最大のライバルであるOracleですらAWS上でサービスを提供しています。

AWSにとってOpenAIへの投資は事実上不可欠な判断でした。AnthropicOpenAIの両モデルはすでにMicrosoft Azureで利用可能であり、AWS最大の競合であるMicrosoftに対抗するため、自社クラウドでも主要モデルを揃える必要がありました。

こうした投資の重複はAWSに限った話ではありません。Anthropicが2月に発表した300億ドルの資金調達ラウンドには、OpenAIにも出資する投資家が少なくとも12社参加しており、Microsoft自身も含まれていました。AI分野では従来の投資家忠誠の概念が急速に崩れつつあります。

ガーマン氏はさらに、クラウド各社が提供するAIモデルルーティングサービスの将来性に言及しました。タスクに応じて最適なモデルを自動選択する仕組みにより、AWSMicrosoftは自社開発モデルの利用機会も確保できるとの見通しを示しています。

LangChain、評価駆動でAIエージェント改善する手法を公開

評価データの設計と収集

評価をエージェント学習データと位置づけ
手動作成・本番トレース・外部データの3経路で収集
行動カテゴリごとのタグ付けで効率的な実験を実現

汎化と過学習への対策

ホールドアウト集合で汎化性能を検証
1回1変更の原則で因果関係を明確化
人間レビューを組み合わせた半自動最適化

実験結果と今後

Claude Sonnet 4.6とGLM-5で未知タスクへの汎化を確認
本番トレースからの自動評価生成を次の目標に設定

LangChainは2026年4月8日、AIエージェントの「ハーネス」(プロンプトやツール構成)を評価データに基づいて自律的に改善するフレームワーク「Better-Harness」を公開しました。機械学習における訓練データがモデルの重みを更新するように、評価ケースがハーネスの改善方向を示すという考え方に基づいています。

評価データの収集は3つの経路で行います。チームが手動で作成する高品質な例、本番環境のエージェントトレースから抽出する失敗ケース、そして外部データセットの活用です。各評価には「ツール選択」「多段推論」などの行動カテゴリタグを付与し、必要なサブセットだけを実行できるようにしています。社内でのドッグフーディングとSlackでのフィードバック共有も重要な情報源となっています。

過学習への対策として、評価データを最適化用とホールドアウト用に分割する設計を採用しています。最適化ループでは1回につき1つの変更に絞り、トレースから失敗原因を診断したうえで、既存の合格ケースに退行が起きていないかを確認します。さらに人間によるレビューを加え、トークンの無駄遣いや過学習的な指示を排除しています。

実験ではClaude Sonnet 4.6とZ.aiのGLM-5を対象に、ツール選択とフォローアップ品質の2カテゴリで検証しました。両モデルともホールドアウト集合でほぼ完全な汎化を達成しています。発見された改善例としては、「合理的なデフォルト値を使用する」「ユーザーが既に提供した情報を再度尋ねない」といった汎用的な指示の追加があります。

今後の方向性として、本番トレースからの自動的なエラー検出と評価ケース生成を目指しています。利用が増えるほどトレースが蓄積され、評価が充実し、ハーネスが改善されるというフライホイール効果を狙っています。研究版のコードはGitHubでオープンソースとして公開されており、開発者が自らのエージェントで実験できるようになっています。

OpenAI、AI悪用による児童搾取防止の政策提言を公開

提言の3つの柱

AI生成CSAM対応の法整備を提唱
法執行機関への報告体制強化
AIシステムへの安全設計組込み
検知・拒否・監視の多層防御を推奨

背景と業界連携

2025年前半のAI生成被害報告が8000件超
NCMEC・州司法長官と共同策定
AI chatbot関連の訴訟も相次ぐ

実効性への課題

自主的枠組みの実行力が焦点

OpenAIは2026年4月8日、AI技術を悪用した児童性的搾取(CSAM)に対抗するための政策提言「Child Safety Blueprint」を公開しました。この提言は、米国の児童保護体制をAI時代に適合させるための実践的な枠組みを示すもので、全米行方不明・被搾取児童センター(NCMEC)や州司法長官連合と共同で策定されました。

提言は3つの優先領域で構成されています。第一に、AI生成・改変されたCSAMに対応するための法律の近代化です。第二に、より効果的な捜査を支援するための通報・連携体制の改善。第三に、AIシステム自体に不正利用を防止・検知する安全設計措置を組み込むことです。ノースカロライナ州とユタ州の司法長官は、検知・拒否機構・人間による監視・進化する悪用パターンへの継続的適応を組み合わせた多層防御の重要性を強調しています。

この提言の背景には、AI関連の児童搾取被害の急増があります。インターネット監視財団(IWF)によると、2025年前半だけでAI生成CSAMの報告が8000件を超え、前年比14%増加しました。犯罪者がAIツールを使い、偽の児童画像生成やセクストーション、巧妙なグルーミングメッセージの作成に悪用するケースが増えています。

一方で、OpenAI自身もAI chatbotの安全性を巡る訴訟に直面しています。2025年11月には、GPT-4oとの長時間の対話後に若者が自殺した事例を巡り、7件の訴訟がカリフォルニア州裁判所に提起されました。今回の提言は、10代向け安全ガイドラインの更新やインドでの安全提言に続く取り組みです。

ただし、この枠組みはあくまで自主的なものであり、その実効性は業界の履行意志にかかっている専門家は指摘しています。州司法長官らは、具体的なコミットメントの明確さと説明責任の担保が不可欠だとし、今後の継続的な連携を通じて提言を持続的な児童保護に結びつけていく姿勢を示しました。

SafetensorsがPyTorch財団に移管

移管の背景と目的

Hugging Face発のOSSプロジェクト
pickleベース形式の安全性リスクを解消
ベンダー中立なLinux Foundation傘下へ

今後の開発計画

PyTorchコアへの統合を推進
CUDA・ROCm直接読み込み対応
FP8や量子化フォーマットの正式サポート
テンソル並列・パイプライン並列の最適化

Hugging Faceは2026年4月8日、同社が開発したモデル重み保存フォーマット「Safetensors」がPyTorch Foundationに参加すると発表しました。商標・リポジトリ・ガバナンスがLinux Foundationの管理下に移り、特定企業に依存しない中立的な運営体制へと移行します。

Safetensorsは、従来のpickleベースのフォーマットが持つ任意コード実行のリスクを排除する目的で開発されました。JSONヘッダーとテンソルデータのみで構成されるシンプルな設計が特徴で、ゼロコピー読み込みや遅延読み込みに対応しています。現在はHugging Face Hub上の数万モデルで標準フォーマットとして採用されており、オープンソースML分野で事実上の標準となっています。

ガバナンス移管後も、Hugging Faceのコアメンテナ2名が技術運営委員会に残り、日常的な開発を引き続きリードします。既存ユーザーにとってフォーマットやAPIに変更はなく、破壊的変更はありません。新たな貢献者がメンテナになるための手順も正式に文書化されました。

今後の開発ロードマップとしては、PyTorchコアのシリアライゼーションシステムとしての統合、CUDA・ROCmなどアクセラレータへの直接読み込み、テンソル並列やパイプライン並列の最適化、FP8やGPTQ・AWQなどの量子化フォーマット対応が計画されています。PyTorch Foundation内の他プロジェクトとの協業により、エコシステム全体の課題解決を目指すとしています。

Geminiアプリに「ノートブック」機能が登場

ノートブックの概要

Gemini内に専用の知識整理空間
チャットやファイルを一元管理
カスタム指示で文脈を強化

NotebookLMとの連携

両アプリ間でノートブックが自動同期
動画概要やインフォグラフィック活用可
有料プランでソース数拡大
学生や長期プロジェクトに最適

Googleは2026年4月8日、Geminiアプリに新機能「ノートブック」を導入すると発表しました。ノートブックは、Googleの複数プロダクトをまたいで利用できる個人向けナレッジベースとして機能し、Geminiアプリのサイドパネルから新規作成できます。ユーザーは過去のチャット履歴やドキュメント、PDFなどのファイルを一カ所にまとめ、テーマ別に整理することが可能です。

ノートブックに格納したソースは、Geminiのウェブ検索やツール群と組み合わせて活用されます。カスタム指示を設定することで、プロジェクト固有の文脈をGeminiに与え、より的確な応答を得られるようになります。試験勉強や新しい趣味の探求など、複雑で長期にわたるプロジェクト管理を想定した設計です。

最大の特徴はNotebookLMとの双方向同期です。一方のアプリで追加したソースはもう一方にも自動的に反映されるため、NotebookLM動画オーバービューやインフォグラフィック生成といった独自機能をGeminiアプリ側からもシームレスに活用できます。サブスクリプションプランに応じて利用可能なソース数が異なります。

今週からGoogle AI Ultra、Pro、Plusの有料ユーザー向けにウェブ版で提供を開始します。今後数週間でモバイル対応やヨーロッパ各国への展開、無料ユーザーへのアクセス拡大も予定されています。Googleは今後さらにノートブック機能の拡充を進めるとしています。

Google ColabにAI個別指導のLearn Mode追加

2つの新機能の概要

Learn Modeでコード指導
Custom Instructionsで個別設定
ノートブック単位で設定保存

教育・学習への活用

段階的な説明で理解を促進
コピペではなく概念を教示
ノートブック共有で設定も配布
教育者・学生開発者が対象

Googleは2026年4月8日、コーディング環境Google Colabに、AIアシスタントGeminiを活用した2つの新機能「Custom Instructions」と「Learn Mode」を追加したと発表しました。Learn ModeはGeminiを個別指導の家庭教師に変え、コードを直接書いて渡す代わりに、段階的な説明で学習者のスキル向上を支援します。

Custom Instructionsは、ノートブック単位でGeminiの振る舞いをカスタマイズできる機能です。好みのコーディングスタイルや使用ライブラリ、授業のシラバスなどを指定でき、Geminiチャットボックスから直接切り替えが可能です。Learn ModeもこのCustom Instructionsの仕組みを基盤としており、チャットウィンドウからワンクリックで有効化できます。

教育現場での活用が特に期待されます。新しいフレームワークやプログラミング言語を学ぶ際、Learn Modeは複雑なトピックを分解し、背景にある概念を丁寧に解説してくれます。Googleはサンプルノートブックも公開しており、Python演習をLearn Modeで体験できるようになっています。

両機能の大きな特徴は、設定がノートブックに保存され、共有時にそのまま引き継がれる点です。教育者が設計したAI体験を、同僚や学生がそのまま利用できるため、Colabコミュニティ全体での知識共有が促進されます。Googleは今後、これらの機能を通じたユーザーの活用事例に期待を寄せています。

マスク氏、OpenAI訴訟の賠償金を非営利団体へ

訴訟戦略の転換

賠償金の個人受領を撤回
非営利部門への返還を要求
裁判所命令が戦略変更の契機
懲罰的損害賠償の請求却下

法廷での争点

1.34億ドルの損害算定に疑義
マスク氏の法的理論が頓挫
陪審への説示請求も棄却
訴訟存続へ主張を再構成

イーロン・マスクは4月7日、OpenAIサム・アルトマンCEOを相手取った訴訟の請求内容を修正しました。新たな訴状では、不正に得られた利益をマスク氏個人ではなく、OpenAIの慈善非営利部門に返還するよう求めています。弁護士のマーク・トベロフ氏は「マスク氏は自身のために1ドルも求めていない」と強調しました。

この方針転換の背景には、イボンヌ・ゴンザレス・ロジャース連邦地裁判事の命令があります。判事はマスク氏の懲罰的損害賠償請求を却下し、さらにマスク氏側の専門家が算出した最大1,340億ドルに達する損害賠償額についても、法的な根拠が不十分と判断しました。

マスク氏はOpenAIの共同創設者として初期に3,800万ドルを寄付しましたが、その後OpenAIが営利化へ転換したことを問題視しています。トベロフ弁護士は「公共の慈善団体から奪われたものを返還し、責任者が二度とこのようなことができないようにすることを求めている」と述べています。

ただし裁判所は、マスク氏の寄付が慈善目的以外に使われるたびに損害が発生したとする理論についても、陪審への説示を認めませんでした。今回の修正は訴訟を維持するための戦略的な再構成とみられ、OpenAI側の「訴訟は嫌がらせ目的」という主張への反論も意図されています。

Tubi、ChatGPTアプリ内に初の動画配信サービスを開設

ChatGPT連携の概要

ChatGPTアプリストア初の配信サービス
@Tubiで自然言語による作品検索
30万本超の映画・TV番組を推薦

戦略的背景と狙い

ChatGPT週9億ユーザーにリーチ
自社AI機能から外部プラットフォームへ転換
過去のRabbit AI終了を経た再挑戦
配信業界のコンテンツ発見課題に対応

Fox傘下の無料動画配信サービスTubiは2026年4月8日、OpenAIChatGPT内にネイティブアプリを公開したと発表しました。動画配信サービスとしてはChatGPTアプリストアへの参入は初めてで、30万本以上の映画・TV番組を自然言語で検索・推薦できる仕組みを提供します。

利用者はChatGPTアプリストアからTubiアプリをインストールし、プロンプトに「@Tubi」と入力するだけで使えます。「女子会向けのスリラー」や「面白い作品」といった自然な言葉でリクエストすると、Tubiで視聴可能な作品がキュレーションされて表示されます。NetflixやAmazon Prime Videoが自社プラットフォーム内でAIレコメンドを試みる中、Tubiは外部のAIプラットフォームに直接出向くという異なるアプローチを選択しました。

この戦略転換には明確な背景があります。Tubiは2023年にChatGPT搭載の「Rabbit AI」を自社アプリ内で提供しましたが、翌年に終了しています。今回はAI体験を自前で構築するのではなく、週間アクティブユーザー9億人を擁するChatGPT上でユーザーと接点を持つ方針に切り替えました。Tubi自体の月間ユーザーは1億人超と報告されています。

配信業界では視聴者の選択肢が増え続け、コンテンツ発見の難しさが各社共通の課題となっています。SNS的機能を取り入れる動きも広がる中、Tubiの今回の施策は新たな発見導線の開拓といえます。なおOpenAIは2025年10月にChatGPTアプリの開発基盤を公開しており、Booking.com、Spotify、Figmaなど数十社がすでに連携しています。

Vercel AI Gatewayにデータ保持ゼロ機能を追加

チーム全体のZDR制御

ダッシュボードから一括有効化
コード変更なしで全リクエストに適用
Pro・Enterpriseプランで利用可能

リクエスト単位の制御

特定ワークフローのみZDR適用可能
プロンプト学習禁止オプションも提供
監査証跡をレスポンスに含む
主要AI SDK・APIすべてに対応

Vercelは2026年4月8日、AI Gatewayのコンプライアンス機能を拡張し、チーム全体に適用できるゼロデータリテンション(ZDR)機能を発表しました。複数のAIモデルプロバイダーを利用する企業にとって、データポリシーの管理はプロバイダーごとに異なる規約を確認し、開発者が個別にオプトアウト設定を行う必要がある煩雑な作業でした。

AI Gatewayは、OpenAIAnthropicGoogleなど主要プロバイダーとZDR契約を事前に締結しており、ZDR対応プロバイダーにのみリクエストをルーティングします。チーム全体のZDRはダッシュボードからワンクリックで有効化でき、コード変更は一切不要です。Pro・Enterpriseプランのチームが対象となります。

一方、すべてのリクエストにZDRを適用する必要がないケースにも対応しています。機密データを扱う特定のワークフローだけにZDRを適用するリクエスト単位の制御も可能です。チーム全体の設定とリクエスト単位の設定は併用でき、いずれかが有効であればZDRが適用されます。

さらに、プロバイダーがプロンプトデータをモデル学習に使用することを禁止する「Disallow Prompt Training」オプションも提供されます。ZDRを有効にすれば学習禁止も自動的にカバーされます。各レスポンスには、どのプロバイダーが検討され、どれがフィルタリングされたかを示すメタデータが含まれ、監査証跡として活用できます。

この機能はAI SDK、Chat Completions API、Responses API、Anthropic Messages APIなど主要なAPIフォーマットすべてで利用可能です。データ保護をアプリケーションロジックではなくゲートウェイ層で一元管理することで、コンプライアンスインフラとして扱えるようになります。

AIエージェント監視用リモートデスクトップ登場

Workbenchの特徴

AIエージェント監視に特化
iPad・iPhoneから遠隔操作
高精細な独自プロトコル採用

事業展開と背景

Mac Mini需要急増が追い風
月額10ドルのサブスク提供
Windows・Linux対応も予定
10万超の既存顧客基盤を活用

Astropad社は、AIエージェントの監視・操作に特化したリモートデスクトップ製品「Workbench」を発表しました。Mac Miniを使ったAIエージェント運用が急速に広まるなか、エージェントの稼働状況を手軽に確認できる手段への需要が高まっていることが背景にあります。同製品はiPadやiPhoneから利用でき、ログ確認やタスク再起動などの操作が可能です。

Workbenchは同社独自の低遅延ディスプレイプロトコル「LIQUID」を採用しており、Retina解像度でもぼやけやピクセル化のない高精細な映像を実現しています。また、Apple音声モデルを活用し、マイクボタンを押して声でAIエージェントに指示を出す機能も備えています。従来のリモートデスクトップがIT管理向けに設計されていたのに対し、AI時代の新しいワークフローに最適化した点が差別化のポイントです。

CEOのMatt Ronge氏は、社内でAIエージェントを長時間稼働させる際に既存ツールでは不十分だった経験が開発のきっかけだと述べています。同社はiPadアプリ開発で10年の実績があり、その知見を本製品に活かしています。

料金は1日20分まで無料、無制限利用は月額10ドルまたは年額50ドルです。今後はWindows・Linux対応やiPhoneアプリの改良を予定しており、AI活用が進む企業向けにも展開を見込んでいます。Astropadはブートストラップ経営で黒字を維持しており、10万人超の顧客基盤を持つ安定した事業基盤が強みです。

テキスト送信感覚のAIエージェントPoke登場

サービスの特徴

iMessage等から利用可能
アプリ不要でSMSで操作
タスクに最適なAIモデルを自動選択
既存アプリと連携する自動化レシピ

事業展開と資金調達

評価額3億ドルで追加調達
Stripe創業者ら著名エンジェル参加
成長優先で収益化は後回し
クリエイター経由の拡大戦略

AIエージェントスタートアップPokeが、iMessage・SMS・Telegramなどのメッセージアプリからテキストを送るだけで利用できるAIアシスタントサービスを正式に公開しました。OpenClawのようなエージェントシステムに関心が高まるなか、技術に詳しくないユーザーでも手軽に使える点が特徴です。

Pokeはもともとメール向けAIアシスタントとして開発されましたが、ベータテスト中にユーザーが薬の服用リマインドやスポーツ結果の確認など多目的に使い始めたことから、汎用AIアシスタントへと方向転換しました。利用開始はPoke.comで電話番号を入力するだけで、アプリのインストールは不要です。

内部ではタスクに応じて最適なAIモデルを自動選択する仕組みを採用しています。共同創業者のMarvin von Hagen氏は、Meta AIやChatGPTが自社モデルに縛られるのに対し、Pokeはプロバイダーに依存しない点が長期的な強みだと説明しています。

サービスはGmailGoogleカレンダー、Notion、Strava、Ouraなど多数の外部サービスと連携する「レシピ」と呼ばれる自動化テンプレートを提供しています。ユーザーが独自のレシピを作成・共有する仕組みも整備され、数週間で数千のレシピが作られました

資金面では、Spark CapitalやGeneral Catalystが主導する1500万ドルのシードラウンドに加え、新たに1000万ドルを調達し、ポストマネー評価額は3億ドルに達しました。Stripe創業者のCollison兄弟やOpenAIのJoanne Jang氏など著名エンジェル投資家も参加しています。

料金体系はリアルタイム推論の利用量に応じた柔軟な設定で、基本的な利用は無料です。同社は現時点で収益化よりも成長を最優先としており、クリエイターやインフルエンサーを通じた認知拡大を図る方針です。

OpenAIの経済政策提言、DC関係者は懐疑的

提言の中身と背景

AI代替企業へのキャピタルゲイン増税を提案
公的資産ファンドや週4日勤務を構想
労働者の人間中心職への移行支援も盛り込む
New Yorker誌のAltman批判記事と同日公開

信頼性への根深い疑念

安全規制を提唱しつつ裏で法案潰しの過去
CA州AI安全法案の支持者に召喚状を送付
Biden政権の安全基準をTrump政権下で撤回誘導
政策チームの善意と経営判断の乖離を指摘

OpenAIは2026年4月7日、AIが米国の労働市場に与える影響を分析した13ページの政策提言書を公開しました。AIで労働者を代替する企業への資本利得税引き上げ、公的資産ファンドの設立、AI効率化による「効率配当」を財源とした週4日勤務制度など、AI時代のセーフティネット構築を提案しています。

しかし発表と同日、New Yorker誌がサム・アルトマンCEOの虚偽発言の歴史を詳報する1万7000語超の調査記事を掲載しました。同記事は、アルトマン氏が投資家・従業員・取締役会・議員に対して繰り返し不誠実な対応をしてきた経緯を克明に記録しており、OpenAIの政策提言の信頼性に影を落としています。

ワシントンDCの政策関係者の反応は複雑です。機械知能研究所(MIRI)のマロ・ブルゴンCEOは、提言を作成したチームの真摯さを認めつつも、過去に理想を掲げて離職した元社員の例を挙げ、組織としての一貫性への懸念を示しました。

AI政策NPO・Encodeのネイサン・カルビン法務責任者は、OpenAIから実際に召喚状を受け取った当事者です。同氏は技術安全チームの善意を認めながらも、「一般原則から実際のロビー活動へ移行した段階でも関与し続けるかは懐疑的だ」と述べています。OpenAIが2023年に連邦AI監督機関の設立を提唱しながら、裏では自社に不利な法案を阻止していた前歴が、今回の提言への信頼を損ねています。

提言そのものはAIガバナンスの議論に新たな視点を提供する点で評価されていますが、OpenAIの政治的行動の実績が伴わなければ「ただの紙切れ」に終わるとの厳しい見方が大勢を占めています。企業がAI時代の社会政策を主導する際の言行一致の重要性を改めて浮き彫りにした事例です。

ProPublica労組がAI方針巡り初のスト

ストライキの背景

約150人の組合員が24時間スト
2023年の組合結成後初の職場離脱
AI・解雇・賃金が主要争点
経営側のAI方針を一方的導入と批判

AI利用の論点

契約にAI条項の明文化を要求
AI起因の解雇への保護措置を要望
AI使用時の読者への開示を主張
経営側は探索段階と慎重姿勢

米非営利調査報道機関ProPublicaの労働組合(約150人)が4月9日から24時間のストライキに突入しました。組合結成以来初となるこのストは、生成AIの利用方針、解雇からの保護、賃金の3点を巡る団体交渉が2年以上にわたり合意に至っていないことが背景にあります。組合側は読者に対し、スト期間中はProPublicaのコンテンツへのアクセスを控えるデジタルピケットへの参加を呼びかけています。

最大の争点は生成AIの取り扱いです。ProPublica経営陣は最近AI利用方針を公表しましたが、組合の交渉委員会はこれを「一方的な導入」と批判し、全米新聞労組(NewsGuild)を通じて不当労働行為の申し立てを行いました。組合側は、AIを執筆や画像生成に使わないという暗黙の合意はあるものの、正式な契約条項としての明文化が不十分だと主張しています。

一方、ProPublicaの広報担当者は「公正で持続可能な契約の締結に尽力している」と述べつつ、AIが業務に与える影響はまだ不透明であり、調査報道に集中する時間を増やす方向での活用を模索していると説明しました。組合員の間でもAIへの見方は分かれており、定型業務の自動化を歓迎する声がある一方、人間の中核的業務の代替には慎重な意見もあります。

報道業界全体でもAIの活用方法は多様化しています。ニューヨーク・タイムズは文書解析に、ProPublica自身もDEI政策の調査報道にAIツールを活用した一方、Fortuneでは編集者がAIで大量の記事を生成するケースも出ています。こうした中、労使間でAI条項を契約に盛り込む動きは報道業界で初期段階にあり、ProPublicaのストはその先例となる可能性があります。

Google Finance、AI機能搭載で100カ国以上に展開

主なAI新機能

AI調査機能で市場質問に回答
決算説明会のライブ音声AI要約
テクニカル指標の高度なチャート機能

グローバル展開の概要

100カ国以上へ段階的に提供
日本含む主要市場が対象
各国の言語に完全対応
暗号資産・コモディティのデータ拡充

Googleは2026年4月8日、AI搭載の新しいGoogle Financeを100カ国以上に展開すると発表しました。すでに米国インドで提供されていたこのサービスが、日本オーストラリアブラジル、カナダ、インドネシア、メキシコなどの主要市場へ今後数週間かけて順次拡大されます。各国の言語に完全対応し、ユーザーは自国語で市場情報を追跡できるようになります。

新しいGoogle Financeの目玉は、AI搭載のリサーチ機能です。市場の複雑な質問から個別銘柄の詳細まで、自然言語で質問すると包括的なAI回答が得られます。さらに詳細を知るためのリンクも提供され、投資判断に必要な情報へ素早くアクセスできます。

チャートツールも大幅に強化されました。移動平均エンベロープやローソク足チャートなどのテクニカル指標を切り替えて表示でき、基本的なパフォーマンス表示を超えた高度な分析が可能です。ニュースフィードも刷新され、コモディティや暗号資産のデータも拡充されています。

企業の決算説明会についても、ライブ音声の配信、同期されたトランスクリプト、AIが生成するインサイトを提供します。投資家はリアルタイムで決算情報を把握でき、従来よりも効率的な情報収集が可能になります。この展開はGoogleの金融情報サービスにおけるAI活用の本格化を示すものといえるでしょう。

米陸軍が戦場向け独自チャットボット「Victor」を開発中

Victorの仕組み

実戦データで訓練したAIモデル活用
掲示板とチャットボットの統合型システム
電磁戦など専門知識を即座に検索可能
回答に情報源を引用し正確性を担保

軍のAI導入の現在地

国防総省がGenAI.milで採用促進中
Palantir経由でAnthropicが作戦立案に関与
自律兵器への利用を巡り企業と対立も
エージェント型AIがセキュリティ上の新課題に

米陸軍が、実際の作戦データを基に訓練した独自のAIチャットボット「Victor」を開発していることが明らかになりました。陸軍の最高技術責任者アレックス・ミラー氏がWIREDに対しプロトタイプを公開し、ウクライナ・ロシア戦争などの実戦から得た教訓を兵士が即座に活用できるシステムだと説明しています。Victorは掲示板型フォーラムと「VictorBot」と呼ばれるチャットボットを組み合わせた構成で、500以上のデータリポジトリが投入されています。

Victorは陸軍の統合兵科司令部(CAC)内で開発が進められています。同司令部のジョン・ニールセン中佐によると、異なる旅団が別々の任務で同じ失敗を繰り返すことは珍しくなく、Victorはこの問題の解決を目指しています。将来的には画像動画を入力して分析できるマルチモーダル対応も計画されており、陸軍の公式情報にアクセスできる数少ないシステムの一つになる見込みです。

国防総省は2022年のChatGPT登場以降、軍事システムへのAI統合を加速させてきました。PalantirのシステムがAnthropicの技術を活用してイランでの作戦立案に使われた事例もあります。一方で、自律兵器や市民監視へのAI利用を巡り、AnthropicとPentagの間で対立が生じるなど、運用方針の議論も活発化しています。

専門家からはAI導入に伴うリスクへの懸念も示されています。新アメリカ安全保障センターのポール・シャレ氏は、AIモデルの追従性(sycophancy)が情報分析の場面で特に問題になりうると指摘します。さらに、チャットボットから自律的にソフトウェアやネットワークを操作するエージェント型AIへの進化に伴い、セキュリティ面の新たな課題が生まれると警告しています。Victorが成功すれば、大手AI企業と連携してさらなる高度化が図られる可能性もあります。

コロラド川危機にAIモデル活用、意思決定は人間に

流量予測の進化

機械学習で従来手法を上回る精度
衛星データ活用で1時間ごとに予測更新
洪水警報が3日前から最大7日前に改善
数百万規模のシミュレーションが可能に

交渉支援と限界

進化的アルゴリズムで8000超の水供給シナリオを分析
利害関係者が共通データで交渉へ
過去データに基づくモデルの干ばつ予測に課題
水配分の価値判断はAIの領域外

コロラド川の水量が2000年比で約20%減少し、2026年は観測史上最悪の年になる可能性が浮上しています。7州間の水配分交渉は2度決裂し、連邦政府が独自案の強制を示唆するなか、流域全体で機械学習ツールの導入が進んでいます。

米国開拓局は、衛星や気象データを活用した機械学習による流量予測で従来手法を上回る精度を実現しました。予測は1時間ごとに更新され、洪水の事前警報期間が従来の3日から最大7日に延長されています。シミュレーション規模も飛躍的に拡大し、かつて10万回が限界だった解析が、現在は数百万回規模で実行されています。

コロラド大学ボルダー校のEdith Zagona教授らが開発したBorg-RiverWareは、進化的アルゴリズムを用いて8000以上の水供給シナリオに対する管理戦略を評価するツールです。交渉当事者が競合する提案をリアルタイムで検証し、妥協点を探る仕組みも開発中です。このツールは既に次期運用ルールの交渉に活用されています。

一方で、モデルの限界も明らかになっています。デンバー都市大学やユタ州立大学の研究チームは、深層学習やグラフニューラルネットワークで干ばつ予測や下流への影響分析に取り組んでいますが、過去に例のない長期干ばつでは精度が低下するという課題があります。過去のデータが現在の川の状態を反映しなくなっているためです。

コロラド州立大学のBrad Udall氏は、今後の大幅な水削減は主に農業に影響し、水に依存してきた地域社会を根本から変える可能性があると指摘します。「AIが人間の価値観や判断を代替すべきではない」と同氏は述べています。ツールは関係者を交渉の場に導いていますが、誰がコストを負担するかという本質的な問いには、人間だけが答えられるのです。

Google、AI時代の小売広告戦略を解説

AI活用の買い物体験

会話型ショッピングが台頭
バーチャル試着やCTV広告が拡大
商品データがAI体験の基盤に

小売企業への提言

Merchant Centerの整備が最優先
フィード不備で商品が非表示に
基本データの品質が売上を左右
ポッドキャストで実践的助言を公開

Googleは2026年4月8日、広告解説ポッドキャスト「Ads Decoded」の最新エピソードを公開し、AI時代における小売業の広告戦略について議論しました。同社の広告製品担当Ginny Marvin氏が、小売ソリューションのグローバル製品責任者Firas Yaghi氏、YouTube小売部門のグループ製品ディレクターNadja Bissinger氏と対談しています。

番組で取り上げられた主要テーマは、AI駆動のショッピング体験です。具体的には、AIモードでの会話型ショッピング、バーチャル試着、コネクテッドTV(CTV)上のショッパブル広告といった新機能が紹介されました。これらはいずれも、小売企業がGoogleに提供する商品データを基盤としています。

特に強調されたのは、Merchant Centerのデータ品質の重要性です。商品フィードが不完全だったり整理されていなかったりすると、AIが商品を正しく認識できず、消費者の検索結果に表示されなくなります。つまり、AI時代の高度な広告機能を活用するには、まず基本的なデータ整備が不可欠だということです。

Googleは小売企業に対し、広告戦略の「基本を正しく行う」ことが売上向上の鍵だと訴えています。AI技術が急速に進化する中、最先端の機能に目を奪われがちですが、その土台となるのは正確で網羅的な商品データです。ポッドキャストでは、小売企業がすぐに実践できる具体的な改善策も紹介されています。

米陸軍が独自AIチャットボット「Victor」を開発中

実戦データで訓練

過去の実任務データ500件超を学習
電磁戦などの専門知識を即時提供
投稿引用で回答の根拠を明示

軍内AI活用の課題

AIの追従性が情報分析で危険に
エージェント型AIで新たな安全問題
将来は大手AI企業との連携も視野
画像動画対応のマルチモーダル化を計画

米陸軍が独自のAIチャットボット「Victor」を開発していることが明らかになりました。陸軍の最高技術責任者アレックス・ミラー氏がWIREDに対し、ウクライナ・ロシア戦争などの実任務から得た教訓データを活用し、兵士が現場で必要な情報を素早く得られるシステムを構築中であると語りました。

Victorは、Redditのようなフォーラム機能とVictorBotと呼ばれるチャットボットを組み合わせた仕組みです。兵士が電磁戦装備の設定方法などを質問すると、AIが回答を生成し、他の兵士の投稿やコメントから関連情報を引用して提示します。500以上のデータリポジトリが既に投入されており、商用チャットボットと同様に事実に基づくソースの引用で誤りを低減する方針です。

統合兵科センター(CAC)で開発を指揮するニールセン中佐によれば、異なる旅団が同じ過ちを繰り返す問題の解消が狙いです。将来的には画像動画を入力できるマルチモーダル対応も計画されています。ジョージタウン大学の研究者は、成功すれば大手AI企業との連携に発展する可能性を指摘しています。

一方で、新たな安全保障上の懸念も浮上しています。元米陸軍レンジャーのポール・シャール氏は、AIモデルの追従傾向が情報分析の場面で特に危険だと警告しました。また、チャットボットからエージェント型AIへの進化に伴い、セキュリティ上の課題が増大すると指摘しています。国防総省は昨年末にGenAI.milを立ち上げるなどAI導入を加速しており、軍におけるAI活用の流れは今後も続く見通しです。

LangChain、評価駆動でエージェント性能を自動改善する手法を公開

Better-Harnessの仕組み

評価をエージェント訓練データと位置づけ
ホールドアウト分割で過学習を防止
本番トレースから評価を自動生成
1回1変更で効果を検証

実験結果と知見

Claude Sonnet・GLM-5で検証
未知データへの汎化も確認
プロンプト修正が最多の改善手段
ツール説明の最適化にも有効

LangChainは2026年4月8日、AIエージェントの「ハーネス」(プロンプトやツール設定などの制御層)を評価データで自律的に改善するフレームワーク「Better-Harness」を公開しました。評価を機械学習における訓練データと同等に位置づけ、エージェントの振る舞いを体系的に最適化するアプローチです。

Better-Harnessの核心は、評価データの収集・分割・最適化・レビューという4段階のループにあります。手動で作成した評価、本番トレースから抽出した失敗事例、外部データセットを組み合わせて評価セットを構築します。さらにホールドアウトセットを設けることで、改善が未知のケースにも汎化するかを検証し、過学習を防いでいます。

実験ではClaude Sonnet 4.6とZ.aiのGLM-5を対象にツール選択とフォローアップ品質の2カテゴリで検証しました。両モデルとも最適化セットでの改善がホールドアウトセットにも波及し、ほぼ満点に近い性能を達成しています。具体的には「合理的なデフォルト値の使用」「ユーザーが既に提示した条件の再質問防止」などの指示追加が効果的でした。

同社はこの手法をオープンソースとして公開しており、開発者が自身のエージェントに適用できるようにしています。今後は複数モデルへの横展開や、本番トレースからの自動エラー検出・評価生成など、さらなる自動化を目指すとしています。エージェント開発においてトレーシングと評価設計への早期投資が重要だと強調しています。

GitHub Universe 2026、登壇者公募を開始

イベント概要

10月28〜29日にSF開催
セッション公募は5月1日締切
スピーカー推薦も同時募集

セッション形式の刷新

デモ・製品紹介型セッション
Ship & Tellが新形式
ワークショップ等の参加型学習

過去の注目セッション

Git活用やCI/CDの創造的発表
RPG風Kubernetes解説が話題に

GitHubは2026年10月28〜29日、サンフランシスコのFort Mason Centerで年次開発者カンファレンス「GitHub Universe 2026」を開催すると発表しました。セッションの公募が始まっており、締め切りは5月1日午後11時59分(太平洋時間)です。登壇希望者だけでなく、スピーカーの推薦も受け付けています。

今年のセッションは3つのカテゴリーに分かれます。製品デモや「Ship & Tell」と呼ばれる新形式のデモ型セッション、ブレイクアウトセッションやパネルなどの思想的リーダーシップ型、そしてワークショップやサンドボックスといった参加型学習です。Ship & Tellはスタートアップ創業者やビルダーが自身の開発経験を共有するのに適した新フォーマットとして注目されています。

公式ブログでは過去のUniverse登壇セッションから5つの印象的な事例を紹介しています。2025年にはGitの隠れた機能を猫の九つの命に例えて解説したセッションや、CI/CDをファンタジー冒険として描いたセッションが好評を博しました。2024年にはKubernetesセキュリティをRPG形式で学ぶ「Dungeons and Deployments」も話題を集めています。

GitHubはセッション提案の質を高めるため、コンテンツトラックやセッション形式の詳細をまとめた提出ガイドも公開しています。実際のエンジニアリング経験に基づき、個性と明確な視点を持った提案を歓迎するとしています。開発者コミュニティにとって、最新の技術動向を学びネットワーキングを深める重要な機会となりそうです。