コンテキスト(LLM技術)に関するニュース一覧

AI開発の成否はモデルより「文脈設計と工程刷新」が鍵

失敗の本質的要因

導入企業の多くで生産性が低下する現実
モデル性能よりコンテキスト不足が主因
既存工程への追加は摩擦と手戻りを招く

成功への技術的アプローチ

情報を構造化する文脈エンジニアリング
仕様書を信頼できる唯一の情報源
エージェントCI/CDへ完全統合
テスト駆動による自律的な改善ループ

多くの企業で自律型AIコーディングの導入が進んでいますが、期待通りの成果が出ていません。VentureBeat等の分析によると、失敗の主因はAIモデルの性能ではなく、環境側のコンテキスト設計」の欠如にあります。単にツールを導入するだけでは生産性は向上しないのが現実です。

成功の鍵はコンテキストエンジニアリングです。AIエージェントに対し、コードの依存関係や設計意図、テスト環境などを構造化して提供する必要があります。膨大な情報をただ与えるのではなく、適切なタイミングで必要な情報を渡す設計力が、AIの回答精度を左右します。

ワークフローの抜本的な見直しも不可欠です。既存の開発工程を変えずにAIを導入すると、AIが生成したコードの検証や手戻りに人間が時間を割かれ、かえって効率が低下します。仕様書を「信頼できる唯一の情報源」とし、プロセス自体をAI前提に最適化すべきです。

堅牢なテスト環境とガバナンスが運用の前提となります。AIエージェントを自律的な貢献者として扱い、CI/CDパイプラインに統合して厳格なテストや監査を通す仕組みが必要です。テストが充実して初めて、AIは自律的な改善サイクルを回すことができます。

今後はAIの活動履歴をデータ資産として扱う視点が勝敗を分けます。エージェントの計画、実行ログ、判断プロセスを蓄積・検索可能にすることで、組織のエンジニアリング能力が資産化され、長期的な競争優位性へとつながるのです。

AIを指揮し28日でアプリ完成、OpenAIが示す開発の新常識

圧倒的なスピードと品質

4人とAIで28日間で構築
コードの85%をAIが記述
クラッシュ率0.1%未満の高信頼性

AIを「部下」として扱う

実装前に計画立案を指示
iOS版コードを正解として参照
AGENTS.mdで指針を共有

エンジニアの役割変化

実装者から指揮者へシフト
システム設計力が重要化
AI自身がAIツールを改善

OpenAIは2025年11月、動画生成AI「Sora」のAndroidアプリをわずか28日間で開発・公開しました。たった4人のエンジニアチームが、同社のAIエージェントCodex」を駆使し、コード全体の約85%をAIに記述させたのです。本記事では、彼らが実践したAIを部下のように扱う「指揮者型」開発手法と、エンジニアに求められる新たなスキルセットについて解説します。

通常、これだけの規模と品質を持つアプリ開発には、多数のエンジニアと数ヶ月の期間を要します。しかし同社は、GPT-5.1をベースとするCodexを活用することで、プロトタイプ作成から18日、一般公開までさらに10日という驚異的なスピードを実現しました。完成したアプリはクラッシュ率0.1%未満と、人間主導の開発と遜色ない高い信頼性を誇ります。

成功の鍵は、AIへの指示方法の転換にありました。単に「機能を作れ」と命じるのではなく、まず既存コードや仕様を読ませ、実装計画を立案させます。人間がその計画をレビューし承認した後に初めてコーディングさせるのです。これにより、AIが文脈を無視したコードを書くリスクを排除し、手戻りを最小化する確実な進捗を生み出しました。

また、先行していたiOS版のソースコードを「正解の見本」として読み込ませた点も奏功しました。言語は異なってもビジネスロジックは共通であるため、CodexはSwiftのコードを解析し、Android用のKotlinコードへと正確に翻訳・実装しました。これは、AI時代の新たなクロスプラットフォーム開発の形と言えます。

この事例が示唆するのは、エンジニアの役割が「コードを書く人」から「AIを指揮する人」へと変化している事実です。AIは実装力に優れますが、全体設計やユーザー体験の良し悪しは判断できません。これからのエンジニアには、AIに適切なコンテキストを与え、出力された成果物を正しく評価するシステム設計力が不可欠になります。

さらにOpenAIは、Codex自体の開発にもCodexを活用しており、ツールの大部分がAIによって構築・改善されています。AIがAIを進化させるサイクルが加速する中で、人間はより本質的な「何を、なぜ作るのか」という問いに向き合う必要があります。私たちは今、ソフトウェアエンジニアリングの再定義を迫られています。

Portが1億ドル調達、AIエージェント管理でSpotifyに対抗

評価額8億ドルへの躍進

シリーズCで1億ドルを調達
評価額8億ドルに到達
LGやGitHubなど大手顧客を獲得

AIエージェント管理の課題

開発現場でのエージェント利用が急増
統制なき導入によるカオス化が懸念
データ分散やセキュリティが課題

Port独自の解決策

エージェントオーケストレーション機能
人間による承認プロセスを統合
コンテキストガードレールを一元管理

イスラエルのスタートアップPortは12月11日、シリーズCラウンドで1億ドルを調達したと発表しました。評価額は8億ドルに達し、Spotifyの「Backstage」に対抗する社内開発者ポータルとして、AIエージェント管理機能を強化します。

開発現場ではコーディングだけでなく、インシデント解決やリリースマネジメントなど多岐にわたる業務でAIエージェントの活用が進んでいます。しかし、ツールやデータが分散し、企業としての統制がないまま導入が進み、現場が混乱するリスクが高まっています。

Portはこの課題に対し、単なるツールカタログに留まらないオーケストレーション層を提供します。「Context Lake」機能により、エージェントが必要とするデータソースやガードレールを定義し、安全で正確な業務遂行を支援することが可能です。

また、エージェントのパフォーマンス測定や、必要に応じて人間が承認を行う「ヒューマン・イン・ザ・ループ」のプロセスも統合されています。同社のCEOは、エンジニアの業務の90%を占めるコーディング以外のタスクを効率化すると強調します。

今回の調達資金を活用し、PortはAIエージェント管理市場での地位確立を急ぎます。LangChainやUiPath、大手テック企業など多くの競合がひしめく中、開発者体験とガバナンスを両立させるプラットフォームとしての真価が問われます。

CohereがRerank 4発表、検索精度と自己学習で進化

処理能力4倍増と2つのモデル

コンテキスト窓が4倍の32Kに拡大
用途別でFastとProの2種
金融や医療競合モデルを凌駕

AIエージェント最適化と自己学習

自己学習機能で追加データ不要
AIエージェントエラーと試行削減
100以上の多言語に対応し高精度

Cohereは12月11日、企業向け検索モデルの最新版「Rerank 4」を発表しました。前バージョン比で4倍となるコンテキストウィンドウを備え、AIエージェントの性能と企業の検索精度を劇的に向上させます。

最大の特徴は32Kトークンへの対応拡大です。長い文書や複数の情報を一度に評価可能となり、従来は見落とされていたセクション間の関係性や文脈のニュアンスも正確に捉えられるようになりました。

高速な「Fast」と高精度な「Pro」の2種を展開します。Eコマースやコード検索にはFast、複雑なデータ分析やリスクモデル生成にはProと、用途に応じた使い分けによりコスト対効果を最大化できます。

AIエージェント運用における情報の選別能力が強化されました。不要な情報を事前に排除することで、後続のLLMによるトークン消費を抑えつつ、試行回数の削減と回答精度の向上を実現します。

業界初となる「自己学習機能」を搭載した点も革新的です。追加のアノテーションデータを用意せずとも、ユーザーの利用パターンから好みのコンテンツを学習し、特定の業務ドメインに合わせて精度を最適化できます。

100以上の言語に対応し、主要なビジネス言語で高い検索性能を発揮します。金融や医療分野のベンチマークでも他社モデルを上回るスコアを記録しており、グローバル展開する企業のインフラとして有力な選択肢です。

Microsoft、AI指示を最適化する動的UI「Promptions」公開

言語化の負担を解消する新技術

プロンプト作成の試行錯誤を大幅に削減
入力内容に応じ調整用UIを自動生成

動的UIによる直感的な制御

言語化不要でニュアンスを伝達可能
静的設定より高い柔軟性と発見性

開発者向けにOSSで提供

MITライセンスで無償公開
既存アプリへの組み込みが容易

Microsoft Researchは2025年12月10日、生成AIへの指示(プロンプト)作成を支援する新たなUIフレームワーク「Promptions」を発表しました。ユーザーの入力内容に合わせて動的に操作パネルを生成し、対話の精度と生産性を劇的に向上させる技術です。

従来のAI利用では、意図通りの回答を得るために何度も指示を書き直す「試行錯誤」が大きな課題でした。特に専門的なタスクにおいては、詳細度や役割設定、出力形式などを正確に言語化することに多くの時間を費やし、ユーザーが本来の業務や学習に集中できない状況が生じていました。

Promptionsはこの問題を解決するため、ユーザーの入力文脈を解析し、最適な「調整オプション」を即座に可視化します。例えば数式の解説を求めた際、対象読者のレベルや説明の深さをスライダーやボタンで直感的に選択できるため、長く複雑なテキスト指示を入力する負担から解放されます。

社内の実証実験では、あらかじめ固定された設定項目を使う場合と比較して、動的に生成された選択肢の方がユーザーの心理的負担が少ないことが判明しました。さらに、提示された選択肢が思考の補助線となり、ユーザー自身が気づいていなかった「本当に知りたかった視点」を発見する効果も確認されています。

技術的には、ユーザーと大規模言語モデル(LLM)の間に介在する軽量なミドルウェアとして機能します。開発者は既存のチャットインターフェースにコンポーネントを追加するだけで、文脈に応じた高度な制御機能を容易に実装することが可能です。

本フレームワークはMITライセンスのオープンソースソフトウェアとして、GitHubおよびMicrosoft Foundry Labsですでに公開されています。カスタマーサポートや教育、医療など、正確なコンテキスト制御とユーザー体験の向上が求められる分野での広範な活用が期待されます。

Hud、AIコード監視の新技術。障害調査を数分に短縮

AI時代の監視の壁

従来APMは関数単位のデータ不足
コスト高で詳細ログを全量保存不可
AI修正に必要な実行文脈が欠如
手作業での原因特定に数時間を浪費

Hudによる解決と成果

1行のSDKで全関数動作を追跡
異常時に詳細データを自動収集
AIエディタから本番状況を即時照会
調査時間を3時間から10分未満に短縮

スタートアップのHudは、AI生成コードの本番環境での挙動を詳細に可視化するランタイムセンサーを発表しました。従来の監視ツールでは困難だった関数レベルのデータを取得し、AIエージェントによる自動修正を強力に支援します。

企業の開発現場ではAIによるコード生成が急増していますが、本番環境でのエラー原因特定が新たなボトルネックです。従来のAPMツールはコストや粒度の問題で、AIが必要とする深いコンテキストを提供できず、エンジニアは手作業での調査に追われていました。

HudのセンサーはSDKとしてわずか1行で導入でき、全ての関数の実行を追跡します。異常発生時にはHTTPパラメータやDBクエリなどの詳細なフォレンジックデータを自動収集し、AIエージェントが理解できる構造化データとして提供します。

特筆すべきは、Model Context Protocol (MCP) サーバー機能です。これにより、エンジニアはCursorなどのAIエディタ内から直接、本番環境の不具合原因をAIに問い合わせることが可能になり、修正までのプロセスが劇的に効率化されます。

導入企業のDrataやMonday.comでは、従来数時間かかっていた障害調査が10分未満に短縮されました。AIが生成したコードの中身を完全に把握できなくても、ランタイムデータが安全網となり、運用時の信頼性と生産性が飛躍的に向上しています。

Vercel、FastAPIのLifespan対応でDB管理が効率化

Lifespan Eventsへの対応

VercelFastAPIに正式対応
アプリの起動・終了時処理が可能
DB接続の確立と切断を管理

開発プロセスの最適化

ログなどのクリーンアップを実行
非同期コンテキストで記述容易
サーバーレスでのライフサイクル制御

Vercelは2025年12月9日、FastAPIアプリケーションにおける「Lifespan Events」のサポートを開始しました。これにより、開発者はアプリの起動時および終了時に、任意の初期化・終了ロジックを実行することが可能になります。

この機能追加により、データベース接続の確立や外部ログのフラッシュなど、重要なリソース管理が容易になります。サーバーレス環境においても、アプリケーションのライフサイクルを適切かつ安全に制御できる点が大きなメリットです。

実装にはPythonの標準的な@asynccontextmanagerデコレータを使用します。起動時のセットアップと終了時のクリーンアップ処理を一つの関数内で簡潔に記述でき、コードの可読性と保守性が大幅に向上します。

これまでVercel上でPythonバックエンドを運用する際に課題だった初期化・終了処理が解決されます。AI開発等でFastAPIの採用が進む中、Vercelのプラットフォームとしての実用性と魅力がさらに高まりました。

AIの真価は「文脈」で決まる:量産から意思決定の質へ

計算能力より「文脈知能」

AIの課題は能力ではなくコンテキスト欠如
一般的な指示は一般的な出力しか生まない

垂直データから水平統合へ

経営層には全体を俯瞰する水平的視点が必須
構造化データでAIは戦略的パートナーになる

人間とAIの協業モデル

人間が戦略を定義しAIが規模と速度で実行
文脈認識型AIが次世代の競争優位を作る

マーケティングの現場でAI活用が進む中、多くの組織が成果の乖離に直面しています。その根本原因は計算能力ではなく、ブランド固有の「コンテキスト(文脈)」の欠如にあります。出力の量産から脱却し、意思決定の質を高めるための要件を解説します。

生成AIは強力ですが、自社の戦略的ニュアンスや顧客がそのブランドを選ぶ理由までは理解しません。一般的な指示からは一般的な出力しか生まれず、結果としてブランドの独自性が失われます。AIには単なるデータではなく、構造化された文脈が必要です。

特に大企業ではデータが部門ごとに「垂直」に分断されがちです。しかし経営層に必要なのは、顧客インサイトや競合動向を統合した「水平的」な視点です。この統合された視座をAIに持たせることで、部門横断的な意思決定の精度が劇的に向上します。

米BlueOceanが支援するAmazonやIntelなどの先進企業では、ブランド戦略や意図をAIと共有しています。これによりAIは、単なる生成ツールから、戦略的な整合性を保ちながら業務を遂行するパートナーへと進化しました。

成功の鍵は、人間とAIの役割分担を明確にすることです。人間は目的、感情、文化的背景といった「境界と意図」を定義し、AIはその枠組みの中で速度と規模を提供します。人間主導の戦略があってこそ、AIの実行力は真の価値を発揮するのです。

今後、AIは単なるタスク処理から、組織全体のワークフローを連携させるシステムへと進化します。「文脈」を理解したAI基盤を構築できるかどうかが、次世代の企業の競争優位性を決定づける要因となるでしょう。

Zhipu AI、視覚入力でツール直結のVLM公開 商用可

視覚情報をツールへ直結

画像を直接ツールの引数に指定
テキスト変換の情報ロスを排除

用途に応じた2モデル展開

106B版は複雑な推論に特化
Flash版は利用無料で高速

実務を変える高い応用力

画面からコードを自動生成
MITライセンスで商用利用可

中国のAIスタートアップZhipu AIは2025年12月8日、視覚言語モデル「GLM-4.6V」シリーズを公開しました。画像をテキスト変換せず直接ツールで処理するネイティブ機能を搭載し、MITライセンスにより商用利用も完全に自由です。

最大の特徴は、視覚情報を直接ツールの引数として渡せる点です。従来必要だった「画像からテキストへの変換」という中間プロセスを排除することで情報の損失を防ぎ、画像の切り抜きや検索といった高度な自動化を効率的に実行できます。

ラインナップは、複雑な推論に強い1060億パラメータの「106B」と、低遅延な90億パラメータの「Flash」の2種です。特にFlash版は利用料が無料であり、エッジデバイスやリアルタイム処理が必要なアプリ開発に最適です。

開発現場での実用性も高く、UIのスクリーンショットからピクセル単位で正確なHTMLやCSSを生成できます。12万8000トークンの長大なコンテキストに対応し、長時間の動画解析や大量のドキュメント処理も一度の推論で完結します。

本モデルはOpenAIGPT-4Vなどと競合する性能を持ちながら、オープンソースとして公開されました。自社インフラでの運用やコンプライアンス順守が求められる企業にとって、柔軟かつ低コストAI導入の有力な選択肢となるでしょう。

Slack会話からコード修正 Anthropicが新機能

チャットが開発環境へ進化

会話からバグ修正や機能追加を自律実行
適切なリポジトリを自動特定しPR作成
エンジニアコンテキスト切り替えを排除

企業向けAI市場の覇権争い

公開半年で年間収益10億ドルを突破
楽天は開発期間を約8割短縮と報告
MSやGoogleに対抗し業務フローを掌握
若手のスキル低下や品質に懸念も

Anthropicは2025年12月8日、自律型コーディングエージェントClaude Code」をSlackに統合するベータ版を公開しました。Slack上でタグ付けするだけで、会話を基にバグ修正や実装を依頼でき、開発プロセスの大幅な効率化が期待されます。

最大の特徴は、議論と作業の場の統合です。Slack上のバグ報告や議論をClaudeが読み取り、連携リポジトリから適切な箇所を特定します。修正案作成からプルリクエスト発行までを自律的に実行し、進捗もスレッドで報告するため、エンジニアの手間を最小化します。

本機能は、公開半年で年間収益10億ドルに達したClaude Codeの導入を加速させる狙いがあります。楽天などの先行事例では、開発期間を最大79%短縮するなど劇的な成果が出ており、NetflixやSpotifyなどの大手企業も採用を進めています。

この動きは「開発環境のチャットツール化」を象徴します。MSやGoogleも同様の統合を進める中、AnthropicSlackという強力なプラットフォームを押さえ、エンジニアの意思決定の場に入り込むことで、エンタープライズ領域での覇権を狙います。

一方で、AI依存によるスキル低下セキュリティへの懸念も指摘されています。企業はAIによる自動化の恩恵を享受しつつ、人間のエンジニアによるレビュー体制や教育のバランスをどう再設計するかが、今後の競争力を左右することになるでしょう。

LLMの忘却を防ぐ新記憶構造GAM、コストと精度を両立

ウィンドウ拡大競争の限界

詳細を忘れる「コンテキスト腐敗」がAIの課題
窓拡大はコスト増と精度低下を招き持続不能

「記憶」と「検索」の分離

全履歴を保存し、必要な瞬間に文脈を再構築
記憶と検索に役割を分けるデュアル構造を採用

既存手法を凌駕する性能

長文理解でGPT-4o等を凌ぐ90%超の精度
モデル巨大化より「記憶の構造化」が実用の鍵

中国・香港の研究チームが、AIの長期記憶における「コンテキスト腐敗」を解決する新アーキテクチャ「GAM」を発表しました。従来のLLMが抱える情報の忘却問題を、モデル拡大ではなく構造の工夫で解決する画期的なアプローチです。

現在のAI開発はコンテキストウィンドウの拡大競争にありますが、これには限界があります。膨大なトークン処理はコスト増大に加え、重要情報が埋もれて精度低下や遅延を招くためです。単に入力枠を広げるだけでは、実用的な記憶能力は得られません。

GAMはこの課題に対し、機能を「記憶(Memorizer)」と「調査(Researcher)」に分離しました。Memorizerは全対話を要約せず構造化して保存し、情報の欠落を防ぎます。一方、Researcherは必要な時、必要な情報だけを能動的に検索して回答を生成します。

ソフトウェア開発の「JITコンパイラ」のように、GAMは事前に情報を圧縮せず、要求された瞬間に最適なコンテキストを組み立てます。これにより、長期プロジェクトや複雑なタスクでも、AIは過去の経緯を正確に維持し続けることが可能です。

性能評価でGAMは、既存のRAGやロングコンテキストモデルを凌駕しました。特に長期間の文脈追跡を要するテストでは90%超の精度を記録し、要約による情報損失が起きやすい従来手法に対し、圧倒的な優位性を示しています。

今後のAI開発では、モデルの巨大化より「記憶システムの設計」が重要になります。情報をどう保存し取り出すかという「コンテキストエンジニアリング」への移行が、AIを信頼性の高いビジネスツールへ進化させる鍵となるでしょう。

AWS、AI開発の知識を動的ロード。コストと精度を改善

AI開発が抱える「文脈の罠」

ツール連携でトークンを大量浪費
不要な情報でAIの回答精度が低下

「Kiro powers」の解決策

文脈に応じて知識を動的にロード
StripeやFigmaなど9社と連携
不要な情報を捨てコスト最小化

経営的インパクトと展望

他ツールへの展開も見据えた戦略

米アマゾン・ウェブ・サービス(AWS)は年次会議「re:Invent」にて、AI開発支援の新機能「Kiro powers」を発表しました。これはAIコーディングアシスタントが外部ツールと連携する際、必要な専門知識だけを動的に読み込む仕組みです。従来の手法で課題となっていたトークンの浪費や応答精度の低下を防ぎ、開発者生産性とコスト効率を劇的に高める狙いがあります。

昨今のAI開発では、決済やDBなどの外部ツールを連携させる際、開始時にすべてのツール定義を読み込むのが一般的でした。しかしこれには、コードを書く前に数万トークンを消費してしまう重大な欠点があります。結果としてコストが嵩むだけでなく、無関係な情報がノイズとなり、AIの判断を鈍らせる「コンテキスト腐敗」を引き起こしていたのです。

Kiro powersはこの問題を、コンテキストの「オンデマンド化」で解決します。開発者が「決済」について尋ねればStripeの知識を、「データベース」と言えばSupabaseの知識を自動的に呼び出します。不要な情報はメモリから消去されるため、AIは常に最適な情報量で稼働し、回答精度と速度が向上します。AWSはこのアプローチを「何を忘れるべきかを知る賢さ」と位置づけています。

ローンチパートナーにはStripe、Figma、Datadogなど有力テック企業9社が名を連ねました。これにより、高度なスキルを持つエンジニアしか行えなかった「最適なプロンプト設定」や「ツール連携の最適化」が、誰でもワンクリックで利用可能になります。特定のサービスのベストプラクティスがパッケージ化され、即座に開発環境へ適用される「専門性の民主化」が進むでしょう。

特筆すべきは、この手法が高額なモデルのファインチューニングよりも安価で実用的である点です。企業は最新の高性能モデルを利用しながら、必要な専門性だけを外付けで追加できます。現在はAWSの「Kiro IDE」専用ですが、将来的にはCursorなど他のAIエディタとの互換性も目指しており、開発ツール市場全体の標準化を主導する構えです。

GitHub、開発全工程を支援するカスタムエージェント導入

コーディング以外もAIが支援

Copilot開発全工程をサポート
パートナー製や自作のエージェントを利用可能
セキュリティやIaCなど専門領域に対応

チームの「暗黙知」を資産化

Markdownで独自のルールや手順を定義
PagerDutyなど主要ツールと連携可能
組織全体でベストプラクティスを統一
属人化を防ぎ生産性を底上げ

GitHubは2025年12月3日、AIコーディング支援ツールGitHub Copilotにおいて「カスタムエージェント」機能を導入したと発表しました。これにより、Copilotの支援範囲は従来のコード執筆だけでなく、セキュリティ監査、インフラ構築、障害対応といったソフトウェア開発ライフサイクル全体へと拡張されます。

最大の特徴は、企業独自のルールや外部ツールとの連携をAIに組み込める点です。ユーザーはMarkdown形式で指示書を作成するだけで、自社の開発標準や「暗黙の了解」を学習した専用エージェントを構築できます。また、PagerDutyやTerraform、JFrogといった主要パートナーが提供する公式エージェントも即座に利用可能です。

この機能は、開発現場における「コンテキストスイッチ」の削減に大きく寄与します。エンジニアはエディタやターミナルを離れることなく、Copilotに「脆弱性のスキャン」や「インシデントの要約」を指示できるようになります。複数のツールを行き来する手間を省き、本来の創造的な業務に集中できる環境が整います。

経営者やチームリーダーにとっては、組織のナレッジマネジメントを強化する好機です。熟練エンジニアのノウハウをエージェントとして形式知化することで、チーム全体のスキル底上げや成果物の品質均一化が期待できます。AIを単なる補助ツールから、組織の生産性を高める「戦略的パートナー」へと進化させる重要なアップデートといえるでしょう。

Anthropic、長期AIエージェントの「記憶」問題を解決

コンテキスト制限の壁

AIは長時間稼働で指示や文脈を忘却
複雑なタスクは単一窓で完了不能

2段階の解決アプローチ

環境設定を行う初期化エージェント

人間の作業フローを模倣

セッション間で構造化データを引き継ぐ
テスト自動化でバグ修正能力も向上

2025年11月28日、米AnthropicはAIエージェントが長時間稼働する際に文脈を失う問題を解決する新たな手法を発表しました。同社のClaude Agent SDKに実装されたこのアプローチは、エージェントが複数のセッションをまたいで記憶を保持し、大規模な開発プロジェクトなどの複雑なタスクを完遂できるようにするものです。

同社が提案するのは、役割を分担する「2段階アプローチ」です。まず「初期化エージェント」が開発環境をセットアップしてログを記録し、次に「コーディングエージェント」が実作業を行います。重要なのは、各作業セッションの終了時に構造化された更新情報(アーティファクト)を残し、次のセッションへ確実にバトンタッチする点です。

これまでAIエージェントは、基盤モデルの「コンテキストウィンドウ(扱える情報量)」の制限により、長時間稼働すると初期の指示を忘れたり、挙動が不安定になったりする課題がありました。Anthropicの新手法は、人間のソフトウェアエンジニアが日々の業務で行う「段階的な進捗管理」に着想を得ており、記憶の断絶を防ぐことに成功しています。

この手法により、エージェントは「一度にすべてをやろうとして失敗する」ことや「中途半端な状態で完了と誤認する」ことを回避できます。また、コーディングエージェントにはテストツールも組み込まれており、コード単体では発見しにくいバグの特定と修正能力も向上しています。

現在はWebアプリ開発での実証が中心ですが、Anthropicはこの手法が科学研究や財務モデリングなど、他の長期タスクにも応用可能であるとしています。AIエージェントが単なる対話相手から「長期的なプロジェクトを任せられるパートナー」へと進化するための、重要な技術的マイルストーンとなるでしょう。

ChatGPTが時間を答えられない理由:LLMの構造的限界と本質

予測モデルの構造的欠陥

LLMはリアルタイム時計を持たない
学習データに基づく確率予測が基本
「時計のない図書館」にいる状態と同じ

メモリリソースの制約

常時時刻更新はコンテキストを圧迫
過度な情報はノイズとなり精度低下
正確な時刻にはWeb検索機能が必要

ChatGPTのような高度なAIが、なぜ「今何時?」という単純な問いに正確に答えられないのでしょうか。その原因は、大規模言語モデル(LLM)が持つ構造的な特性にあります。本稿では、AIが時間を認識できない技術的理由と、そこから見えるLLM活用の本質的な注意点について解説します。

LLMは膨大な過去のデータを学習し、次に来る言葉を予測するシステムです。専門家はこれを「大量の書物がある無人島にいるが、時計を持っていない状態」と例えます。つまり、外部の現在時刻にアクセスする機能はデフォルトでは備わっておらず、Web検索などのツールを使わない限り、AIは自身の内部時間を持てないのです。

なぜシステム時計を常に連携させないのでしょうか。それはAIの短期記憶にあたる「コンテキストウィンドウ」に限界があるためです。毎秒のように時刻データを入力し続けると、限られたメモリ領域がノイズ情報で埋め尽くされ、肝心な会話やタスク処理の能力を低下させるリスクがあります。

さらに、最新の研究ではAIがアナログ時計の読み取りやカレンダーの理解も苦手とすることが判明しています。ビジネスでAIを活用する際は、AIが「事実を知っている」のではなく「それらしい答えを予測している」だけであることを理解し、正確性が必須な場面では適切な外部ツールと組み合わせることが重要です。

MS、AIの情報漏洩を防ぐ「文脈理解」新技術を発表

AIエージェントのプライバシー制御

文脈で適切性を判断するコンテキスト・インテグリティ
自律型AIによる意図しない情報漏洩を防止
推論時に監視するPrivacyCheckerを開発
動的環境での情報漏洩を劇的に低減

推論時監査とモデル学習の融合

思考の連鎖でモデル自身が共有可否を推論
強化学習により有用性と安全性を両立
外部監視と内部学習の補完的アプローチ

Microsoft Researchは2025年11月、AIモデルの情報漏洩を防ぐための新たなアプローチを発表しました。AIが「誰に・何を・なぜ」共有するかというコンテキスト・インテグリティ(文脈的整合性)を理解し、自律的なエージェント活動におけるプライバシーリスクを最小化する技術です。推論時の外部チェックとモデル自身の学習という2つの手法を組み合わせ、実用性と安全性の両立を目指します。

自律型AIエージェントの普及に伴い、意図しない情報漏洩が深刻な課題となっています。従来のLLMは文脈認識が不足しており、予約代行時に不要な保険情報を漏らすといった不適切な挙動を起こしかねません。そこでMicrosoftは、状況に応じた適切な情報フローを制御するコンテキスト・インテグリティの概念をAIシステムに適用しました。

一つ目の解決策は、推論時に動作する軽量モジュールPrivacyCheckerです。これはAIの出力前に情報の送信元・受信先・内容を監査し、不適切な共有をブロックします。実験では、複数のツールやエージェントが連携する複雑な動的環境においても、タスク遂行能力を維持したまま情報漏洩率を大幅に削減することに成功しました。

二つ目は、モデル自体に文脈判断能力を持たせる手法です。「思考の連鎖CoT)」を用いて共有の可否を推論させると同時に、強化学習(RL)でトレーニングを行います。これにより、単に情報を隠すあまり役に立たなくなる「過剰な保守性」を防ぎ、高い有用性と強固なプライバシー保護を両立させました。

これらの技術は、外部監視と内部学習という異なる角度からアプローチしており、相互に補完し合う関係にあります。企業が複雑なAIエージェントシステムを導入する際、これらの手法を適用することで、ユーザーの信頼を損なうことなく、生産性を高めることが可能になります。

LangChain、自律エージェントに「Skills」機能実装

ファイルシステム活用の新潮流

Anthropic提唱のSkillsに対応
マークダウン形式で動的に指示を読込
汎用エージェントツール数削減に寄与
シェル操作と連携し多様なタスク実行

コンテキスト効率と拡張性の向上

トークン消費を抑えコンテキスト節約
エージェント認知負荷を大幅軽減
CLIでフォルダ配置だけで機能拡張
エージェント自身によるスキル生成も視野

LangChainは2025年11月25日、オープンソースの自律エージェント基盤「Deep Agents」に対し、Anthropicが提唱する「Skills」機能を追加したと発表しました。これにより、エージェントは外部ファイルとして定義された手順書やスクリプトを必要に応じて動的に読み込み、複雑なタスクを効率的に実行することが可能になります。

Claude CodeManusといった最新の汎用エージェントは、個別の専用ツールを多数装備するのではなく、ファイルシステムへのアクセス権とコマンド実行という「少数の強力な手段」で多様な作業をこなす傾向にあります。今回実装された「Skills」はこの潮流を体系化したもので、`SKILL.md`を含むフォルダ単位で能力をモジュール管理する仕組みです。

従来のツール定義(Function Calling)はすべての情報を常にプロンプトに含めるためトークンを大量消費していましたが、Skillsは概要のみを提示し、詳細は実行が必要な時だけ読み込む「プログレッシブ・ディスクロージャー」を採用しています。これにより、コンテキストウィンドウの消費を劇的に抑え、より長い文脈での推論を可能にします。

この仕組みは、ツール選択肢の過多によるエージェントの「コンテキストの混乱」を防ぎ、認知負荷を低減する効果もあります。ユーザーは`deepagents-CLI`の所定フォルダにスキルセットを配置するだけで機能を拡張でき、将来的にはエージェント自身が新しいスキルを作成・共有する「継続的な学習」への発展も期待されています。

GitHub直伝、AIエージェントを安全に実装する「6つの原則」

エージェント特有の3大リスク

外部への意図せぬデータ流出
責任所在が不明ななりすまし
悪意ある指令によるプロンプト注入

安全性を担保する設計原則

コンテキスト可視化と透明性
外部通信を制限するファイアウォール
権限に応じた厳格なアクセス制限
不可逆的な変更の禁止と人間介在
操作主とAIの責任分界の明確化

GitHubは2025年11月25日、同社のAI製品に適用している「エージェントセキュリティ原則」を公開しました。AIエージェントが高い自律性を持つようになる中、開発者が直面するセキュリティリスクを軽減し、安全なAI活用を促進するための実践的な指針です。

エージェント機能の高度化は、新たな脅威をもたらします。特に、インターネット接続による「データ流出」、誰の指示か不明確になる「なりすまし」、そして隠しコマンドで不正操作を誘導する「プロンプトインジェクション」が主要なリスクとして挙げられます。

これらの脅威に対し、GitHubは徹底した対策を講じています。まず、AIに渡されるコンテキスト情報から不可視文字を除去して完全可視化し、外部リソースへのアクセスをファイアウォールで制限することで、隠れた悪意や情報漏洩を防ぎます。

また、AIがアクセスできる機密情報を必要最小限に絞り、不可逆的な変更(直接コミットなど)を禁止しています。重要な操作には必ず人間による承認(Human-in-the-loop)を必須とし、AIと指示者の責任境界を明確に記録します。

これらの原則はGitHub Copilotに限らず、あらゆるAIエージェント開発に適用可能です。自社のAIシステムを設計する際、ユーザビリティを損なわずに堅牢なセキュリティを構築するための重要なベンチマークとなるでしょう。

Vercel、Firewall刷新。高度な可視性と制御で防御強化

直感的なセキュリティ運用

複雑さを排除し開発速度を維持
全ユーザー向けの使いやすい設計
脅威を即座に特定し迅速に対応

機能強化のポイント

状況を一元管理するOverview
詳細分析が可能なTraffic
設定を集約したRulesタブ
画面遷移不要の高速イベント検査

Vercelは2025年11月、Firewall機能のユーザー体験を全面的に刷新したと発表しました。開発者やSREを対象に、セキュリティ可視性と制御性を大幅に強化。「使いやすさこそセキュリティ」という理念の下、開発速度を犠牲にせず堅牢な防御を実現します。

新たな「Overview」ページは、セキュリティ状況を俯瞰する管制塔です。直近のDDoS攻撃やルール適用状況、ブロックされたIPなどの重要指標を一画面に集約。異常検知から対応までの時間を短縮し、高解像度な監視を可能にしました。

トラフィック分析機能も進化しました。「Traffic」ページでは、トップIPやAS名、User Agentごとの詳細なフィルタリングが可能です。これにより、攻撃の予兆や異常なパターンを早期に発見し、プロアクティブな対策を講じることができます。

運用効率を高めるため、WAFルールやBot保護機能は専用の「Rules」タブに統合されました。また、アラートをクリックするとページ遷移なしで詳細が表示される設計に変更。コンテキストスイッチを最小限に抑え、エンジニアの負荷を軽減します。

Vercel CLI新機能、コマンド一発で管理画面へ

新コマンドの概要

vercel openコマンド追加
ターミナルから即座に遷移
ブラウザ操作の手間を削減

利用条件と更新

CLI版数48.10.0以上
npmで簡単に更新可能
開発フローの効率化

Vercelは2025年11月24日、CLIツールに新コマンド「vercel open」を追加しました。これにより、エンジニアは開発中のプロジェクトに関連するダッシュボードを、ターミナルから直接ブラウザで開くことが可能になります。

利用にはVercel CLIをバージョン48.10.0以降に更新する必要があります。「npm i -g vercel」を実行するだけで準備は完了。手動でブラウザを立ち上げ、プロジェクトを探す手間が不要になります。

この機能は、日々の開発業務における微細なコンテキストスイッチを減らすものです。コマンドライン中心に作業するエンジニアにとって、生産性を高める地味ながら強力な改善と言えるでしょう。

OpenAI新端末、2年以内発売へ アイブ氏と試作完了

2年以内の市場投入へ

アルトマン氏らがプロトタイプ完成を明言
発売時期は2年以内の見通し
画面なしでスマホサイズとの噂も

iPhoneとは対極のコンセプト

現代のスマホはタイムズスクエアの騒音
新端末は湖畔の小屋のような静寂
通知を遮断し集中と平穏を提供

AIが文脈を理解し自律動作

ユーザーの全生活文脈を学習
適切な機に自律的に介入

OpenAIサム・アルトマンCEOと元Appleのジョニー・アイブ氏は、共同開発中のAIハードウェアについて、プロトタイプが完成したことを明らかにしました。サンフランシスコで開催されたイベントで登壇し、製品化に向けた進捗を語ったものです。

アイブ氏によると、この新デバイスは2年以内に市場へ投入される見通しです。具体的な仕様は伏せられていますが、噂ではスクリーンのない、スマートフォン程度のサイズになるとされています。デザインは極めてシンプルで、遊び心を感じさせるものだといいます。

アルトマン氏は現在のスマートフォン体験を「タイムズスクエアの喧騒」に例え、通知やSNSに常に注意を奪われる状況を批判しました。対照的に、新デバイスは「湖畔の小屋」のような静けさを提供し、ユーザーに平穏と集中をもたらすことを目指しています。

このデバイスの核心は、ユーザーの生活における文脈(コンテキストを深く理解する点にあります。AIが長期間にわたりユーザーの行動を学習し、信頼できるエージェントとして振る舞うことで、人間が指示を出す前に必要なタスクを処理してくれるのです。

アイブ氏は「無邪気なほどシンプルでありながら、高度に知的な製品」を理想に掲げます。難解な技術を意識させず、無造作に使える道具としてのAI。これは、テクノロジーとの付き合い方を根本から変え、私たちの生産性を劇的に高める可能性を秘めています。

Google新手法、AIの記憶と継続学習の課題を解決へ

静的なAIから進化するAIへ

学習後の知識更新が困難な現状
コンテキスト外の長期記憶が欠如
多層最適化するNested Learning

新モデル「Hope」の実力

異なる速度で更新する多層メモリ
継続学習と長文脈で高精度を実現
リアルタイムな自己適応が可能に
実社会での柔軟な活用に期待

Googleの研究チームは2025年11月、現在のAIモデルが抱える「記憶」と「継続学習」の限界を突破する新パラダイムNested Learningを発表しました。モデルの学習を単一ではなく多層的な最適化プロセスとして再定義し、環境に適応し続けるAIへの道を開くものです。

従来のTransformerモデルは、事前学習後は知識が固定される「静的」な存在でした。コンテキストウィンドウ(短期記憶)の容量を超えた情報は失われ、人間のように日々の経験から長期記憶を形成し、知識を更新することができない点が大きな課題でした。

この課題に対し、新手法は脳のメカニズムを模倣します。新開発されたアーキテクチャHopeは、即時的な情報から抽象的な知識まで、異なる速度で更新される複数のメモリバンクを搭載。これにより、自己参照的なループで記憶を最適化し続けます。

実証実験では、言語モデリングや複雑な推論タスクにおいて、既存のモデルを上回る精度と効率を記録しました。特に、膨大なデータの中から特定の情報を正確に見つけ出す長文脈処理において、優れたパフォーマンスを示しています。

既存のハードウェアインフラへの適応という課題は残りますが、データや環境が絶えず変化するビジネス現場において、継続的に学習するAIの価値は計り知れません。真に自律的なAIシステム実現への重要な一歩となるでしょう。

AIエージェントのコンテキスト制御はファイルシステムで進化する

既存の検索とコンテキストの課題

検索結果過多によるトークンコストの増大
ウィンドウサイズを超える情報量の欠落
意味検索では拾えないニッチ情報の検索

ファイルシステム活用の利点

結果を一時保存し必要な箇所のみ抽出
grep等の活用で正確な情報特定
指示やスキルを保存し継続的に学習

LangChainは、AIエージェントがファイルシステムを操作することで、性能を飛躍的に高める手法を解説しました。これは「コンテキストエンジニアリング」の核心であり、コスト削減と精度向上を両立する重要な鍵となります。

従来のウェブ検索ツール等は大量のトークンを消費し、LLMの容量やコストを圧迫していました。また、意味検索だけでは、コード内の特定の行や正確な設定値といったニッチな情報を見つけ出すことが困難な場合もあります。

ファイルシステムを一時的な「メモ帳」として使えば、数万トークンの検索結果を保存し、必要な情報だけをコマンドで抽出可能です。これにより、会話履歴を汚さずにコストを大幅に抑制し、効率的な処理を実現します。

さらに、エージェントは自身の計画や学んだスキルをファイルに書き出せます。これにより、長期的なタスク実行時の記憶保持や、ユーザーの好みに合わせた自己進化が可能になり、将来の対話においても有用な情報を参照できます。

ファイルシステムは単なる保存場所ではなく、エージェントが無限の情報を柔軟に扱うためのインターフェースです。これを活用することで、エンジニアはより複雑で信頼性の高い自律型エージェントを構築できるようになります。

VercelでxAI最新モデルGrok 4.1が利用可能に

xAI最新モデルの統合

Grok 4.1 Fast2種を追加
他社契約不要で即時利用可能
200万トークンの文脈に対応

用途に合わせた選択

推論重視のReasoning版
速度特化のNon-Reasoning版
エージェントツール呼出に最適

開発基盤としての強み

統一APIによる容易な実装
自動リトライや障害対策を完備

Vercelは2025年11月20日、同社のAI GatewayにおいてxAIの最新モデル「Grok 4.1 Fast」シリーズの提供を開始しました。開発者は追加のプロバイダー契約を結ぶことなく、エージェント開発に特化した高性能AIモデルを即座にアプリへ組み込めます。

今回追加されたのは、複雑な構造化推論に強い「Reasoning」と、処理速度を最優先した「Non-Reasoning」の2モデルです。いずれも200万トークンという広大なコンテキストウィンドウを備え、高度なツール操作や文脈理解を実現します。

Vercel AI SDKを用いれば、モデル名を指定するだけで実装が完了します。AI Gatewayは統一APIとして機能するため、複数のAIモデルを横断した管理や切り替えが容易になり、開発者生産性を大幅に向上させます。

さらに、AI Gatewayは自動リトライやフェイルオーバー機能を標準装備しており、プロバイダー側の障害時にもサービスの安定稼働を維持します。コスト管理や可観測性も確保されており、ビジネス用途で求められる高い信頼性を提供します。

OpenAI新モデル、長時間自律開発で生産性7割増を実現

コンテキスト制限を打破する技術

コンパクション」で数百万トークンを処理
24時間以上の長時間タスクを自律的に完遂
推論トークンを30%削減しコストを低減

競合を凌駕する圧倒的性能

SWE-benchで77.9%を記録し首位
GoogleGemini 3 Proを上回る
社内エンジニアのPR出荷数が約70%増加
CLIやIDEなどの開発環境で即利用可能

OpenAIは2025年11月19日、エージェントコーディングモデル「GPT-5.1-Codex-Max」を発表しました。数百万トークンの文脈を維持し、長時間にわたる開発タスクを自律遂行可能です。エンジニア生産性を劇的に高める革新的なツールとして注目されます。

最大の特徴は、新技術「コンパクション」の搭載です。作業履歴を圧縮して記憶を継承することで、コンテキスト制限を克服しました。これにより、大規模なリファクタリングや24時間以上続くデバッグ作業など、従来は不可能だった複雑な長期タスクを完遂できます。

性能面では、Googleの最新モデル「Gemini 3 Pro」を主要指標で上回りました。SWE-bench Verifiedでは77.9%の正答率を記録し、業界最高水準を達成。さらに推論プロセスの最適化によりトークン使用量を30%削減し、コスト効率も向上させています。

ビジネスへの貢献も実証済みです。OpenAI社内ではエンジニアの95%が日常的に利用し、導入後のプルリクエスト出荷数が約70%増加しました。単なる支援ツールを超え、開発速度と品質を底上げする「自律的なパートナー」として機能しています。

本モデルは現在、ChatGPT PlusやEnterpriseプラン等のCodex環境で利用可能で、API提供も近日中に開始されます。デフォルトでサンドボックス環境にて動作し、ネットワークアクセスも制限されるなど、企業が安心して導入できるセキュリティ設計も徹底されています。

OpenAIが指針、AI実装の成否は「評価」で決まる

成果を阻む壁と解決策

AI導入の失敗原因は評価指標の欠如
曖昧な期待を具体的な仕様に変換
自社独自のコンテキスト評価が重要

「Evals」構築の手順

専門家理想の出力例を定義
本番に近い環境で厳格にテスト
運用データで継続的に改善

OpenAIは19日、ビジネスにおけるAI導入の成功率を高めるための評価手法「Evals」に関するガイドを公開しました。多くの企業がAI活用に苦戦する中、自社固有の業務フローに即した評価基準の策定こそが、生産性とROIを高める核心であると提言しています。

「Evals」とは、AIシステムが期待通り機能するかを測定し改善する一連の手法です。OpenAIは、一般的なベンチマークだけでなく、各企業の特定の製品やワークフローに特化した「コンテキスト評価」の重要性を強調。これにより、曖昧なビジネス目標を明確な技術仕様へと落とし込みます。

評価構築の第一歩は、技術者と実務の専門家が連携し、「成功」の定義を決めることです。例えば「顧客への適切なメール返信」とは何か、理想的な回答例(ゴールデンセット)を作成します。これを基準にAIの出力を判定することで、主観に頼らない品質管理が可能になります。

運用開始後も測定は続きます。実際のログからエラーを分析し、プロンプトやデータを修正する継続的な改善ループを回すことが不可欠です。この過程で蓄積される独自の評価データセットは、他社が模倣できない強力な競争優位性となります。

同社は「AI時代のマネジメントとは、優れた評価基準を作ることと同義だ」と結論づけています。最高の結果を単に願うのではなく、定義し、測定し、改善する。この地道で厳格なプロセスへの取り組みが、AIを使いこなす組織とそうでない組織の分水嶺となります。

エージェントAI時代のID管理、人間中心モデルは限界

従来型IAMの限界

人間を前提とした静的な権限
AIエージェントの爆発的増加
マシン速度での権限濫用リスク
追跡不能な自律的アクション

新時代のID管理3原則

リアルタイムのコンテキスト認識型認可
目的に紐づくデータアクセス
改ざん不可能な監査証跡の確保

自律的に思考し行動する「エージェントAI」の導入が企業で加速する一方、セキュリティ体制が追いついていません。人間を前提とした従来のID・アクセス管理(IAM)は、AIエージェントの規模と速度に対応できず、深刻なリスクを生んでいます。今、IDを単なるログイン認証ではなく、AI運用全体を制御する「コントロールプレーン」として再定義する必要性に迫られています。

なぜ従来型のIAMでは不十分なのでしょうか。その理由は、IAMが静的であるためです。従業員に固定の役割を与えるのとは異なり、AIエージェントのタスクや必要なデータは日々、動的に変化します。このため、一度与えた権限が過剰となり、機械の速度でデータ漏洩や不正なプロセスが実行される温床となりかねません。もはや人間時代の管理手法は通用しないのです。

解決策は、AIエージェントをIDエコシステムの「第一級市民」として扱うことにあります。まず、すべてのエージェントに人間と同様、所有者や業務目的と紐づいた一意で検証可能なIDを付与します。共有アカウントは廃止し、誰が何をしたかを明確に追跡できる体制を築くことが、新たなセキュリティの第一歩となります。

さらに、権限付与のあり方も根本から見直すべきです。「ジャストインタイム」の考え方に基づき、タスクに必要な最小限の権限を、必要な時間だけ与え、終了後は自動的に権限を失効させるのです。これはビル全体のマスターキーを渡すのではなく、特定の会議室の鍵を一度だけ貸し出すようなものです。この動的なアプローチが、リスクを最小限に抑えます。

新時代のAIセキュリティは、3つの柱で構成されます。第一に、リアルタイムの状況を評価する「コンテキスト認識型」の認可。第二に、宣言された目的に基づきデータアクセスを制限する「目的拘束型」のアクセス制御。そして第三に、すべての活動を記録し、改ざん不可能な証跡として残す徹底した監査体制です。これらが連携することで、AIの自律性を担保しつつ、安全性を確保できます。

導入はまず、既存の非人間ID(サービスアカウントなど)を棚卸しすることから始めましょう。次に、合成データを使った安全な環境で、短期間の認証情報を使ったジャストインタイム・アクセスを試験導入します。AIによるインシデントを想定した対応訓練も不可欠です。段階的に実績を積み重ねることで、全社的な移行を確実に進めることができます。

エージェントAIがもたらす生産性向上の恩恵を最大限に享受するには、セキュリティモデルの抜本的な変革が不可欠です。IDをAI運用の神経系と位置づけ、動的な制御基盤へと進化させること。それこそが、ビジネスリスクを管理し、AI時代を勝ち抜くための最重要戦略と言えるでしょう。

AIコードレビュー革命、コンテキスト技術で品質と速度を両立

開発規模拡大に伴う課題

レビュー待ちによる開発停滞
人間によるレビューの限界
属人化するチームの開発慣習

コンテキストを理解するAI

コードの文脈をAIが学習
チーム独自の設計思想を反映
人間が見落とす細かな問題も指摘

導入による具体的な成果

月800件以上の問題を防止
PRあたり1時間の工数削減
見落としがちな脆弱性も発見

イスラエルの新興企業Qodoが開発したAIコードレビューツールが、プロジェクト管理大手monday.comの開発現場を変革しています。コードの背景を理解するコンテキストエンジニアリング」技術を活用し、月800件以上の問題を未然に防止。開発者の作業時間を年間数千時間も削減する成果を上げており、ソフトウェア開発における品質と速度の両立という課題に、新たな光明を投じています。

monday.comでは、開発組織が500人規模に拡大するにつれ、コードレビューが開発のボトルネックとなっていました。増え続けるプルリクエスト(コード変更の申請)に対し、人間のレビュアーだけでは追いつかず、品質の低下開発速度の遅延が深刻な課題でした。この状況を打破するため、同社は新たなAIソリューションの導入を検討し始めました。

Qodoの強みはコンテキストエンジニアリング」と呼ばれる独自技術にあります。これはコードの差分だけでなく、過去のプルリクエスト、コメント、関連ドキュメント、さらにはSlackでの議論までをもAIの入力情報とします。これにより、AIは単なる構文エラーではなく、チーム固有の設計思想やビジネスロジックに沿っているかまでを判断し、人間以上に的確な指摘を可能にするのです。

monday.comの分析によると、Qodo導入後、開発者はプルリクエスト1件あたり平均1時間を節約できました。これは年間で数千時間に相当します。さらに、月800件以上の潜在的なバグやセキュリティ問題を本番環境への反映前に発見。「まるでチームに新しい開発者が加わったようだ」と、現場からも高く評価されています。

導入の容易さも普及を後押ししました。QodoはGitHubアクションとして提供され、既存の開発フローにシームレスに統合できます。AIが提案を行い、最終判断は開発者が下す「人間参加型」のモデルを採用したことで、現場の抵抗なく受け入れられました。ツールが開発者の主体性を尊重する点が、導入成功の鍵となりました。

Qodoはコードレビューに留まらず、将来的にはコード生成やテスト自動化までを担う統合開発エージェントプラットフォームを目指しています。独自の埋め込みモデルを開発するなど技術力も高く、NVIDIAやIntuitといった大手企業も既に導入を進めています。開発プロセス全体をAIが支援する未来を描いています。

コンテキスト・エンジンは2026年の大きな潮流になる」とQodoのCEOは予測します。AIを真にビジネス活用するには、表面的な情報だけでなく、組織固有の文脈をいかに理解させるかが重要です。Qodoの事例は、AIが企業の「第二の脳」として機能する時代の到来を予感させます。

ROIを生むAI導入、業務プロセスの可視化が必須に

実験から実行への移行

企業AIが実験段階から成果追求へ
AI投資における測定可能な成果が課題
多くの企業がAIから利益を得られていない現状

鍵はプロセスの理解

業務がどう行われているかを正確に把握
プロセスデータを基にAIの適用箇所を特定
CelonisやScribeが新ツールを提供

具体的な導入効果

メルセデス・ベンツでのサプライチェーン最適化
ユーザー企業での生産性向上と教育高速化

多くの企業で、AI活用が実験段階を終え、投資対効果(ROI)を重視する実行段階へと移行しています。その成功の鍵として、独Celonisや米Scribeなどが提供する、業務プロセスを可視化・分析する「プロセスインテリジェンス」技術が注目を集めています。実際の業務の流れを正確に把握することで、AIを最も効果的な場所に導入し、測定可能な成果を生み出すことが可能になるのです。

しかし、AIプロジェクトから測定可能な利益を得ている企業はわずか11%との指摘もあります。これは技術の問題ではなく、AIを業務のどこに適用すべきかという「コンテキスト(文脈)」の問題です。業務プロセスを理解せずに自動化を進めても、期待した効果は得られません。まず現状を正確に把握することが成功の第一歩と言えるでしょう。

プロセスインテリジェンスの先進企業Celonisは、業務データから「プロセスのデジタルツインを生成します。これにより、業務のボトルネックや非効率な部分を特定。AIをどこに、どのように組み込めば最大の効果を発揮するかをデータに基づき設計し、人間とAIが協調して働く仕組みの構築を支援しています。

一方、スタートアップのScribeは、評価額13億ドル(約2000億円)の資金調達に成功しました。同社の新製品「Scribe Optimize」は、従業員の作業内容を自動で記録・分析し、自動化によって最もROIが高まる業務を特定します。「何を自動化すべきか」という企業の根源的な問いに、明確な答えを提示しようとしています。

既に具体的な成果も出ています。メルセデス・ベンツは半導体危機において、Celonisの技術でサプライチェーンを可視化し、迅速な意思決定を実現しました。また、Scribeの顧客は月間35時間以上の業務時間削減や、新人教育の40%高速化といった生産性向上を報告しており、その価値を証明しています。

今後の企業AIは、単一のツールに閉じるのではなく、プロセスという共通言語を通じて様々なシステムやAIエージェントが連携する「コンポーザブル(組み合わせ可能)なAI」へと進化していくでしょう。AIを真の競争力とするためには、まず自社の業務プロセスを深く理解することから始める必要がありそうです。

AI開発、コストより速度優先の潮流

開発現場の新たな常識

計算コストより展開速度を重視
課題は遅延・柔軟性・容量
迅速な実験が競争優位の源泉

先進企業の具体事例

食品宅配Wonder社はクラウド容量を懸念
バイオ企業Recursion社はハイブリッド基盤で対応
オンプレミスは10倍安価な例も

経営者が持つべき視点

予算策定は科学より芸術
複数年の投資コミットが不可欠
コスト懸念は革新を阻害する

AI開発の最前線で、企業の優先順位が変化しています。米国の食品宅配「Wonder」やバイオテクノロジー企業「Recursion」などの先進企業は、AIの計算コストよりも、展開速度や遅延、柔軟性、処理容量といった課題を重視。コストを理由に導入をためらうのではなく、いかに速く、持続的にAIを事業展開できるかが、新たな競争力の源泉となりつつあります。

この潮流を象徴するのが、Wonder社の事例です。同社のAI利用コストは、1注文あたり数セントと事業全体から見ればごく僅か。しかし、急成長に伴い、当初「無制限」と想定していたクラウドの処理容量が逼迫し始めました。予想より早くインフラ増強の必要性に迫られており、コストよりも物理的な制約が大きな経営課題となっています。

Wonder社にとって、AI関連の予算策定は「科学というより芸術」に近いと言います。新しいモデルが次々と登場するため、予測が困難なためです。特に、大規模モデル利用時のコストの50〜80%は、リクエストごとに同じ情報を再送信する「コンテキスト維持」に費やされることも。常に変化する状況下で、柔軟な予算執行と技術活用のバランスが求められます。

一方、Recursion社はハイブリッドインフラでこの課題に対応しています。同社は数年前に自社でGPUクラスタを構築。クラウド事業者が十分な計算資源を供給できなかったためですが、結果的にこれが功を奏しました。現在も大規模なモデル学習はオンプレミスで、比較的小さな推論などはクラウドで実行するなど、柔軟な使い分けを実現しています。

コスト面でも、このハイブリッド戦略は有効です。Recursion社によれば、大規模なワークロードをオンプレミスで処理する場合、クラウドに比べて「控えめに見積もっても10倍は安価」になるとのこと。5年間の総所有コスト(TCO)では半額に抑えられるケースもあるようです。もちろん、小規模な利用であればクラウドの方がコスト競争力があります。

両社の事例から見えてくるのは、経営層の心理的なコミットメントの重要性です。Recursion社のCTOは「計算資源への投資をためらうと、チームはクラウド費用を恐れてリソースを使わなくなり、結果としてイノベーションが阻害される」と警鐘を鳴らします。AI時代を勝ち抜くには、コストを管理しつつも、革新を止めないための大胆な投資判断が不可欠です。

Google、教育AI戦略を強化 NotebookLMに新機能

学習支援AI NotebookLM

自分の資料からクイズを自動生成
重要語句のフラッシュカード作成
トピックや難易度をカスタマイズ可能
モバイルアプリでいつでも学習

Googleの教育AI戦略

教師代替せず支援する
深い理解と好奇心を促進
不正行為など倫理的課題へも配慮
Geminiモデルでチャット機能も強化

Googleは2025年11月6日、教育分野におけるAI活用戦略を公表し、AI搭載ノートアプリ「NotebookLM」に新機能を追加しました。このアップデートは、世界的な教員不足や教育格差という課題に対し、AIを用いて学習効果とエンゲージメントを高めることを目指すものです。最新のGeminiモデルを活用し、学習者に個別最適化された支援を提供します。

今回のアップデートの目玉は、ユーザーが持つ資料からクイズやフラッシュカードを自動生成する機能です。PDFやテキストなどの学習素材をアップロードするだけで、AIが内容を解析し、理解度を確認するための問題や、暗記用のカードを作成。学習者はトピック、難易度、問題数を自由にカスタマイズでき、効率的な知識定着が期待できます。

NotebookLMは、基盤となるチャット機能も大幅に強化されました。最新のGeminiモデルを搭載することで、応答品質が50%向上し、一度に扱える情報量(コンテキストウィンドウ)は4倍に拡大。これにより、より長く複雑な対話が可能となり、思考のパートナーとして高度な学習をサポートします。

Googleは、AIを単に答えを提示するツールではなく、学習者が深い理解に至るプロセスを支援するものと位置づけています。同社の目標は、AIによって教師を代替することではなく、むしろ教師が授業計画や事務作業から解放され、生徒一人ひとりへの指導に集中できる環境を創出することです。

一方で、同社はAI導入に伴う課題にも真摯に向き合っています。不正行為や情報格差、AIの回答の正確性といった問題に対し、教育コミュニティと連携して解決策を模索。AIリテラシーの向上を支援するとともに、AIでは代替しにくい討論やポートフォリオといった新しい評価方法の導入も視野に入れています。

Copilot CLI登場、ターミナル作業をAIで高速化

ターミナルでAIと対話

ターミナル上でAIと対話
自然言語でコマンドを生成
スクリプト作成やコード修正
作業フローを中断しない効率性

多彩なユースケース

Git操作やPR作成の自動化
環境設定スクリプトの作成
ドキュメントの自動生成
不明なコマンドの自然言語解説

GitHubは、コマンドラインインターフェース(CLI)上でAIアシスタント機能を利用できる「GitHub Copilot CLI」を公開しました。これにより、開発者はターミナルから離れることなく、自然言語でコマンド生成、スクリプト作成、コード修正などが可能になります。作業の文脈を維持したまま、開発ワークフロー生産性を飛躍的に向上させることが期待されます。

Copilot CLIは、対話形式でタスクを依頼するインタラクティブモードと、単発のプロンプトで応答を得るプログラムモードを提供します。これまでIDEやブラウザで行っていたAIとのやり取りをターミナルに集約することで、コンテキストスイッチの削減集中力の維持に貢献します。

利用するには、Node.js環境で簡単なコマンドを実行するだけです。ただし、この機能はGitHub Copilot有料プラン(Pro、Business、Enterpriseなど)契約者向けの提供となります。組織で利用する場合は、管理者がCLIポリシーを有効化する必要があるため注意が必要です。

セキュリティも考慮されています。Copilot CLIがファイルの読み取りや変更、コマンド実行を行う前には、必ずユーザーに確認を求めます。作業ディレクトリを信頼済みとして登録するオプションもありますが、ユーザーが常に操作の主導権を握れる設計になっており、安心して利用できます。

活用例は多岐にわたります。Gitの複雑なコマンド提案、新規プロジェクトの環境設定スクリプト生成、既存コードのドキュメント作成、さらには不明なコマンドを自然言語で解説させることも可能です。これにより、開発者の学習コスト削減にも貢献するでしょう。

Copilot CLIは現在パブリックプレビュー段階にあり、GitHubはユーザーからのフィードバックを求めています。開発の中心であるターミナルでAIを活用することで、コーディング体験そのものが大きく変わる可能性があります。今後の機能拡充にも大いに期待が寄せられます。

AIエージェントの弱点露呈、マイクロソフトが実験場公開

AI市場シミュレータ公開

マイクロソフトが開発・提供
名称はMagentic Marketplace
AIエージェントの行動を研究
OSSとして研究者に公開

判明したAIの主な脆弱性

選択肢過多で性能が低下
意図的な情報操作に弱い
応答順など体系的な偏りも露呈

マイクロソフトは2025年11月5日、AIエージェントの市場行動を研究するためのシミュレーション環境「Magentic Marketplace」をオープンソースで公開しました。アリゾナ州立大学との共同研究で、GPT-5など最新モデルをテストした結果、選択肢が多すぎると性能が落ちる「選択のパラドックス」や、意図的な情報操作に対する深刻な脆弱性が明らかになりました。

今回の実験で最も驚くべき発見の一つは、AIエージェントが「選択のパラドックス」に陥ることです。選択肢が増えるほど、より良い結果を出すと期待されるのとは裏腹に、多くのモデルで消費者利益が低下しました。例えばGPT-5は、選択肢が増えると性能が最適値の2000から1400へ大幅に低下。これは、AIが持つコンテキスト理解の限界を示唆しています。

さらに、AIエージェントは情報操作に対しても脆弱であることが判明しました。偽の権威付けや社会的証明といった心理的戦術から、悪意のある指示を埋め込むプロンプトインジェクションまで、様々な攻撃をテスト。その結果、GPT-4oなどのモデルは、操作した事業者へ全ての支払いを誘導されてしまうなど、セキュリティ上の重大な懸念が浮き彫りになりました。

実験では体系的な偏り(バイアス)も確認されました。一部のオープンソースモデルは、検索結果の最後に表示された事業者を優先的に選択する「位置バイアス」を示しました。また、多くのモデルが最初に受け取った提案を安易に受け入れる「提案バイアス」を持っており、より良い選択肢を見逃す傾向がありました。こうした偏りは、市場の公正性を損なう恐れがあります。

「Magentic Marketplace」は、こうした複雑な問題を安全に研究するために開発されたプラットフォームです。現実世界では難しい、多数のエージェントが同時に相互作用する市場をシミュレートし、消費者保護や市場効率、公平性といった課題を検証できます。マイクロソフトは、この環境を研究者に開放することで、AIが社会に与える影響の解明を加速させたい考えです。

今回の研究結果は、AIエージェントの実用化にはまだ多くの課題があることを示しています。特に、重要な意思決定をAIに完全に委ねるのではなく、人間が監督する「ヒューマン・イン・ザ・ループ」の仕組みが不可欠です。企業がAIエージェントを導入する際には、こうした脆弱性を十分に理解し、対策を講じる必要があります。今後の研究開発の焦点となるでしょう。

グーグル、AI開発基盤を刷新 観測・統制を強化

エージェント開発を高速化

最先端のコンテキスト管理
自己修復機能付きプラグイン提供
開発キットでGo言語を追加サポート
ワンクリックでの本番環境移行

本番運用のガバナンス強化

観測ダッシュボードで稼働監視
エージェントIDによる監査証跡の明確化
プロンプト注入などを防ぐ新機能
パフォーマンスを事前評価する機能

Google Cloudは2025年11月5日、AI開発プラットフォーム「Vertex AI」の中核をなす「Agent Builder」の大規模アップデートを発表しました。この更新は、企業がAIエージェントの構想から設計、展開までをより迅速かつ安全に行えるようにするものです。主な特徴は、開発プロセスを加速する新ツール群と、本番運用に不可欠なガバナンス機能を大幅に強化した点にあります。

開発の高速化は、今回のアップデートの大きな柱です。最先端のコンテキスト管理レイヤーや、失敗したタスクを自己修復する事前構築済みプラグインを導入。開発キット(ADK)はPythonやJavaに加え、新たにGo言語をサポートしました。さらに、コマンド一つでローカル環境からテスト環境へ移行できる「ワンクリックデプロイ」機能も提供します。

同時に、企業利用で必須となるガバナンス機能も大幅に拡充されました。新たに導入された観測可能性ダッシュボードでは、トークン消費量やエラー率などを本番環境で追跡できます。また、エージェントに固有のIDを付与して監査証跡を明確にする機能や、プロンプトインジェクションを防ぐ「Model Armor」も搭載されました。

この観測可能性ダッシュボードは、開発者にとって強力なツールとなるでしょう。本番環境で稼働するエージェントトークン消費量、エラー率、レイテンシー(遅延)を可視化し、問題が発生した際の原因特定と再現を容易にします。これにより、クラウドベースでの本番監視が格段に効率化され、安定した運用が可能になります。

Google CloudがAgent Builderの強化を急ぐ背景には、熾烈な開発者獲得競争があります。OpenAIの「AgentKit」やマイクロソフトの「Azure AI Foundry」、AWSの「Bedrock」など、競合他社もAIエージェント開発基盤の機能拡充を競っています。今回のアップデートは、自社エコシステム内に開発者を留め、競争優位性を確保するための戦略的な一手と言えるでしょう。

GitHub、AI開発ハブへ。MSのプラットフォーム戦略

Agent HQ構想

AIエージェント向けプラットフォーム
開発エコシステム中心地を維持
外部ツールを統合するオープンな思想

参画する主要プレイヤー

OpenAIAnthropicが初期参加
Google、Cognition、xAIも追随

開発手法の進化

人間は仕様定義や創造に集中
実装はAIエージェントが代行
ツール間のコンテキスト共有を実現

マイクロソフトは、開発者向けイベント「GitHub Universe」で、AIコーディングエージェントのハブとなる新機能「Agent HQ」を発表しました。これはGitHubを単なるコード置き場から、多様なAIが協働する中心的なプラットフォームへと進化させ、開発エコシステムにおける主導権を維持する狙いです。

「Agent HQ」は、OpenAIAnthropicGoogleなどの外部AIコーディングアシスタントGitHubエコシステムに接続するものです。特定のツールに開発者を囲い込むのではなく、オープンなプラットフォームとして開発の中心地であり続けるための戦略と言えるでしょう。

この動きの背景には、開発ワークフロー全体を自動化する「Cursor」のような競合ツールの台頭があります。単なるコード補完から自律的なエージェントへとAIの役割が進化する中、迅速に対応しなければ市場での優位性を失うという危機感がうかがえます。

GitHubの幹部は「人間は仕様定義や創造的なプロセスに集中し、実装はAIエージェントに委ねる時代になる」と語ります。開発者はもはや、個々のツールでコンテキストを再構築する必要がなくなり、より高付加価値な業務に専念できるようになるのです。

この戦略は、マイクロソフトのAI事業全体にとっても極めて重要です。同社はGitHubをAIアプリケーション構築の中核に据えており、「Agent HQ」によって開発者の作業とデータを自社エコシステム内に留め、AI時代の覇権を確固たるものにしようとしています。

自律型AI導入、コンテキストエンジニアリングが鍵

自律型AIの課題と未来

信頼性の高い応答にコンテキストが必須
企業データは様々な場所に散在
2026年までに大企業の6割が導入予測

Elasticが示す解決策

AIに必要なデータとツールを提供
新機能Agent Builderで開発を簡素化
専門知識不要でAIエージェント構築

自律的に思考し業務を遂行する「自律型AI」の導入が企業で加速する中、その信頼性を担保する鍵として「コンテキストエンジニアリング」が注目されています。検索・分析プラットフォーム大手のElastic社は、企業の散在するデータをAIに的確に与えるこの技術が不可欠だと指摘。同社が提供する新機能「Agent Builder」は、専門家でなくとも自社のデータに基づいた高精度なAIエージェントの構築を可能にします。

自律型AIの性能は、与えられるコンテキストの質に大きく依存します。しかし多くの企業では、必要なデータが文書、メール、業務アプリなどに散在しており、AIに一貫したコンテキストを提供することが困難です。Elastic社の最高製品責任者ケン・エクスナー氏は、この「関連性」の問題こそが、AIアプリケーション開発でつまずく最大の原因だと指摘しています。

市場は急速な拡大期を迎えています。調査会社Deloitteは、2026年までに大企業の60%以上が自律型AIを本格導入すると予測。またGartnerは、同年末までに全企業向けアプリの40%がタスク特化型エージェントを組み込むと見ています。競争優位性の確保や業務効率化に向け、各社は実験段階から本格的な実装へと舵を切っており、導入競争は待ったなしの状況です。

この課題を解決するのが、適切なコンテキストを適切なタイミングでAIに提供する「コンテキストエンジニアリング」です。これは、AIが正確な応答をするために必要なデータを提供するだけでなく、そのデータを見つけて利用するためのツールやAPIをAI自身が理解する手助けをします。プロンプトエンジニアリングやRAG(検索拡張生成)から一歩進んだ手法として注目されています。

Elastic社はこの潮流に対応し、Elasticsearchプラットフォーム内に新機能「Agent Builder」を技術プレビューとして公開しました。これは、AIエージェントの開発から実行、監視までライフサイクル全体を簡素化するものです。ユーザーは自社のプライベートデータを用いてツールを構築し、LLMと組み合わせて独自のAIエージェントを容易に作成できます。

コンテキストエンジニアリングは、高度な専門知識がなくとも実践できる一方、その効果を最大化するには技術と経験が求められ、新たな専門分野として確立されつつあります。今後はLLMが訓練データに含まれない企業固有のデータを理解するための新しい技術が次々と登場し、AIによる自動化と生産性向上をさらに加速させると期待されています。

Pixel Watch 4の新機能、AIでスマホから解放

手首を上げるだけのAI起動

Hey Google不要音声操作
ハンズフリーで即座にタスク実行
移動中や運動中でもシームレス連携

気の利くパーソナルアシスタント

アイデアや情報を音声でメモ
メールや地図と連携し状況を把握
個人情報を記憶させタスクを自動化
カレンダー登録やリマインダー設定

Googleは、最新スマートウォッチ「Pixel Watch 4」に搭載されたAI「Gemini」の活用事例を公開しました。新機能「Raise to Talk」は、手首を上げて話すだけでAIを起動でき、スマートフォンを取り出すことなく、スケジュール管理や情報検索、メッセージ送信などをシームレスに実行します。多忙なビジネスパーソンが、いかにしてAIを日常業務に取り入れ、生産性を向上させられるかを示す好例と言えるでしょう。

新機能の最大の特長は、「Hey Google」というウェイクワードが不要な点です。ユーザーはただ手首を口元に近づけて話すだけで、即座にGeminiとの対話を開始できます。これにより、会議中や移動中、両手がふさがっている状況でも、思考を中断することなくタスクを実行したり、アイデアをメモしたりすることが可能になります。まさに「思考の速度で動くAI」と言えるでしょう。

記事では、交通渋滞に巻き込まれた際に、Geminiがメールから目的地の住所を検索し、Googleマップの交通情報と連携して到着予定時刻をリアルタイムで算出した事例が紹介されています。さらに、遅刻を伝えるメッセージの作成・送信までを音声操作だけで完結。このような機能は、分刻みで動くビジネスパーソンの強力な武器となり得ます。

Geminiは、ユーザーの個人的な情報や好みを記憶する「パーソナルコンテキスト」機能を活用します。ホテルの部屋番号のような一時的な情報を記憶させたり、「お気に入りのバレエダンサーが出演する公演をカレンダーに登録して」といった曖昧な指示を理解し、実行することが可能です。パーソナライズが進むことで、より一層、気の利く秘書のような存在になります。

Pixel Watch 4とGeminiの組み合わせが示すのは、「スマートフォンからの解放」という新しいワークスタイルです。情報を得るため、あるいはタスクをこなすために、いちいちデバイスを手に取る必要がなくなるのです。ウェアラブルデバイスが真のパーソナルアシスタントとして機能する未来が、すぐそこまで来ていることを感じさせます。

マイクロソフト、「待てるAI」実現へ新技術を発表

既存AIエージェントの課題

長期間の監視タスクが苦手
待てずに失敗、またはリソース浪費
メール返信待ちなどの自動化困難

新技術SentinelStep

動的な間隔で状況を監視
コンテキスト管理で長期稼働を実現
指定条件を満たした際に自動実行

性能と将来性

長時間タスクの成功率が大幅向上
常時稼働アシスタント実現への布石

Microsoft Researchは2025年10月21日、長時間にわたる監視タスクを実行できるAIエージェント技術「SentinelStep」を発表しました。現在のAIエージェントは、メールの返信を待つといった単純な「待機」が苦手という課題がありました。新技術は、動的な監視間隔の調整とコンテキスト管理によりこの問題を解決し、常時稼働するアシスタントの実現に道を開くものです。

「メールの返信が来たら通知する」「株価が目標額に達したら知らせる」。こうしたタスクの自動化は多くの時間を節約しますが、現在のLLMエージェントは不得意です。頻繁に確認しすぎてリソースを浪費するか、数回で諦めてしまうためです。高度な分析やコーディングができる一方で、単純な「待機」ができないという意外な弱点がありました。

SentinelStepは、この課題を2つの工夫で解決します。1つ目は、タスクの性質に応じて確認頻度を賢く調整する「動的ポーリング」です。2つ目は、数日間にわたるタスクでも過去の文脈を失わない「コンテキスト管理」。これにより、エージェント効率的かつ粘り強くタスクを監視し続けられます。

ユーザーは「アクション(何を確認するか)」「条件(いつ完了か)」「ポーリング間隔(どのくらいの間隔で確認するか)」の3要素を設定するだけで、監視エージェントを構築できます。この仕組みは、同社が開発したプロトタイプ「Magentic-UI」に実装されており、Webブラウジングやコーディングなど、様々なタスクに応用可能です。

その効果は、専用の評価環境「SentinelBench」で実証済みです。SentinelStepを使用しない場合、2時間かかる監視タスクの成功率はわずか5.6%でした。しかし、新技術を適用すると成功率は38.9%へと大幅に向上。長時間になるほど、その信頼性の高さが際立つ結果となりました。

この技術は、単に待つだけでなく、適切なタイミングで行動を起こす、実用的でプロアクティブなAIエージェントへの重要な一歩です。SentinelStepはオープンソースとして公開されており、開発者はすぐにでもこの「忍耐強い」エージェントの構築を試せます。企業の生産性を高める「常時稼働アシスタント」の基盤となる可能性を秘めています。

DeepSeek、テキストを画像化し10倍圧縮する新AI

テキスト処理の常識を覆す

テキストを画像として表現
従来のトークンより最大10倍効率化
LLMの常識を覆すパラダイム転換

巨大コンテキストと高効率

1000万トークン級の文脈へ
単一GPU日産20万ページ処理
トークナイザー問題を根本的に解決

オープンソースで開発加速

モデルやコードを完全公開
圧縮データ上の推論能力が今後の課題

中国のAI研究企業DeepSeekは、テキスト情報を画像として処理することで最大10倍に圧縮する新しいオープンソースAIモデル「DeepSeek-OCR」を発表しました。この技術は、大規模言語モデル(LLM)が一度に扱える情報量(コンテキストウィンドウ)を劇的に拡大する可能性を秘めており、従来のテキスト処理の常識を覆す画期的なアプローチとして注目されています。

このモデルの核心は、テキストを文字の集まり(トークン)としてではなく、一枚の「絵」として捉え、視覚情報として圧縮する点にあります。従来、テキスト情報の方が視覚情報より効率的に扱えると考えられてきましたが、DeepSeek-OCRはこの常識を覆しました。OpenAIの共同創業者であるAndrej Karpathy氏も「LLMへの入力は全て画像であるべきかもしれない」と述べ、この発想の転換を高く評価しています。

その性能は驚異的です。実験では、700〜800のテキストトークンを含む文書をわずか100の視覚トークンで表現し、97%以上の精度で元のテキストを復元できました。これは7.5倍の圧縮率に相当します。実用面では、単一のNVIDIA A100 GPUで1日に20万ページ以上を処理できる計算となり、AIの学習データ構築などを大幅に加速させることが可能です。

この技術革新がもたらす最大のインパクトは、LLMのコンテキストウィンドウの飛躍的な拡大です。現在の最先端モデルが数十万トークンであるのに対し、このアプローチは1000万トークン級の超巨大な文脈の実現に道を開きます。企業の全社内文書を一度に読み込ませて対話するなど、これまで不可能だった応用が現実のものとなるかもしれません。

テキストの画像化は、長年AI開発者を悩ませてきた「トークナイザー」の問題を根本的に解決する可能性も秘めています。文字コードの複雑さや、見た目が同じでも内部的に異なる文字として扱われるといった問題を回避できます。さらに、太字や色、レイアウトといった書式情報も自然にモデルへ入力できるため、よりリッチな文脈理解が期待されます。

DeepSeekはモデルの重みやコードを全てオープンソースとして公開しており、世界中の研究者がこの新技術を検証・発展させることが可能です。一方で、圧縮された視覚情報の上で、LLMがどの程度高度な「推論」を行えるかは未知数であり、今後の重要な研究課題となります。この挑戦的なアプローチが、次世代AIの標準となるか、業界全体の注目が集まります。

Google AI Studio、統合UIと新機能で開発を加速

開発ワークフローを統合

複数AIモデルを単一画面で操作
コンテキスト切替が不要に
プロンプトから動画音声まで連続作成
一貫性のあるチャットUIデザイン

利便性を高める新機能

デザインのウェルカムページ
使用量・制限をリアルタイム可視化
Googleマップとの連携機能
実世界の地理データを活用可能

Googleは2025年10月18日、開発者向けプラットフォーム「Google AI Studio」のメジャーアップデートを発表しました。今回の更新は、開発者のフィードバックに基づき、AIモデルを利用した開発体験をよりシームレスかつ効率的にすることを目的としています。複数のAIモデルを統合した操作画面や、Googleマップとの連携機能などが追加されました。

アップデートの核となるのが、新しくなった「Playground」です。これまで別々のタブで操作する必要があった、対話AI「Gemini」や動画生成AI「GenMedia」などのモデルを、単一の統合された画面で利用可能になりました。これにより、開発者はタブを切り替える手間なく、アイデアから画像動画音声ナレーションまでを一つの流れで作成できます。

利便性を高める改善も加えられました。新しいウェルカムホームページは、プラットフォームの全機能へのアクセスを容易にし、最新情報や進行中のプロジェクトを一覧表示します。また、新たに追加されたレート制限ページでは、APIの使用状況と上限をリアルタイムで確認でき、予期せぬ利用中断を防ぎながらアプリケーションの規模を管理できます。

特に注目されるのが、Googleマップとの連携機能「マップグラウンディング」です。この機能により、開発者現実世界の地理データや文脈をAIモデルに直接組み込むことが可能になります。これにより、位置情報に基づいた、より正確で創造的なアプリケーション開発が期待できるでしょう。

Googleは今回のアップデートを「より良い基盤を築くためのもの」と位置付けています。開発ワークフローの摩擦をなくし、開発者が本来の創造的な作業に集中できる環境を整えました。同社は来週、この基盤の上に構築される新たなAI活用アプリ開発手法を発表する予定であり、さらなる進化が期待されます。

Anthropic、専門業務AI化へ 新機能『Skills』発表

新機能「Skills」とは

業務知識をフォルダでパッケージ化
タスクに応じAIが自動でスキル読込
ノーコードでもカスタムAI作成可能

導入企業のメリット

プロンプト手間を削減し作業効率化
属人化しがちな専門知識を共有
楽天は業務時間を8分の1に短縮

主な特徴と利点

複数スキルを自動で組合せ実行
APIなど全製品で一度作れば再利用OK

AI開発企業Anthropicは10月16日、同社のAIモデル「Claude」向けに新機能「Skills」を発表しました。これは、企業の特定業務に関する指示書やデータをパッケージ化し、Claudeに専門的なタスクを実行させるAIエージェント構築機能です。複雑なプロンプトを都度作成する必要なく、誰でも一貫した高品質のアウトプットを得られるようになり、企業の生産性向上を支援します。

「Skills」の核心は、業務知識の再利用可能なパッケージ化にあります。ユーザーは、指示書やコード、参考資料などを一つのフォルダにまとめることで独自の「スキル」を作成。Claudeは対話の文脈を理解し、数あるスキルの中から最適なものを自動で読み込んでタスクを実行します。これにより、AIの利用が特定の個人のノウハウに依存する問題を解決します。

導入効果は劇的です。先行導入した楽天グループでは、これまで複数部署間の調整が必要で丸一日かかっていた管理会計業務を、わずか1時間で完了できるようになったと報告しています。これは生産性8倍に相当します。他にもBox社やCanva社が導入し、コンテンツ作成や資料変換といった業務で大幅な時間短縮を実現しています。

技術的には「段階的開示」と呼ばれるアーキテクチャが特徴です。AIはまずスキルの名称と要約だけを認識し、タスクに必要と判断した場合にのみ詳細情報を読み込みます。これにより、モデルのコンテキストウィンドウの制限を受けずに膨大な専門知識を扱える上、処理速度とコスト効率を維持できるのが、競合の類似機能に対する優位点です。

本機能は、Claudeの有料プラン(Pro、Max、Team、Enterprise)のユーザーであれば追加費用なしで利用できます。GUI上で対話形式でスキルを作成できるため、エンジニアでなくとも利用可能です。もちろん、開発者向けにはAPIやSDKも提供され、より高度なカスタムAIエージェントを自社システムに組み込めます。

一方で、SkillsはAIにコードの実行を許可するため、セキュリティには注意が必要です。Anthropicは、企業管理者が組織全体で機能の有効・無効を制御できる管理機能を提供。ユーザーが信頼できるソースから提供されたスキルのみを利用するよう推奨しており、企業ガバナンスの観点からも対策が講じられています。

AIエージェント開発競争が激化する中、Anthropicは企業の実用的なニーズに応える形で市場での存在感を高めています。専門知識を形式知化し、組織全体の生産性を高める「Skills」は、AI活用の次の一手となる可能性を秘めているのではないでしょうか。

不在同僚のAI分身を生成、Vivenが53億円調達

「不在」が招く業務停滞を解消

同僚の不在による情報共有の遅延
AIで従業員のデジタルツインを生成
メールやSlackから知識を学習
いつでも必要な情報に即時アクセス

プライバシー保護が成功の鍵

機密情報へのアクセス制御技術
個人情報は自動で非公開
質問履歴の可視化で不正利用を防止
著名VC革新性を評価し出資

AI人材管理で知られるEightfoldの共同創業者が、新会社Vivenを立ち上げ、シードラウンドで3500万ドル(約53億円)を調達しました。Vivenは、従業員一人ひとりの「デジタルツイン」をAIで生成するサービスです。休暇や時差で不在の同僚が持つ情報にいつでもアクセスできるようにし、組織全体の生産性向上を目指します。著名投資家もその革新的なアイデアに注目しています。

Vivenの核心は、各従業員専用に開発される大規模言語モデル(LLM)です。このLLMが本人のメールやSlack、社内文書を学習し、知識や経験を内包したAIの「分身」を創り出します。他の従業員は、このデジタルツインに話しかけるように質問するだけで、プロジェクトに関する情報や知見を即座に引き出すことが可能になります。

このような仕組みで最大の障壁となるのが、プライバシーセキュリティです。Vivenは「ペアワイズコンテキスト」と呼ばれる独自技術でこの課題を解決します。この技術により、LLMは誰がどの情報にアクセスできるかを正確に判断し、機密情報や個人的な内容が意図せず共有されるのを防ぎます。

さらに、Vivenは従業員が自身のデジタルツインへの質問履歴をすべて閲覧できるようにしています。これにより、不適切な質問への強力な抑止力が働きます。この複雑な情報共有とプライバシー保護の両立は、最近のAI技術の進歩によってようやく実現可能になった、非常に難易度の高い問題だとされています。

創業者によれば、現在エンタープライズ向けデジタルツイン市場に直接の競合は存在しないとのことです。しかし、将来的に大手AI企業が参入する可能性は否定できません。その際、Vivenが先行して築いた「ペアワイズ」コンテキスト技術が、他社に対する強力な参入障壁になると期待されています。

Vivenは既に、コンサルティング大手のGenpactや、創業者らが率いるEightfold自身も顧客として導入を進めています。伝説的な投資家ヴィノド・コースラ氏も「誰もやっていない」とその独自性を認め出資を決めるなど、市場からの期待は非常に大きいと言えるでしょう。

統合AIプラットフォーム競争激化、GoogleとAWSが新サービス

Googleの新統合AI基盤

Google AIを単一プラットフォームに集約
ノーコードエージェントを構築・管理
Microsoft 365など外部データと連携
月額30ドル/人から利用可能

AWSのブラウザ拡張AI

ブラウザ拡張機能で提供
OutlookやSlack上で直接利用
多様な企業データソースに接続
既存のBedrockエージェントを活用

GoogleAmazon Web Services (AWS)が、企業向けに新たな統合AIプラットフォームを相次いで発表しました。Googleは「Gemini Enterprise」を、AWSは「Quick Suite」を投入し、従業員が業務で使うアプリケーションから離れることなく、シームレスにAI機能を呼び出せる環境を目指します。この動きは、作業の文脈(コンテキスト)を維持し、生産性を劇的に向上させることを狙ったものです。

これまでAIチャットボットを利用するには、作業中のアプリとは別に専用画面を開く必要があり、手間や思考の中断が課題でした。この「摩擦」を解消し、作業の文脈を失うことなくAIを活用できるフルスタックな環境が求められています。従業員のワークフローにAIを自然に組み込むことが、生産性向上の鍵となるのです。

Googleの「Gemini Enterprise」は、同社のAIサービスを一つのプラットフォームに統合します。Google Workspaceに加え、Microsoft 365やSalesforceといった外部データソースにも接続可能です。専門知識がなくても、ノーコードで情報検索や業務自動化のためのエージェントを構築・管理できる点が大きな特徴と言えるでしょう。

一方のAWSが発表した「Quick Suite」は、ブラウザ拡張機能として提供されます。これにより、ChromeやOutlook、Slackといった日常的に使うツール上で直接AIエージェントを呼び出せます。バックエンドではAWSのAI基盤「Bedrock」で構築したエージェントを活用でき、企業ごとの独自データに基づいた応答が可能です。

両社の新サービスが目指すのは、従業員を一つのエコシステム内に留め、作業を中断させないシームレスなAI体験の提供です。企業向けAI市場の覇権を巡る戦いは、いかに既存の業務フローに溶け込めるかという「利便性」の競争へと移行し始めています。今後、各社はさらなる差別化を迫られることになるでしょう。

Google、対話型AI検索「Search Live」をインド展開

インド市場での拡大

AI検索機能「Search Live」をインドで提供開始米国に次ぐ2例目)
英語とヒンディー語に対応し展開
AI Modeが7つのインド現地語を追加サポート
対象言語はベンガル語、タミル語など計7言語

機能と戦略的狙い

リアルタイム支援の会話型検索を実現
カメラで写した視覚情報を用いたマルチモーダル検索
インド早期AI採用をトレーニングに活用
Search Liveの基盤技術はカスタム版Gemini

Googleは、AIを搭載した会話型検索機能「Search Live」をインドで提供開始しました。これは、米国に次いで2番目の市場展開となります。同時に、AI Modeもインドの現地語7言語に拡大対応。同国はGoogleにとって最速で成長する市場の一つであり、AI機能を強化することで、巨大なユーザー層の獲得を目指します。

Search Liveは、Geminiをカスタム化したAIモデルとProject Astra技術に基づいています。ユーザーはスマートフォンのカメラを向けた物体に対し、リアルタイムで質問し、双方向の会話を通じて支援を得られます。視覚的なコンテキストを利用するマルチモーダル検索であり、ユーザー体験を大きく変えるものです。

Googleのプロダクト担当副社長は、インドの人々を「マルチモーダル検索のパワーユーザー」と表現し、音声および視覚検索において世界最大のユーザー基盤だと強調しています。この高いAI採用意欲が、インド米国に次ぐ Search Live の導入市場となった論理的な理由です。

今回のインド展開には、同国の早期AI採用層を活かし、広範な視覚的コンテキストでシステムを訓練するという戦略的狙いがあります。多様な環境や言語から得られるデータは、Search Liveの能力を時間とともに向上させ、グローバル展開の精度を高める基盤となります。

また、AI Modeはベンガル語、タミル語、ウルドゥー語など新たに7つのインド現地語に対応しました。これは、世界200以上の国と地域、35以上の新言語へのグローバル拡大の一環です。カスタムGeminiモデルが現地言語の微妙なニュアンスを正確に把握できるとしています。

Gemini CLIが外部連携を全面開放、オープンな拡張機能で開発生産性を劇的に向上

オープンな連携基盤を確立

Gemini CLIを拡張プラットフォームへ進化
外部ツールとの連携をコマンドラインで実現
開発者100万人が利用するAIエージェント
FigmaやStripeなど大手と連携開始

開発者主導の拡張性

Google非承認で公開できるオープン性
GitHubリポジトリでの手動インストールを推奨
Playbook機能でAIが使い方を即座学習
複雑な設定不要で意味のある結果を即時提供

Googleは、開発者向けAIシステム「Gemini CLI」に、外部ツールと連携するための拡張機能システムを正式に導入しました。これにより、100万人以上の開発者は、コマンドライン上で直接、FigmaやStripe、Dynatraceといった業界リーダーのサービスを利用可能になります。AIの力を借りて、開発者がターミナルと外部ツール間でのコンテキストスイッチングを排除し、生産性を劇的に高めることが目的です。

この拡張機能システムは、Gemini CLIを単なるコーディング補助ツールから「拡張性プラットフォーム」へと進化させます。拡張機能は外部ツールへの接続を可能にするだけでなく、AIエージェントがそのツールを効果的に使用するための「プレイブック」(組み込みの説明書)を含んでいます。これにより、開発者は複雑な設定なしに、最初のコマンドから意味のある結果を得ることができます。

特に注目すべきは、そのオープンなエコシステム戦略です。OpenAIChatGPTのアプリが厳しくキュレーションされているのに対し、Gemini CLIの拡張機能は、Googleの承認や関与なしに、誰でもGitHub上で開発・公開できます。これは「誰もが参加できる公正なエコシステム」を確立したいというGoogleの強い意志を反映しています。

ローンチ時点で、Figma(デザインコード生成)、Stripe(支払いサービスAPI連携)、Postman(API評価)、Shopify(開発者エコシステム連携)など、多数の主要パートナーが参画しています。これらの拡張機能をインストールするだけで、ターミナルが開発者統合されたツールチェーンの中心となり、デバッグCI/CDセキュリティチェックといった作業が効率化されます。

拡張機能は、Model Context Protocol (MCP) と呼ばれるツール連携の基盤上に構築されています。これにより、拡張機能は、ローカルファイルやGitステータスなどの環境コンテキストも利用し、開発者の意図通りに適切なツールと指示を実行します。この統合されたインテリジェンスが、開発現場におけるAIの利用価値を飛躍的に高めるでしょう。

AI21が25万トークン対応の小型LLMを発表、エッジAIの経済性を一変

小型モデルの定義変更

30億パラメータのオープンソースLLM
エッジデバイスで25万トークン超を処理
推論速度は従来比2〜4倍高速化

分散型AIの経済性

MambaとTransformerハイブリッド構造採用
データセンター負荷を減らしコスト構造を改善
高度な推論タスクをデバイスで実行

企業利用の具体例

関数呼び出しやツールルーティングに最適
ローカル処理による高いプライバシー確保

イスラエルのAIスタートアップAI21 Labsは、30億パラメータの小型オープンソースLLM「Jamba Reasoning 3B」を発表しました。このモデルは、ノートPCやスマートフォンなどのエッジデバイス上で、25万トークン以上という異例の長大なコンテキストウィンドウを処理可能であり、AIインフラストラクチャのコスト構造を根本的に変える可能性を秘めています。

Jamba Reasoning 3Bは、従来のTransformerに加え、メモリ効率に優れたMambaアーキテクチャを組み合わせたハイブリッド構造を採用しています。これにより、小型モデルながら高度な推論能力と長文処理を両立。推論速度は従来のモデルに比べて2〜4倍高速であり、MacBook Pro上でのテストでは毎秒35トークンを処理できることが確認されています。

AI21の共同CEOであるオリ・ゴーシェン氏は、データセンターへの過度な依存が経済的な課題となっていると指摘します。Jamba Reasoning 3Bのような小型モデルをデバイス上で動作させることで、高価なGPUクラスターへの負荷を大幅に軽減し、AIインフラストラクチャのコスト削減に貢献し、分散型AIの未来を推進します。

このモデルは、特に企業が関心を持つユースケースに最適化されています。具体的には、関数呼び出し、ポリシーに基づいた生成、そしてツールルーティングなどのタスクで真価を発揮します。シンプルな業務指示や議事録作成などはデバイス上で完結し、プライバシーの確保にも役立ちます。

Jamba Reasoning 3Bは、同規模の他の小型モデルと比較したベンチマークテストでも優位性を示しました。特に長文理解を伴うIFBenchやHumanity’s Last Examといったテストで最高スコアを獲得。これは、同モデルがサイズを犠牲にすることなく、高度な推論能力を維持していることを示しています。

企業は今後、複雑で重い処理はクラウド上のGPUクラスターに任せ、日常的かつシンプルな処理はエッジデバイスでローカルに実行する「ハイブリッド運用」に移行すると見られています。Jamba Reasoning 3Bは、このハイブリッド戦略の中核となる効率的なローカル処理能力を提供します。

PowerSchool、SageMakerで実現した教育AI向けコンテンツフィルタリング

K-12教育特化AIの安全確保

K-12教育向けAIアシスタント「PowerBuddy」
歴史教育などでの誤検出(False Positive)を回避
いじめ・自傷行為の即時検知を両立させる必要性

SageMaker活用によるモデル育成

Llama 3.1 8BをLoRA技術で教育特化ファインチューニング
高い可用性とオートスケーリングを要件にSageMakerを採用
有害コンテンツ識別精度約93%、誤検出率3.75%未満

事業へのインパクトと将来性

学校現場での教師の負担を大幅に軽減
将来的にマルチアダプター推論で運用コストを最適化

教育分野向けのクラウドソフトウェア大手PowerSchoolは、AIアシスタント「PowerBuddy」の生徒安全を確保するため、AWSAmazon SageMaker AIを活用し、コンテンツフィルタリングシステムを構築しました。オープンな基盤モデルであるLlama 3.1を教育ドメインに特化してファインチューニングし、高い精度と極めて低い誤検出率を両立させ、安全な学習環境の提供を実現しています。

このソリューションが目指したのは「責任あるAI(Responsible AI)」の実現です。ジェネリックなAIフィルタリングでは、生徒が歴史的な戦争やホロコーストのような機微な学術的話題を議論する際に、誤って暴力的コンテンツとして遮断されるリスクがありました。同時に、いじめや自傷行為を示唆する真に有害な内容は瞬時に検知する必要があり、ドメイン特化の調整が不可欠でした。

PowerSchoolは、このカスタムモデルの開発・運用基盤としてAmazon SageMaker AIを選定しました。学生の利用パターンは学校時間帯に集中するため、急激なトラフィック変動に対応できるオートスケーリング機能と、ミッションクリティカルなサービスに求められる高い信頼性が決め手となりました。また、モデルの重みを完全に制御できる点も重要でした。

同社はLlama 3.1 8Bモデルに対し、LoRA(Low Rank Adaptation)技術を用いたファインチューニングをSageMaker上で行いました。その結果、教育コンテキストに特化した有害コンテンツ識別精度は約93%を達成。さらに、学術的な内容を誤って遮断する誤検出率(False Positive)を3.75%未満に抑えることに成功しました。

この特化型コンテンツフィルタリングの導入は、学生の安全を確保するだけでなく、教育現場に大きなメリットをもたらしています。教師はAIによる学習サポートにおいて生徒を常時監視する負担が減り、より個別指導に集中できるようになりました。現在、PowerBuddyの利用者は420万人以上の学生に拡大しています。

PowerSchoolは今後、SageMaker AIのマルチアダプター推論機能を活用し、コンテンツフィルターモデルの隣で、教育ドメインに特化した意思決定エージェントなど複数の小型言語モデル(SLM)を展開する計画です。これにより、個別のモデルデプロイが不要となり、専門性能を維持しつつ大幅なコスト最適化を目指します。

AI生成コード急増が招くセキュリティ危機:透明性と責任追跡が困難に

新たなリスク源

AIは脆弱なコードを学習データとして取り込む
過去の脆弱性再発・混入する可能性
特定コンテキストを考慮しない「ラフドラフト」の生成

開発ライフサイクルの複雑化

LLM出力が不安定で毎回異なるコードを生成
人間によるレビューへの過度な依存が発生
コードの所有権や監査履歴の追跡が困難

影響と対策の遅れ

企業のコードの6割以上がAI生成(2024年調査)
承認ツールリストを持つ組織は2割未満
リソースの少ない組織がセキュリティ被害を受けやすい

AIによるコード生成、通称「Vibe Coding」の急速な普及が、ソフトウェアサプライチェーンに新たな、かつ深刻なセキュリティリスクをもたらしています。セキュリティ専門家は、生産性向上と引き換えに、コードの透明性や責任追跡性が失われ、従来のオープンソースが抱えていた問題を上回る危険性を指摘しています。

その最大のリスクは、AIモデルが学習データとして、公開されている古い、脆弱な、または低品質なコードを取り込んでしまう点にあります。この結果、過去に存在した脆弱性がAIによって自動生成されたコード内に再発・混入する可能性が高まっています。

多くの開発者がゼロからコードを書く手間を省くため、AI生成コードを流用しています。しかし、AIは特定の製品やサービスの詳細なコンテキストを完全に把握せず「ラフドラフト」を生成するため、開発者人間のレビュー能力に過度に依存せざるを得ません。

従来のオープンソースには、プルリクエストやコミットメッセージなど、誰がコードを修正・貢献したかを追跡するメカニズムが存在しました。しかし、AIコードにはそうしたアカウンタビリティ(責任追跡)の仕組みがなく、コードの所有権や人間の監査履歴が不明瞭になりがちです。

大規模言語モデル(LLM)は同じ指示を与えても毎回わずかに異なるコードを出力します。この特性は、チーム内での一貫性の確保やバージョン管理を極めて複雑にします。従来の開発プロセスに、AI由来の新たな複雑性が加わった形です。

調査によると、2024年には組織のコードの60%以上がAIによって生成されていると回答した幹部が3分の1に上りました。にもかかわらず、AIコード生成ツールの承認リストを持つ組織は2割未満にとどまり、セキュリティ対策の遅れが深刻化しています。

特に、低コストで迅速なアプリケーション開発を望む中小企業やリソースの少ない組織は、AIコードに依存することで、皮肉にもセキュリティ被害を被るリスクが不釣り合いに増大すると警告されています。企業は技術導入の際に、潜在的な影響を慎重に評価すべきです。

19歳CEOのAI記憶SaaS、Google幹部らから260万ドル調達

AIの長期記憶を実現

LLMのコンテキスト窓の限界を克服
セッションを超えた長期記憶機能をアプリに提供
非構造化データから知識グラフを自動構築
競合と比較し低レイテンシでの提供が強み

創業と調達のインパクト

19歳の創業者Shah氏が全米で事業開始
シードラウンドで260万ドルを調達
Google AI責任者Jeff Dean氏らが出資
既存顧客にはa16z出資のデスクトップAIも

AIアプリケーションの長期記憶機能を専門とするスタートアップ、Supermemoryは、シードラウンドで260万ドルを調達しました。創業者である19歳のドラヴヤ・シャー氏の迅速な開発力が評価され、このラウンドにはGoogle AIのトップであるジェフ・ディーン氏CloudflareのCTOなど、著名なテック業界幹部が個人投資家として参画しています。

現在のLLMはコンテキストウィンドウ(文脈記憶の範囲)に限界があり、セッションを跨いだ長期的な記憶保持が困難です。Supermemoryは、この課題を解決するため、非構造化データから「記憶」やインサイトを抽出し、知識グラフとして永続化するユニバーサルメモリーAPIを提供します。

同社のAPIは、ドキュメント、メール、チャット、PDFなど、あらゆる種類のデータを取り込むことができます。これにより、AIアプリは過去の膨大なデータからユーザーにパーソナライズされたコンテキストを迅速に引き出せます。動画エディタが関連アセットを検索するなど、マルチモーダルなユースケースにも対応します。

今回の資金調達は、Susa VenturesやBrowder Capitalが主導しました。投資家たちは、シャー氏がわずか19歳でありながら、アイデアを驚異的なスピードでプロダクト化する実行力に強く惹かれたといいます。この強力なバックアップ体制は、今後の成長を大きく後押しするでしょう。

AIのメモリーレイヤーを構築する競合他社は存在しますが、Supermemoryは特に低レイテンシ(低遅延)でのデータ提供能力を強みとしています。既にa16z出資のデスクトップアシスタントCluelyやAI動画エディタMontraなど、複数の既存顧客を獲得しており、市場での高い需要を示しています。

GoogleのAIコーディング支援、APIとCLIで開発を加速

開発ワークフローに直接統合

ターミナルで直接操作するCLI提供
API公開でシステム連携が可能に
SlackCI/CDパイプラインへ統合
作業環境の切替コストを大幅削減

Julesの進化と今後の展望

対話履歴を記憶するメモリ機能を搭載
Gemini 2.5 Proを基盤に動作
GitHub以外のバージョン管理も検討
プロ向け有料プランで利用上限拡大

Googleは10月2日、AIコーディングエージェント「Jules」を開発者ワークフローに深く統合するための新機能を発表しました。新たに提供されるコマンドラインインターフェース(CLI)とパブリックAPIにより、開発者はターミナルや既存ツールからJulesを直接利用できます。これは、開発環境の切り替え(コンテキストスイッチ)を減らし、生産性を向上させることが目的です。

今回のアップデートの核心は、開発者が日常的に使用するツールへの統合です。新CLI「Jules Tools」を使えば、WebサイトやGitHubを開くことなく、使い慣れたターミナル上でJulesにコーディングタスクを指示できます。また、公開されたAPIは、SlackCI/CDパイプラインといった既存システムとの連携を可能にし、開発ワークフローの自動化を促進します。

Julesは、同じくGoogleが提供する「Gemini CLI」とは異なる役割を担います。Julesは、ユーザーが計画を承認すると自律的にタスクを遂行する非同期型のエージェントとして設計されています。一方、Gemini CLIは、ユーザーと対話を重ねながら作業を進める、より反復的な共同作業を想定しており、用途に応じた使い分けが求められます。

GoogleはJulesの機能強化を継続的に進めています。最近では、過去の対話やユーザーの好みを記憶する「メモリ機能」を導入しました。これにより、タスクを依頼するたびに同じ指示を繰り返す必要がなくなり、よりパーソナライズされたアシスタントとして進化しています。ファイルシステムの改善なども行われ、信頼性と品質が向上しています。

今後の展望として、Julesの利用環境の拡大が挙げられます。現在はGitHubリポジトリ内での利用が前提ですが、今後は他のバージョン管理システムへの対応も検討されています。これが実現すれば、より多様な開発環境でJulesの能力を活用できるようになり、開発者コミュニティにとって大きなメリットとなるでしょう。

AIエージェントの自律性が高まる一方、人間の監督も重要です。Julesは、タスクの実行中に行き詰まった場合、自ら処理を中断し、ユーザーに質問するように設計されています。これにより、AIが意図しない動作をするリスクを低減し、開発者が安心してタスクを委任できる信頼関係の構築を目指しています。

SlackでClaudeが利用可能に、生産性向上を加速

Slackで完結するAI活用

Slack内で直接Claudeを起動
DMやスレッドでAIが応答支援
Web検索や接続済み文書も参照
AIの応答は下書き確認後にチーム共有

過去の情報をAIが瞬時に探索

Slack内の会話やファイルを横断検索
会議準備やプロジェクト進捗を要約
新規メンバーの情報把握を支援
チームの議論を公式文書化

AI開発企業Anthropicは、同社のAIアシスタントClaude」をビジネスコミュニケーションツール「Slack」と統合したと発表しました。この連携により、ユーザーはSlack内で直接Claudeの支援を受けたり、ClaudeからSlackの過去の情報を検索したりすることが可能になり、チームの生産性を飛躍的に向上させることを目指します。

SlackClaudeアプリを追加すると、使い慣れた画面でAIの能力を最大限に活用できます。ダイレクトメッセージや特定のスレッド内で「@Claude」とメンションするだけで、会話の文脈を踏まえた応答案の作成や、Web検索、接続済みのドキュメント分析などを依頼できます。これにより、作業を中断することなく、必要なサポートを即座に得られます。

特筆すべきは、ユーザーが常に主導権を握れる設計です。Claudeがスレッド内で生成した応答は、まずユーザーにのみ非公開で提示されます。ユーザーは内容を確認、編集した上でチームに共有するかを決定できるため、意図しない情報共有のリスクを避け、AIとの協業を円滑に進めることが可能です。

もう一つの強力な機能が、SlackClaudeに接続する連携です。これにより、Claudeはユーザーがアクセス権を持つチャンネル、ダイレクトメッセージ、共有ファイルを横断的に検索し、コンテキストとして参照できます。社内に蓄積された膨大な知識の中から、必要な情報を瞬時に探し出すことが可能になります。

この検索機能は、多様なビジネスシーンで効果を発揮します。例えば、会議前に複数のチャンネルに散らばった関連議論を要約させたり、新規プロジェクトに参加したメンバーが過去の経緯を素早く把握したりする際に役立ちます。埋もれがちな「暗黙知」を形式知に変え、チーム全体の意思決定を加速させるでしょう。

Slackの親会社であるSalesforceの最高製品責任者、ロブ・シーマン氏は、「AIエージェントと人間が協働する『エージェント型企業』への移行を加速させるものだ」とコメント。この統合が、より生産的でインテリジェントな働き方を実現することへの強い期待を表明しました。

本機能はSlackの有料プランを利用しているチームが対象で、Slack Marketplaceから導入できます。セキュリティ面では、Claudeはユーザーが持つ既存のSlack権限を尊重するため、アクセスできない情報には触れません。企業のセキュリティポリシーを遵守しつつ、安全にAIの利便性を享受できる仕組みです。

AIで直感開発、新エンジンVibeGame登場

「Vibe Coding」の課題

AIに頼る直感的なゲーム開発
プロジェクト肥大化で性能が低下
既存エンジンはAIとの相性難

VibeGameの設計思想

Web技術の高いAI親和性を基盤に
Robloxのような高い抽象度を実現
AIが理解しやすい宣言的な構文を採用
柔軟なECSアーキテクチャ

現状と今後の可能性

基本機能で良好な結果を確認
複雑な機能は今後実装予定

AIプラットフォームのHugging Faceが、AI支援によるゲーム開発に特化した新オープンソースエンジン「VibeGame」を発表しました。これは、AIとの対話で直感的に開発を進める「Vibe Coding」の課題を解決するものです。Web技術のAI親和性と、高レベルな抽象化を両立させることで、開発者コーディングの詳細から解放され、創造的な作業に集中できる環境を目指します。

Vibe Coding」とは、AIを高レベルなプログラミング言語のように扱い、細かな実装をAIに任せる開発スタイルを指します。この手法は初期段階では有効ですが、プロジェクトが大規模化するとAIが文脈を把握しきれなくなり、性能が著しく低下するという課題がありました。特にゲーム開発では、このコンテキスト管理が成功の鍵を握ります。

開発チームは既存プラットフォームの比較検討から始めました。Robloxは抽象度が高いものの閉鎖的で、Unityは複雑すぎてAIが混乱しがちでした。一方、Web技術はAIの習熟度が高い反面、ライブラリが低レベルで、ゲームエンジン自体の構築から始める必要がありました。それぞれに一長一短があったのです。

そこでVibeGameは、両者の「良いとこ取り」を目指しました。AIが最も得意とするWeb技術(three.jsなど)を基盤としながら、Robloxのような高レベルな抽象化を提供します。これにより、開発者は「地面とボールを配置して」と指示するだけで、物理演算を含むシーンを簡単に生成できます。

VibeGameの核心は3つの設計思想にあります。第一に、物理演算などを内蔵した高い抽象度。第二に、AIが容易に理解・生成できるHTML風の宣言的構文。そして第三に、拡張性に優れたECSアーキテクチャです。これらが組み合わさることで、AIとの円滑な共同作業が初めて可能になります。

VibeGameはまだ初期段階にあり、対応するのは基本的な物理演算やレンダリングに留まります。しかし、簡単なゲーム開発のテストでは非常に良好な結果を示しました。今後は、インベントリ管理やマルチプレイヤー機能など、より複雑なメカニクスの実装を進め、本格的なゲーム開発への対応を目指していく計画です。

この新しいエンジンは、AIを単なるツールではなく「共同開発者」として扱う未来を示唆しています。経営者エンジニアにとって、VibeGameのような技術が開発プロセスをいかに変革し、生産性を劇的に向上させる可能性があるか、注目に値するでしょう。

MIT、対話型AI「MultiverSeg」開発 医療研究を加速

マサチューセッツ工科大学(MIT)の研究者が、医療画像のセグメンテーション(領域分割)作業を劇的に効率化する新しい対話型AIシステム「MultiverSeg」を開発しました。このシステムは、ユーザーが画像上で行うクリックや走り書きなどの簡単な操作から学習します。作業を繰り返すほどAIの精度が向上し、最終的にはユーザーの操作なしで高精度なセグメンテーションが可能になり、臨床研究の加速やコスト削減が期待されます。 MultiverSegの最大の特徴は、ユーザーの操作を学習し続ける点にあります。従来の対話型ツールでは画像ごとに同じ操作を繰り返す必要がありましたが、本システムは過去の作業結果を「コンテキストセット」として記憶・参照します。これにより、新しい画像を処理する際のユーザーの負担が徐々に軽減され、作業効率が飛躍的に向上します。この仕組みは、これまでのアプローチの長所を組み合わせたものです。 性能比較実験では、他の最先端ツールを上回る結果を示しました。例えば、9枚目の画像を処理する頃には、わずか2回のクリックでタスク特化型モデルより高い精度を達成しました。X線画像のような特定のケースでは、1〜2枚の画像を手動で処理するだけで、AIが自律的に高精度な予測を行えるようになります。これは、手作業に比べ圧倒的な時間短縮です。 このツールのもう一つの利点は、機械学習の専門知識や事前のデータセット準備が不要なことです。研究者や医師は、セグメンテーションしたい新しい画像をアップロードし、直感的に操作を始めるだけですぐに利用できます。AIモデルの再トレーニングも不要なため、導入のハードルが低く、幅広い臨床現場や研究での活用が見込まれます。 研究チームは今後、臨床現場での実証実験を通じてフィードバックを収集し、システムの改善を進める計画です。また、現在は2D画像のみに対応していますが、将来的には3D医用画像への応用も目指しています。この技術が普及すれば、新しい治療法の研究が加速し、臨床試験や医療研究全体のコスト削減に大きく貢献する可能性があります。

Amazon Qがブラウザ拡張を投入。既存ワークフローで<span class='highlight'>生産性を向上

新機能の概要

Amazon Q Businessのブラウザ拡張機能
コンテキスト認識型AIを導入
ワークフロー中断の課題解消

主な利用効果

ウェブコンテンツの高速分析
外部情報連携による洞察獲得
複数の情報源を用いたコンテンツ検証

導入のメリット

意思決定プロセスの加速
企業データのシームレスな接続
Chrome/Edge/Firefoxに対応

AWSは先日、企業向け生成AIアシスタントAmazon Q Business」にブラウザ拡張機能を追加しました。これは、従業員が日常業務で利用するブラウザ内で、コンテキストを認識したAIアシスタンスを直接提供するものです。これにより、慣れたワークフローを中断することなく、企業データや外部情報に基づいた迅速な洞察抽出や意思決定が可能となり、組織全体の生産性の大幅な向上を目指します。

従来の生成AI導入における課題は、ユーザーがAI分析のために手動でデータを転送したり、慣れた環境を離れたりする必要がある点でした。本拡張機能は、こうした「摩擦」を解消します。ブラウザにAI機能を直接組み込むことで、業務中にAIを活用する機会を見逃すことなく、シームレスなサポートを受けられるのが最大の特長です。

具体的な活用事例として、ウェブコンテンツの分析が挙げられます。戦略部門や技術チームは、外部のレポートや競合分析、業界文書など、社外の断片的な情報から戦略的な洞察を導き出す必要があります。拡張機能を使えば、信頼できる内部・外部データを瞬時に統合し、トレンドの特定やインサイト生成を数秒で完了できます。

また、コンテンツ品質の改善にも大きく寄与します。通常、生成AIアシスタントがアクセスできない複数の外部データソースや、ウェブベースのスタイルガイドを含めたクエリが可能です。これにより、コンテンツのリアルタイムな検証が可能となり、多様な情報源に基づいた高品質なコンテンツ作成プロセスを加速させることができます。

導入には、Amazon Q BusinessのアプリケーションとWeb Experienceの設定が必要です。管理者は、Chromium(Chrome、Edge)やFirefoxに対応した拡張機能を一括で展開でき、さらに企業のブランドに合わせてアイコンや名称をカスタマイズすることも可能です。これにより、組織への浸透と迅速な導入をサポートします。

セキュリティ面では、Amazon Q Businessはユーザーの会話データをLLMのトレーニングには使用しません。会話はアプリケーション内に30日間のみ保存され、ユーザーはこれを削除することも可能です。このデータ管理方針は、機密情報を扱う企業ユーザーにとって重要な安心材料となります。

Nothing社、AI特化OSで市場刷新へ 2億ドル調達し来年デバイス投入

事業拡大と資金調達

2億ドルの資金調達を完了
企業評価額13億ドルに到達
流通網拡大とイノベーション加速
初の「AIネイティブデバイス」を来年投入

AI特化OSの戦略

従来と異なるAI特化のOSを開発
スマートフォンからEV、人型ロボットに対応
ユーザーに合わせた超パーソナライズ体験を実現
コンテキストとユーザー知識の活用を重視

ロンドン発の消費者テック企業Nothing社は、2億ドル(約310億円)の資金調達を発表し、評価額を13億ドルに引き上げました。同社は来年、既存の概念を覆す「AIネイティブデバイス」を市場に投入します。これは、従来のOSとは大きく異なる、AIに特化した新しいオペレーティングシステム(AI OS)を基盤とする戦略です。

このAI OSは、スマートフォンやヘッドホンといった既存の製品群に加え、スマートグラス、電気自動車(EV)、さらには人型ロボットまで、将来登場するあらゆるデバイスの頭脳となることを目指しています。ペイCEOは、この特化型OSを通じて、ユーザー一人ひとりに合わせた「超パーソナライズされた体験」を提供できると強調しています。

ペイCEOは、OS開発における独自の強みとして、コンテキストやユーザー知識を持つ「最後の流通接点(ラストマイル)」を握っている点を挙げます。これにより、単なるツールではない、ユーザーの日常生活に深く入り込み、真に役立つAI体験をハードウェアに統合できると説明しています。

Nothing社の挑戦は、過去に大衆市場の支持を得られなかったAIネイティブデバイスという未開拓の領域です。Appleのような大手企業でさえ成功を収めていない上、OpenAIと元Appleデザイナーのジョニー・アイヴ氏が共同開発する競合製品も存在します。Nothing社にとって、需要を創出し、この新たなカテゴリーを確立できるかが最大の試練となります。

GPT-5-Codexが開発生産性を劇的に向上させる理由

エージェント能力の進化

複雑なタスクで最長7時間以上の独立稼働
タスクに応じた思考時間の動的な調整
迅速な対話と長期的な独立実行の両立
実世界のコーディング作業に特化しRL学習を適用

ワークフローへの密着

CLI、IDE拡張機能、GitHubへシームレスに連携
ローカル環境とクラウド間のコンテキスト維持
画像やスクリーンショットを入力可能

品質と安全性の向上

コードレビューの精度が大幅に向上
重大なバグを早期に発見しレビュー負荷を軽減
サンドボックス環境による強固なセキュリティ

OpenAIは、エージェントコーディングに特化した新モデル「GPT-5-Codex」を発表し、開発環境Codexを大幅にアップグレードしました。これはGPT-5を実世界のソフトウェアエンジニアリング作業に最適化させたバージョンです。開発者はCLI、IDE、GitHubChatGPTアプリを通じて、より速く、信頼性の高いAIアシスタントを活用できるようになります。

最大の進化は、タスクの複雑性に応じて思考時間を動的に調整する能力です。GPT-5-Codexは、大規模なリファクタリングデバッグなどの複雑なタスクにおいて、最長7時間以上にわたり独立して作業を継続できることが確認されています。これにより、長期的なプロジェクトの構築と迅速なインタラクティブセッションの両方に対応します。

モデルは、既存のコードベース全体を理解し、依存関係を考慮しながら動作検証やテスト実行が可能です。特にコードレビュー機能が強化されており、コミットに対するレビューコメントの正確性と重要性が向上。重大な欠陥を早期に特定し、人間のレビュー工数を大幅に削減します。

開発ワークフローへの統合も一層強化されました。刷新されたCodex CLIとIDE拡張機能(VS Codeなどに対応)により、ローカル環境とクラウド環境間でシームレスに作業を移行できます。コンテキストが途切れないため、作業効率が劇的に向上します。

さらに、Codex画像やスクリーンショットを入力として受け付けるようになりました。これにより、フロントエンドのデザイン仕様やUIバグなどを視覚的にAIへ共有し、フロントエンドタスクの解決を効率化します。また、GitHub連携によりPRの自動レビューや編集指示も可能です。

安全性確保のため、Codexはデフォルトでサンドボックス環境で実行され、ネットワークアクセスは無効です。プロンプトインジェクションリスクを軽減するとともに、開発者セキュリティ設定をカスタマイズし、リスク許容度に応じて運用することが可能です。

AI普及、所得相関で地域差鮮明:企業は自動化を優先

企業API利用の核心

企業API利用は77%が自動化(Automation)。
用途はコーディングと事務管理に集中。
導入決定要因はコストより経済価値を重視。
複雑なAI導入の鍵は組織のコンテキスト整備

世界・米国での普及状況

国別利用指数は所得水準と強く相関。
高普及国はAIを協調(Augmentation)で利用。
米国ではワシントンDCとユタ州が高利用率

コンシューマー利用の変化

教育・科学分野の利用比率が顕著に増加
ユーザーのAIへのタスク委任(指示)が急伸。

Anthropicが公開した最新の経済インデックスレポートによると、AIモデル「Claude」の企業利用は急速に拡大し、その利用パターンの77%がタスクの「自動化」に集中していることが判明しました。これは、コンシューマー利用における自動化と拡張(協調)の比率がほぼ半々であるのに対し、企業がAIをシステムに組み込む際に生産性向上を目的とした委任を強く志向していることを示しています。一方で、AIの普及率は国や地域によって大きく異なり、所得水準と強く相関する不均一性が鮮明になっています。

企業によるAPI利用は、コンシューマー利用と比べ、特にコーディングや事務管理タスクに特化しています。注目すべきは、企業がAI導入を決定する際、APIの利用コストよりもモデルの能力や自動化によって得られる経済的価値を重視している点です。実際、高コストなタスクほど利用頻度が高い傾向が見られ、これは経営層がAIを単なるコスト削減ツールではなく、事業価値を最大化する戦略的資源と見なしていることを示唆します。

AIの普及には地理的な偏りが明確です。Anthropic AI Usage Index(AUI)を見ると、イスラエルやシンガポールといった高所得で技術力の高い国々が人口比で予想される水準を大きく上回る利用率を示しています。逆に、インドやナイジェリアなどの新興経済国では利用率が低迷しています。AIによる生産性向上の恩恵が既に豊かな地域に集中する可能性があり、この不均一性が世界の経済格差を拡大させるリスクがある点が指摘されています。

企業が複雑で高度なタスクにAIを適用しようとする場合、適切なコンテキスト情報へのアクセスが大きなボトルネックとなっています。複雑なタスクほどモデルに提供される入力(コンテキスト)が長くなる傾向があり、企業は社内に分散している専門知識やデータを集約・デジタル化するための組織的な投資を求められています。このデータモダナイゼーションが、AI導入の成否を分ける重要な鍵となります。

コンシューマー向けClaude.aiの利用トレンドでは、コーディングが依然として最多ですが、教育・科学といった知識集約型の分野での利用比率が急速に伸びています。また、ユーザーがAIにタスクを丸ごと任せる「指示的(Directive)」な自動化パターンが急増し、この8ヶ月間で自動化の割合が拡張(Augmentation)を初めて上回りました。これはモデル能力の向上と、ユーザーのAIに対する信頼感が高まっていることの裏付けです。

興味深いことに、AI普及率が高い国では、タスクの自動化ではなく人間とAIの協調(Augmentation)を志向する利用パターンが相対的に多いことが分かりました。一方で普及途上の国では、まず自動化から導入が進む傾向があります。この違いは、単なるAI導入のスピードだけでなく、その利用方法や労働市場への影響が地域ごとに異なる可能性を示しており、政策立案者や企業は地域特性に応じたAI戦略を練る必要があります。