Llama(基盤モデル)に関するニュース一覧

小型AIがGPT-4o並みに MIT新手法で推論コスト8割減

リーダーと部下の分業で最適化

MITが新手法DisCIPLを開発
LLMが計画し小型モデルが実行を担当
制御言語LLaMPPLで厳密に指示

コード生成で推論コストを激減

推論コストを80.2%削減し効率化
OpenAIo1と同等の精度達成
複雑な制約のある実務タスクに対応

米マサチューセッツ工科大学(MIT)の研究チームは2025年12月12日、小型言語モデル(SLM)の能力を飛躍的に高める新フレームワーク「DisCIPL」を発表しました。大規模言語モデル(LLM)が「計画」を担い、複数の小型モデルが「実行」を行う協調システムにより、OpenAIの最新モデル「o1」に匹敵する推論精度と、約8割のコスト削減を実現しています。

DisCIPLの仕組みは、組織における「上司と部下」の関係に似ています。まず、高性能なLLM(例:GPT-4o)がタスクの全体計画を立て、MITが開発した制御用言語「LLaMPPL」を用いて厳密な指示書を作成します。次に、軽量な小型モデル(例:Llama-3.2-1B)がその指示に従い、並列処理で実作業を行うことで、単体では困難な複雑なタスクを遂行します。

特筆すべきは、その圧倒的なコストパフォーマンスです。従来の推論モデルが思考プロセスを長文テキストで出力するのに対し、DisCIPLはPythonコードを用いて効率的に処理を行います。実験の結果、推論にかかる記述量を40.1%短縮し、全体コストを80.2%削減することに成功しました。これは企業のAI運用コストを劇的に下げる可能性を示唆しています。

研究チームは、この手法がAIのエネルギー消費問題への有効な解になると期待しています。高価なLLMだけに依存せず、安価で高速な小型モデルを組み合わせて高度な推論を実現するアプローチは、スケーラビリティが高く、ビジネスへの実装に適しています。今後は数学推論への応用や、より曖昧な人間の好みを反映させる研究が進められる予定です。

llama.cppが動的モデル切替に対応、再起動不要を実現

再起動なしで柔軟な運用が可能

サーバー再起動なしで動的にモデル切替が可能
リクエストに応じオンデマンドで自動ロード
Ollamaのような柔軟な管理機能を実装
各モデルは独立プロセスで動作し安定性確保

リソース効率と開発速度の向上

使用頻度の低いモデルを自動でアンロード
モデルごとのA/Bテストや比較が容易に
マルチテナント環境での展開に最適

ローカルLLM実行環境として人気の「llama.cpp」サーバーに、待望の動的モデル管理機能が追加されました。2025年12月11日に公開された新機能「ルーターモード」により、サーバーを再起動することなく、複数のAIモデルを動的に読み込み、切り替えることが可能になります。これにより、開発現場や実運用における生産性が大幅に向上します。

最大の特徴は、ユーザーからのリクエストに応じて必要なモデルを自動ロードする仕組みです。事前にモデルを指定して起動する必要がなく、キャッシュや指定ディレクトリ内のモデルを自動検出します。また、メモリ上限に達した際は、使用頻度の低いモデルから順に自動でアンロードされるため、限られたハードウェアリソースを効率的に活用できます。

システムの安定性も考慮されています。各モデルは独立したプロセスとして実行されるマルチプロセスアーキテクチャを採用しており、仮に一つのモデルがクラッシュしても、サーバー全体や他のモデルには影響を与えません。これにより、複数のモデルを同時に扱うマルチテナント環境でも安心して利用可能です。

この機能強化により、異なるバージョンのモデルを比較するA/Bテストや、用途に応じたモデルの使い分けが極めてスムーズになります。Ollamaのような手軽な操作感を、軽量かつ高速なllama.cpp環境で実現できるため、AIエンジニアやリーダーにとって強力なツールとなるでしょう。

Meta、次世代AI有料化を検討か。オープンソース戦略転換も

新モデル「Avocado」と有料化

次世代AIモデルAvocadoを開発中
従来のオープンソース戦略を変更か
モデルへのアクセスを有料化する可能性

Llama 4の苦戦と組織再編

昨年のLlama 4はリリースで苦戦
AIチームを再編し外部人材を登用
ザッカーバーグCEO直轄の新チーム始動
安全性重視で公開範囲を慎重に判断

Bloomberg等の報道によると、Metaは開発中の次世代AIモデル「Avocado」において、従来のオープンソース戦略を見直し、有料化を検討しています。これまでマーク・ザッカーバーグCEOはオープンソースを「未来の道」としてきましたが、収益性と安全性を重視する新たなフェーズへ移行する可能性があります。

方針転換の背景には、昨年の「Llama 4」リリースにおける苦戦があります。ベンチマークに関する問題や大規模版の遅延を受け、ザッカーバーグ氏は既存計画を白紙化。「何か新しいもの」を追求するため、Scale AIの元CEOらを招き入れ、AIチームの大規模な再編を行いました。

また、ザッカーバーグ氏は7月のメモで、AIの安全性リスクを軽減するため、すべての技術をオープンにするわけではないと示唆しています。現在は本社内の隔離されたスペースで新チーム「TBD Lab」と密接に連携しており、MetaのAI戦略は大きな転換点を迎えています。

Liquid AI、エッジAI開発の「設計図」を全公開

企業向け小規模モデルの革新

51ページの技術レポートを公開
独自のLFM2アーキテクチャ詳解
CPU環境での推論効率を最大化
競合を凌ぐ処理速度と品質

実践的なハイブリッド戦略

自社データでのオンプレミス運用
画像音声対応のマルチモーダル
クラウド不要のローカル処理実現
エッジとクラウド協調動作

MIT発のスタートアップLiquid AIは2025年12月1日、最新AIモデル「LFM2」の技術レポートを公開しました。これは単なるモデル提供にとどまらず、企業が独自のハードウェア制約に合わせて高性能な小規模モデルを構築するための「設計図」を提供するものです。巨大なGPUクラスターを前提としないこのアプローチは、コストやプライバシーを重視する企業のAI戦略に、オンデバイスでの実用化という新たな選択肢をもたらします。

LFM2の最大の特徴は、一般的なCPUやモバイルSoC上での動作に最適化されている点です。独自開発されたハイブリッドアーキテクチャにより、同規模の競合モデルであるLlama 3.2やGemma 3と比較して、推論速度と品質の両面で高いパフォーマンスを発揮します。これにより、スマートフォンやノートPC、産業機器など、通信環境や電力に制約のあるエッジ環境でも、遅延の少ない高度なAI処理が可能になります。

今回公開された51ページのレポートでは、アーキテクチャ探索プロセスやトレーニングデータの混合比率、知識蒸留の手法など、モデル開発の詳細なレシピが明かされました。企業はこの情報を参照することで、ブラックボックス化した外部APIに依存することなく、自社のデータセンターデバイス上で完結するAIシステムを構築・運用できるようになります。これは、セキュリティ要件の厳しい産業分野において大きなアドバンテージです。

さらにLFM2は、テキストだけでなく画像音声にも対応するマルチモーダル機能を、トークン効率を極限まで高めた形で実装しています。現場でのドキュメント理解や音声操作といったタスクを、データを外部に送信することなくローカルで完結させることが現実的になります。Liquid AIの提示するこのモデルは、エッジとクラウドが適材適所で連携する「ハイブリッドAI」時代の標準的な構成要素となるでしょう。

Hugging Faceがv5発表、PyTorch特化と相互運用性強化

開発効率を高める構造改革

モデル定義をモジュール化し保守性向上
開発基盤をPyTorchへ完全一本化

実用性を極めた学習・推論

大規模な事前学習への対応を強化
OpenAI互換の推論サーバー機能導入
低精度の量子化を標準機能として統合

エコシステムをつなぐハブへ

外部推論エンジンとの連携を円滑化
ローカル実行オンデバイス対応

Hugging Faceは、AI開発のデファクトスタンダードであるライブラリの最新版「Transformers v5」を発表しました。本バージョンでは「相互運用性」と「シンプルさ」を最優先し、コード構造のモジュール化やPyTorchへのバックエンド一本化を断行。急速に拡大するAIエコシステムにおいて、エンジニアがより効率的に学習・推論を行えるよう、量子化の標準サポートや外部ツールとの連携を強化した大型アップデートです。

前バージョンのリリースから5年、Transformersは爆発的な成長を遂げました。1日あたりのインストール数は2万回から300万回へと急増し、累計ダウンロード数は12億回を突破。サポートするモデルアーキテクチャも40種類から400種類以上へと拡大しており、AI技術の民主化と普及を支える重要なインフラとしての地位を確立しています。

v5の最大の焦点は「シンプルさ」の追求です。開発チームは「コードこそが製品である」という哲学のもと、モデル定義のモジュール化を推進。複雑化していたコードベースを整理し、新しいモデルの追加や保守を容易にしました。これにより、コミュニティによる貢献プロセスが簡素化され、最新モデルへの対応速度がさらに向上します。

技術的な大きな転換点として、バックエンドをPyTorchに一本化します。TensorFlowやFlaxのサポートを縮小し、PyTorch財団との連携を深めることで、パフォーマンスと安定性を最大化します。同時に、JAXエコシステムとの互換性は維持し、多様な開発環境やニーズに応える柔軟性も確保しています。

実用面では、推論機能と量子化が大幅に強化されました。新たにOpenAI互換のAPIを持つ「transformers serve」を導入し、手軽な推論サーバー構築が可能に。また、8-bitや4-bitといった低精度モデルの量子化を「第一級市民」として扱い、リソース制約のある環境でも高性能なモデルを効率的に扱えるようになります。

最終的な目標は、あらゆるAIツールとのシームレスな連携です。UnslothやAxolotlでの学習から、vLLMやllama.cppを用いた推論・ローカル実行まで、Transformers v5はエコシステムのハブとして機能します。この高い相互運用性により、開発者は最適なツールを自由に組み合わせ、生産性を最大化できるでしょう。

PowerToysのAI貼り付け、ローカル処理で無料・安全化

ローカルAI活用でコスト削減

NPU活用でAPI課金不要
データを守るオンデバイス処理
オフラインでも翻訳・要約が可能

多様なモデルへの対応拡大

GeminiやMistralも選択可能
オープンソースのOllamaと連携
UI改善で操作性向上

MicrosoftWindows 11向けユーティリティ「PowerToys」を更新し、Advanced Paste機能を強化しました。ユーザーはクラウドを経由せず、デバイス上のAIモデルを利用して高度な貼り付けが可能になります。

特筆すべきは、NPU(ニューラル処理装置)を活用した完全ローカル処理です。これによりAPI利用料が不要になるほか、データが外部に送信されないため、機密情報を含むテキストも安心して扱えます。

具体的には、Microsoft Foundry LocalやOllamaを介してローカルモデルを実行します。クリップボードの内容を瞬時に翻訳・要約するなど、業務効率を飛躍的に高める機能が手軽に利用可能です。

さらに、連携可能な外部モデルも拡充されました。従来のOpenAIに加え、Azure OpenAIGemini、Mistralに対応。用途や契約状況に応じて最適なAIモデルを柔軟に選択できる設計へと進化しています。

Ai2が「Olmo 3」公開、完全透明性と推論力で企業支援

完全な透明性と操作性

学習データや過程を完全公開
企業独自のカスタマイズが容易
商用可能なApache 2.0採用

推論能力と効率の向上

思考過程が見えるThinkモデル
計算効率が従来の2.5倍に向上
LlamaQwenに対抗する性能

非営利AI研究機関のAi2は、完全な透明性を備えた最新LLMファミリー「Olmo 3」を公開しました。企業が求めるデータプライバシーと制御性を重視し、学習データからチェックポイントまで全てオープンソースとして提供します。

ラインナップは、高度な推論を行う「Think」、基盤となる「Base」、指示追従に優れた「Instruct」の3種です。特にThinkモデルは、推論プロセス(思考の連鎖)を明示的に出力できる初の完全オープンな32Bモデルとなります。

最大の特徴は、ブラックボックス化が進む商用AIに対する透明性の確保です。GoogleOpenAI推論過程を隠す傾向にある中、Olmo 3は企業がモデルの挙動を完全に把握し、デバッグや監査を行うことを可能にします。

企業ごとのカスタマイズ性も大幅に強化されました。「万能な解決策はない」という思想のもと、主要な学習段階ごとのチェックポイントを提供し、企業が自社データを追加して再学習(ファインチューニング)しやすい設計となっています。

性能面では、メタのLlama 3.1や中国Qwenに対抗しうると主張しています。特に計算効率は従来比で2.5倍に向上しており、より少ないコストとエネルギーで高性能な推論処理を実現している点が強みです。

AIの政治的中立性、Anthropicが評価手法を公開

AI公平性の新基準

政治的公平性を測る評価手法
手法とデータセットをオープンソース化
Claudeの公平性は他社を凌駕
業界標準の確立を目指す動き

評価手法「ペアプロンプト」

対立視点からの一対の指示
公平性・反論・拒否の3指標
AIによる自動グレーディング
客観性と拡張性を両立

AI開発企業のAnthropicは2025年11月13日、同社のAIモデル「Claude」が政治的に公平であるかを測定する新たな評価手法を開発し、その手法とデータセットをオープンソースとして公開したと発表しました。AIの政治的偏向に対する社会的な懸念が高まる中、業界全体の透明性と信頼性の向上を目指す動きです。

なぜAIの公平性が重要なのでしょうか。Anthropicは、AIが特定の政治的見解を不当に助長すれば、ユーザーの独立した判断を妨げる恐れがあると指摘します。多様な視点を尊重し、ユーザー自身が判断を下すための支援をすることがAIの役割だと位置づけています。

同社が開発した評価手法は「ペアプロンプト」と呼ばれます。例えば、民主党と共和党の医療政策など、対立する政治的視点を持つ一対の指示をAIに与え、その応答を比較します。評価は「公平性」「反対意見の提示」「応答拒否」という3つの指標で自動的に行われます。

この手法による評価では、最新モデルのClaude Sonnet 4.5とClaude Opus 4.1がそれぞれ95%、94%という高い公平性スコアを記録しました。これは、比較対象となったGPT-5(89%)やLlama 4(66%)を上回る結果です。AIの公平性を客観的な数値で示す画期的な試みと言えるでしょう。

Anthropicがこの評価手法をオープンソース化した目的は、業界共通の基準作りにあります。他の開発者がこの手法を再現・改善できるようにすることで、AIの政治的バイアスに関する議論を促進し、業界全体の技術水準を高めることを狙っています。

この動きの背景には、AIの政治的偏向に対する規制当局や社会からの圧力があります。特に米国では「woke AI(意識高い系AI)」への批判があり、政府調達の要件にも影響を与え始めています。OpenAIなど競合他社もバイアス対策を強化しており、公平性の確保はAI企業の重要な経営課題となっています。

NVIDIA新GPU、AI学習ベンチマークで全制覇

Blackwell Ultraの圧倒的性能

MLPerf全7部門を完全制覇
LLM学習でHopper比4倍以上の性能
Llama 3.1 405Bをわずか10分で学習
唯一全テストに結果を提出した企業

新技術が支える記録更新

史上初のNVFP4精度での計算を導入
GB300 NVL72システムが初登場
画像生成モデルでも最高性能を記録
広範なパートナーエコシステムを証明

NVIDIAは、AIの性能を測る業界標準ベンチマーク「MLPerf Training v5.1」において、新GPUアーキテクチャ「Blackwell Ultra」を搭載したシステムで全7部門を制覇し、大規模言語モデル(LLM)の学習速度で新記録を樹立しました。この結果は、同社の技術的優位性とプラットフォームの成熟度を改めて示すものです。

今回初登場したBlackwell Ultra搭載の「GB300 NVL72」システムは、前世代のHopperアーキテクチャと比較して、同数のGPUでLLMの事前学習性能が4倍以上に向上しました。新しいTensor Coreや大容量メモリが、この飛躍的な性能向上を支えています。

性能向上の鍵は、MLPerf史上初となるNVFP4精度での計算です。より少ないビット数でデータを表現し、計算速度を大幅に高める新技術を導入。NVIDIAは、精度を維持しながらこの低精度計算を実用化した唯一の企業となりました。

大規模な学習においても新記録を達成しました。5,000基以上のBlackwell GPUを連携させることで、大規模モデル「Llama 3.1 405B」の学習をわずか10分で完了。これは、NVFP4の採用とスケーリング効率の向上による成果です。

今回から追加された新しいベンチマーク、軽量LLM「Llama 3.1 8B」と画像生成モデル「FLUX.1」でも、NVIDIA最高性能を記録しました。これは、同社のプラットフォームが最新の多様なAIモデルに迅速に対応できる汎用性の高さを示しています。

DellやHPEなど15のパートナー企業もNVIDIAプラットフォームで参加し、広範なエコシステムを証明しました。NVIDIA1年周期で革新を続けており、AI開発のさらなる加速が期待されます。AI導入を目指す企業にとって、その動向はますます重要になるでしょう。

MetaのAIトップ、ルカン氏が独立し新会社設立へ

ルカン氏独立の背景

CEOとの路線対立が鮮明に
LLMより「世界モデル」を重視
Meta短期的な製品化への傾倒
AIモデルLlama 4の期待外れ

新会社の構想

物理世界を理解するAI開発
動画データから因果関係を学習
人間のような推論・計画能力の実現
完成には10年を要する可能性

MetaのチーフAIサイエンティストで、チューリング賞受賞者でもあるヤン・ルカン氏が、同社を退社し自身のスタートアップを立ち上げる計画であることが報じられました。新会社では、現在の主流である大規模言語モデル(LLM)とは異なる「世界モデル」と呼ばれるAIの開発に注力する見込みです。

退社の背景には、マーク・ザッカーバーグCEOとのAI開発における路線対立があります。ルカン氏はLLMには真の推論能力が欠けていると主張し、ザッカーバーグ氏の「超知能」開発ビジョンとは異なるアプローチを模索していました。

ルカン氏が提唱する「世界モデル」とは、テキストだけでなく動画や空間データから学習し、物理世界を内面的に理解するAIシステムです。これにより、因果関係のシミュレーションや、動物のような計画能力の実現を目指します。このアプローチは、完全に開発されるまで10年かかる可能性があるとされています。

この動きは、MetaのAI事業が苦戦する中で起きました。AIモデル「Llama 4」が競合に劣る性能を示したほか、AIチャットボットも消費者の支持を得られていません。社内では長期的な研究よりも短期的な製品化を急ぐ動きが強まっていました。

最近の組織再編も、ルカン氏の決断に影響した可能性があります。ザッカーバーグ氏はデータ関連スタートアップ創業者を巨額で迎え入れ、新たなスーパーインテリジェンスチームを設立。ルカン氏がその指揮下に入ったことは、自身の研究方針への事実上の不支持と見られています。

ザッカーバーグ氏はAI分野のリーダーとなるべく、数十億ドル規模の投資を続けています。今回のAIの巨匠の退社は、かつての「メタバース」への転換と同様に、その巨額投資の成果に疑問を投げかけるものとなるかもしれません。

Meta、1600言語対応の音声認識AIを無償公開

Whisperを凌駕する規模

OpenAIの99言語を圧倒
1600以上の言語を公式サポート
ゼロショット学習で5400言語へ拡張可能
少数言語のデジタル化を促進

ビジネス利用を後押し

Apache 2.0ライセンスで公開
商用利用に一切の制限なし
企業の多言語対応コストを削減
新たな音声アプリ開発の起爆剤

Metaは2025年11月10日、1,600以上の言語に対応する多言語自動音声認識(ASR)モデル「Omnilingual ASR」をオープンソースで公開しました。このモデルは、OpenAIのWhisper(99言語対応)を大幅に上回る言語カバレッジを誇り、Apache 2.0ライセンスの下で商用利用も可能です。企業の多言語対応や新たな音声アプリケーション開発を加速させる一手となるでしょう。

「Omnilingual ASR」の最大の特徴は、その圧倒的な言語カバレッジです。公式サポートする1,600言語に加え、「ゼロショット学習」という技術を用いることで、事前の再学習なしに新たな言語の文字起こしが可能になります。これにより、理論上は世界に存在する約5,400の言語に対応できるとされ、これまでデジタル化から取り残されてきた少数言語の活用に道を開きます。

企業にとって、このモデルは大きなビジネスチャンスを意味します。ライセンスが商用利用を完全に許可するApache 2.0であるため、大企業も追加費用なしで自社サービスに組み込めます。多言語対応のカスタマーサポート、グローバルなコンテンツの字幕生成、教育ツールなど、これまでコストの壁で実現が難しかった分野での応用が期待されます。

このプロジェクトは、MetaのAI戦略における重要な転換点と見られています。最新の大規模言語モデル「Llama 4」が期待ほどの評価を得られなかった中、Omnilingual ASRはMetaの技術的信頼性を再確立する狙いがあります。制限の多いライセンスから完全にオープンな形態へ移行したことも、コミュニティからの信頼回復とエコシステム拡大に向けた強い意志の表れです。

今回の公開には、複数のモデルファミリーが含まれています。自己教師あり学習用の「wav2vec 2.0」モデルから、高精度な文字起こしを実現する「LLM-ASR」モデルまで、用途に応じて選択可能です。開発者GitHubやHugging Faceを通じて、モデルやデータセットに即座にアクセスし、自社のプロジェクトに統合することができます。

Omnilingual ASRの登場は、音声認識技術のあり方を「固定的な機能」から「コミュニティが拡張できる基盤」へと変える可能性を秘めています。企業は言語の壁を越えた事業展開を加速でき、研究者やコミュニティは言語の多様性を保護・活用する新たなツールを手に入れたことになります。今後の活用事例が注目されます。

AIの弱点、人間的な『毒』の模倣が知性より困難

AIを見破る新たな視点

過度に丁寧な感情表現が特徴
人間特有のネガティブさの欠如
70-80%の高精度でAIを検出

研究の概要と手法

主要SNSで9種のLLMをテスト
独自の「計算論的チューリングテスト」
調整後も感情の差は歴然

ビジネスへの示唆

AIによる世論操作対策への応用
より人間らしい対話AI開発のヒント

チューリッヒ大学などの国際研究チームが、ソーシャルメディア上でAIが生成した文章は、過度に丁寧で人間特有の「毒」がないため70〜80%の高精度で見分けられるという研究結果を発表しました。この研究は、AIが知性を模倣する能力は向上したものの、人間らしい自然な感情、特にネガティブな側面の再現には依然として大きな課題があることを示唆しています。

研究が明らかにしたのは、AIにとって知性を偽装するより「毒性」を偽装する方が難しいという逆説的な事実です。Twitter/XやRedditなどのプラットフォームで、実際の投稿に対するAIの返信を分析したところ、その毒性スコアは人間による返信より一貫して低いことが判明しました。AIは、人間同士のやり取りに見られる偶発的なネガティブさを再現できないのです。

研究チームは、人間の主観に頼らない「計算論的チューリングテスト」という新たな手法を導入しました。これは自動化された分類器と言語分析を用い、文章の長さなど構造的な特徴ではなく、感情のトーンや表現といった、より深い言語的特徴からAIが書いた文章を特定するものです。このアプローチにより、客観的なAI検出が可能になりました。

Llama 3.1やMistralなど9種類の主要な大規模言語モデル(LLM)がテスト対象となりました。研究チームは、プロンプトの工夫やファインチューニングといった最適化を試みましたが、AIの過度に友好的な感情トーンという根本的な特徴は解消されませんでした。「高度な最適化が、必ずしも人間らしい出力を生むわけではない」と研究は結論付けています。

この発見は、AIによる偽情報キャンペーンや世論操作ボットの検出に応用できる可能性があります。一方で、顧客対応AIなど、より自然で人間らしい対話を目指す開発者にとっては、「不完全さ」や「ネガティブさ」をいかに組み込むかという新たな課題を突きつけます。あなたの組織のAIは、丁寧すぎて逆に不自然になっていませんか。

Meta、LLMの思考回路を可視化し修正する新技術

LLMの思考回路を可視化

新技術「CRV」を開発
LLM内部に「回路」を想定
計算過程をグラフで可視化

推論エラーを検知・修正

計算グラフから誤りの兆候を検出
エラー箇所を特定し介入
推論の軌道修正に成功

高信頼AIへの道

AIの信頼性・忠実性を向上
AI開発のデバッグツールへ応用期待

Metaとエディンバラ大学の研究チームが、大規模言語モデル(LLM)の「ブラックボックス」内部を解明し、推論の誤りを検知・修正する新技術「Circuit-based Reasoning Verification(CRV)」を開発しました。この「ホワイトボックス」アプローチは、LLMの思考プロセスを可視化し、AIの信頼性を飛躍的に高める可能性を秘めています。

LLMは複雑なタスクで高い性能を発揮しますが、その思考の連鎖(Chain-of-Thought)は必ずしも信頼できません。従来の検証手法は、出力結果から判断する「ブラックボックス」型か、内部状態を限定的に見る「グレーボックス」型でした。CRVは、モデル内部の計算プロセス自体を分析する「ホワイトボックス」アプローチで、なぜエラーが起きたかの根本原因を突き止めます。

CRVの核心は、LLMがタスクを遂行するために使う神経細胞の特定のサブグラフ、すなわち「回路」の存在を仮定する点にあります。この回路の実行過程を追跡することで、開発者がソフトウェアのバグを特定するように、AIの推論の欠陥を診断できるのです。これはAIのデバッグにおける大きな進歩と言えるでしょう。

研究チームは、モデルの内部表現を解釈可能な特徴に変換する「トランスコーダー」を導入。これにより、推論の各ステップで情報の流れを示す「アトリビューショングラフ」を作成します。このグラフの構造的特徴を分析し、エラーを予測する分類器を訓練することで、リアルタイムでの推論監視が可能になります。

実証実験では、Metaの「Llama 3.1 8B」モデルを使い、CRVが従来手法を大幅に上回る精度でエラーを検出できることを確認しました。さらに重要なのは、エラーの兆候が単なる相関ではなく因果関係を持つと示した点です。実際に、誤った計算の原因となる特徴を特定し、その活動を抑制することでモデルの推論を正すことに成功しています。

この研究は、AIの解釈可能性と制御における大きな一歩です。CRVはまだ研究段階ですが、将来的にはAIモデルの根本原因を特定するデバッガーツールの開発に繋がる可能性があります。これにより、高価な再トレーニングなしに、より正確で信頼性の高いAIシステムの構築が期待されます。

AIも「脳が腐る」、低品質SNSデータ学習で性能劣化

AIに起きる「脳の腐敗」

低品質なSNSデータで学習
推論能力と記憶力が低下
倫理観が薄れ攻撃的に
人間と同様の認知能力低下

AI開発への警鐘

SNSデータは学習に不向き
一度劣化すると回復困難
AI生成物がデータ汚染を加速
エンゲージメント重視の罠

テキサス大学オースティン校などの研究チームが、大規模言語モデル(LLM)が低品質なソーシャルメディアのコンテンツで学習すると、認知能力が著しく低下する「ブレインロット(脳の腐敗)」現象が起きることを明らかにしました。この研究は、AIの学習データの品質が性能に致命的な影響を与えかねないことを示唆しており、AI開発の現場に警鐘を鳴らしています。

研究では、Meta社の「Llama」などのLLMに、扇動的なSNS投稿を学習させました。その結果、モデルの推論能力や記憶力が低下し、倫理観が薄れサイコパス的な傾向を示すなど、深刻な性能劣化が確認されました。これは人間が低品質な情報に触れ続ける際の認知能力低下と似ています。

この「ブレインロット」は、クリックやシェアを誘うために設計されたコンテンツが、真実や論理的な深みよりも瞬間的な注目を集めることを優先するため発生します。AIがこうしたデータを学習すると、論理的思考や文脈の長期的な理解能力が静かに蝕まれていくのです。安易にSNSデータを学習に用いることの危険性が浮き彫りになりました。

さらに深刻なのは、一度この「脳の腐敗」に陥ったモデルは、その後で良質なデータを用いて再学習しても、完全には回復しないという点です。性能の劣化が不可逆的である可能性が示されたことで、初期段階でのデータ品質の選定がこれまで以上に重要であることが強調されています。

この研究結果は、AI開発者にとって重大な意味を持ちます。安易にエンゲージメントの高いSNSデータを学習に利用すれば、モデルの根幹を損なうリスクがあります。また、AI自身が生成した低品質なコンテンツがSNSに溢れ、それが将来のAIの学習データを汚染するという、負のスパイラルに陥る危険性も指摘されています。

3Dで思考するロボットAI、欧州からオープンソースで登場

3Dデータで物理世界を理解

3Dデータを取り入れた独自学習
物理空間における物体の動きを把握
2D画像ベースモデルとの明確な差別化

商用版に匹敵する性能

オープンソースで誰でも利用可能
研究開発の加速と民主化に貢献
ベンチマーク商用モデル並みのスコア
スタートアップ実験・改良を促進

ブルガリアの研究所INSAITを中心とする欧州の研究者チームが22日、産業用ロボットの頭脳として機能する新たなAI基盤モデル「SPEAR-1」をオープンソースで公開しました。このモデルは3次元(3D)データで訓練されており、物体をより器用に掴み、操作する能力を飛躍的に向上させます。研究開発の加速が期待されます。

SPEAR-1の最大の特徴は、3Dデータを学習に取り入れた点です。従来のモデルは2D画像から物理世界を学んでいましたが、これではロボットが活動する3D空間との間に認識のズレが生じていました。このミスマッチを解消し、より現実に即した物体の動きを理解します。

このモデルがオープンソースで公開された意義は大きいでしょう。言語モデルの世界でLlamaなどが革新を民主化したように、SPEAR-1はロボット工学の研究者やスタートアップ迅速に実験を重ねる土台となります。身体性を持つAI分野の発展を加速させる起爆剤となりそうです。

性能も注目に値します。ロボットのタスク遂行能力を測るベンチマーク「RoboArena」では、商用の基盤モデルに匹敵する高いスコアを記録しました。特に、有力スタートアップPhysical Intelligence社の最先端モデルにも迫る性能を示しており、その実用性の高さが伺えます。

ロボット知能の開発競争は激化し、数十億ドル規模の資金が動いています。SPEAR-1の登場は、クローズドな商用モデルとオープンソースモデル共存しながら技術を進化させる可能性を示唆します。専門家は「1年前には不可能だった」と述べ、この分野の急速な進歩に驚きを見せています。

AWS流、LLM分散学習クラスター構築・検証術

分散学習の複雑な設定

高性能GPUインスタンスの精密設定
ネットワークとストレージの複雑性
バージョン不整合による性能劣化リスク

構築・検証の主要ステップ

DLCベースのDockerイメージ構築
EKSでのGPUクラスター起動
GPU・EFA等必須プラグイン導入
ヘルスチェックによる設定検証
サンプルジョブでの最終動作確認

アマゾン ウェブ サービス(AWS)は、大規模言語モデル(LLM)の分散学習に不可欠なインフラ構築を効率化するため、Amazon EKSとAWS Deep Learning Containers(DLC)を用いたクラスターの構築・検証手順を公開しました。この体系的なアプローチは、複雑な設定ミスを防ぎ、開発チームがモデル性能の向上に集中できる環境を実現します。AI開発の生産性を高めたい経営者エンジニアにとって、必見の内容と言えるでしょう。

最新のLLM開発では、Meta社のLlama 3が16,000基のGPUを使用したように、膨大な計算資源が求められます。しかし、高性能なGPUインスタンスは、ネットワークやストレージ、GPUの構成が極めて複雑です。わずかな設定ミスが性能の大幅な低下やエラーを招き、プロジェクトの遅延やコスト増大に直結する大きな課題となっています。

この課題に対し、AWSは解決策の核として「AWS Deep Learning Containers(DLC)」の活用を推奨しています。DLCは、CUDAやNCCLといった互換性が重要なライブラリ群を最適化した状態で提供するコンテナイメージです。これにより、バージョン不整合のリスクを根本から排除し、開発チームはインフラの細かな調整から解放され、開発を迅速に開始できます。

具体的な構築手順は、まずDLCを基盤にカスタムDockerイメージを作成することから始まります。次に、Amazon EKS(Elastic Kubernetes Service)を用いてGPU対応クラスターを起動。その後、GPUや高速ネットワーク(EFA)、ストレージ(FSx for Lustre)を連携させるための各種プラグインを導入し、計算、通信、データ保管が三位一体となった本番環境レベルの基盤を完成させます。

インフラ構築後の検証プロセスもまた、成功の鍵を握ります。GPUドライバーの確認、複数ノード間の通信テスト、そして小規模なサンプル学習ジョブの実行といった段階的なヘルスチェックが不可欠です。これにより、大規模な学習を開始する前に問題を特定し、高価なGPUリソースと時間の浪費を未然に防ぐことが可能になります。

この体系的な手法を導入することで、企業はインフラ管理の負担を大幅に軽減し、エンジニアをモデル開発という本来の価値創出業務に集中させることができます。結果として、AI開発の生産性と成功確率が向上し、市場における企業の競争力強化に大きく貢献するでしょう。

IBM、AI IDEにClaude搭載し生産性45%向上へ

Claude統合の核心

IBMの企業向けソフトへのClaudeモデル導入
開発環境IDE「Project Bob」での活用開始
レガシーコードのモダナイゼーションを自動化
Anthropicとの提携企業部門を強化

開発者生産性の成果

社内利用で平均生産性45%増を達成
コードコミット数を22〜43%増加
ClaudeLlamaなどマルチモデルを連携

AIガバナンス戦略

セキュアなAIエージェント構築ガイドを共同開発
watsonx OrchestrateでのAgentOps導入による監視

IBMはAnthropicと戦略的提携を発表し、主力エンタープライズ・ソフトウェア群に大規模言語モデル(LLM)Claudeを統合します。特に、開発環境(IDE)である「Project Bob」にClaudeを組み込むことで、レガシーコードの刷新と開発者生産性の劇的な向上を目指します。

このAIファーストIDE「Project Bob」は、既にIBM内部の6000人の開発者に利用されており、平均で45%の生産性向上という驚異的な成果を上げています。このツールは、単なるコード補完ではなく、Java 8から最新バージョンへの移行など、複雑なモダナイゼーションタスクを自動化します。

Project Bobの最大の特徴は、AnthropicClaudeだけでなく、Mistral、MetaLlama、IBM独自のGranite 4など、複数のLLMをリアルタイムでオーケストレーションしている点です。これにより、タスクに応じて最適なモデルを選択し、精度、レイテンシ、コストのバランスをとっています。

また、両社はAIエージェントの企業導入における課題、特に本番環境でのガバナンスに着目しています。共同でセキュアなAIエージェント構築ガイドを作成し、設計・展開・管理を体系化するAgent Development Lifecycle(ADLC)フレームワークを提供します。

IBMは、AIガバナンスを強化するため、watsonx Orchestrateに新たな機能を追加します。オープンソースのビジュアルビルダーLangflowを統合し、さらにリアルタイム監視とポリシー制御を行うAgentOpsを導入します。

企業がAI導入で直面する「プロトタイプから本番への溝」を埋めることが狙いです。この包括的なアプローチは、単にエージェントを構築するだけでなく、エンタープライズ級の信頼性、コンプライアンスセキュリティを確保するために不可欠な要素となります。

PowerSchool、SageMakerで実現した教育AI向けコンテンツフィルタリング

K-12教育特化AIの安全確保

K-12教育向けAIアシスタント「PowerBuddy」
歴史教育などでの誤検出(False Positive)を回避
いじめ・自傷行為の即時検知を両立させる必要性

SageMaker活用によるモデル育成

Llama 3.1 8BをLoRA技術で教育特化ファインチューニング
高い可用性とオートスケーリングを要件にSageMakerを採用
有害コンテンツ識別精度約93%、誤検出率3.75%未満

事業へのインパクトと将来性

学校現場での教師の負担を大幅に軽減
将来的にマルチアダプター推論で運用コストを最適化

教育分野向けのクラウドソフトウェア大手PowerSchoolは、AIアシスタント「PowerBuddy」の生徒安全を確保するため、AWSAmazon SageMaker AIを活用し、コンテンツフィルタリングシステムを構築しました。オープンな基盤モデルであるLlama 3.1を教育ドメインに特化してファインチューニングし、高い精度と極めて低い誤検出率を両立させ、安全な学習環境の提供を実現しています。

このソリューションが目指したのは「責任あるAI(Responsible AI)」の実現です。ジェネリックなAIフィルタリングでは、生徒が歴史的な戦争やホロコーストのような機微な学術的話題を議論する際に、誤って暴力的コンテンツとして遮断されるリスクがありました。同時に、いじめや自傷行為を示唆する真に有害な内容は瞬時に検知する必要があり、ドメイン特化の調整が不可欠でした。

PowerSchoolは、このカスタムモデルの開発・運用基盤としてAmazon SageMaker AIを選定しました。学生の利用パターンは学校時間帯に集中するため、急激なトラフィック変動に対応できるオートスケーリング機能と、ミッションクリティカルなサービスに求められる高い信頼性が決め手となりました。また、モデルの重みを完全に制御できる点も重要でした。

同社はLlama 3.1 8Bモデルに対し、LoRA(Low Rank Adaptation)技術を用いたファインチューニングをSageMaker上で行いました。その結果、教育コンテキストに特化した有害コンテンツ識別精度は約93%を達成。さらに、学術的な内容を誤って遮断する誤検出率(False Positive)を3.75%未満に抑えることに成功しました。

この特化型コンテンツフィルタリングの導入は、学生の安全を確保するだけでなく、教育現場に大きなメリットをもたらしています。教師はAIによる学習サポートにおいて生徒を常時監視する負担が減り、より個別指導に集中できるようになりました。現在、PowerBuddyの利用者は420万人以上の学生に拡大しています。

PowerSchoolは今後、SageMaker AIのマルチアダプター推論機能を活用し、コンテンツフィルターモデルの隣で、教育ドメインに特化した意思決定エージェントなど複数の小型言語モデル(SLM)を展開する計画です。これにより、個別のモデルデプロイが不要となり、専門性能を維持しつつ大幅なコスト最適化を目指します。

高性能LLMをローカルPCで、NVIDIAが活用ガイド公開

RTXでLLMを高速化

プライバシーと管理性をローカル環境で確保
サブスクリプション費用が不要
RTX GPU推論を高速化
高品質なオープンモデルを活用

主要な最適化ツール

簡単操作のOllamaで手軽に開始
多機能なLM Studioでモデルを試用
AnythingLLMで独自AIを構築
これらツールのパフォーマンス向上を実現

NVIDIAは、同社のRTX搭載PC上で大規模言語モデル(LLM)をローカル環境で実行するためのガイドを公開しました。プライバシー保護やサブスクリプション費用の削減を求める声が高まる中、OllamaやLM Studioといったオープンソースツールを最適化し、高性能なAI体験を手軽に実現する方法を提示しています。これにより、開発者や研究者だけでなく、一般ユーザーによるLLM活用も本格化しそうです。

これまでクラウド経由が主流だったLLMですが、なぜ今、ローカル環境での実行が注目されるのでしょうか。最大の理由は、プライバシーとデータ管理の向上です。機密情報を外部に出すことなく、手元のPCで安全に処理できます。また、月々の利用料も不要で、高品質なオープンモデルが登場したことも、この流れを後押ししています。

手軽に始めるための一つの選択肢が、オープンソースツール「Ollama」です。NVIDIAはOllamaと協力し、RTX GPU上でのパフォーマンスを大幅に向上させました。特にOpenAIgpt-oss-20BモデルやGoogleのGemma 3モデルで最適化が進んでおり、メモリ使用効率の改善やマルチGPU対応も強化されています。

より専門的な利用には、人気のllama.cppを基盤とする「LM Studio」が適しています。こちらもNVIDIAとの連携で最適化が進み、最新のNVIDIA Nemotron Nano v2モデルをサポート。さらに、推論を最大20%高速化するFlash Attentionが標準で有効になるなど、RTX GPUの性能を最大限に引き出します。

ローカルLLMの真価は、独自のAIアシスタント構築で発揮されます。例えば「AnythingLLM」を使えば、講義資料や教科書を読み込ませ、学生一人ひとりに合わせた学習支援ツールを作成できます。ファイル数や利用期間の制限なく対話できるため、長期間にわたる文脈を理解した、よりパーソナルなAIが実現可能です。

NVIDIAの取り組みは汎用ツールに留まりません。ゲームPCの最適化を支援するAIアシスタント「Project G-Assist」も更新され、音声やテキストでラップトップの設定を直接変更できるようになりました。AI技術をより身近なPC操作に統合する試みと言えるでしょう。このように、RTX PCを基盤としたローカルAIのエコシステムが着実に拡大しています。

プライバシーを確保しつつ、高速かつ低コストでAIを動かす環境が整いつつあります。NVIDIAの推進するローカルLLM活用は、経営者エンジニアにとって、自社のデータ資産を活かした新たな価値創出の好機となるでしょう。

元OpenAIムラティ氏、AI調整ツールTinker公開

元OpenAI幹部の新挑戦

ミラ・ムラティ氏が新会社を設立
初製品はAIモデル調整ツールTinker
評価額120億ドルの大型スタートアップ

TinkerでAI開発を民主化

専門的な調整作業をAPIで自動化
強化学習でモデルの新たな能力を開拓
調整済みモデルはダウンロードして自由に利用可

OpenAIの最高技術責任者(CTO)であったミラ・ムラティ氏が共同設立した新興企業「Thinking Machines Lab」は2025年10月1日、初の製品となるAIモデル調整ツール「Tinker」を発表しました。このツールは、最先端AIモデルのカスタマイズ(ファインチューニング)を自動化し、より多くの開発者や研究者が高度なAI技術を利用できるようにすることを目的としています。

「Tinker」は、これまで専門知識と多大な計算資源を要したモデルのファインチューニング作業を大幅に簡略化します。GPUクラスタの管理や大規模な学習プロセスの安定化といった複雑な作業を自動化し、ユーザーはAPIを通じて数行のコードを記述するだけで、独自のAIモデルを作成できるようになります。

特に注目されるのが、強化学習(RL)の活用です。共同創業者ChatGPT開発にも関わったジョン・シュルマン氏が主導するこの技術により、人間のフィードバックを通じてモデルの対話能力や問題解決能力を飛躍的に向上させることが可能です。Tinkerは、この「秘伝のタレ」とも言える技術を開発者に提供します。

Thinking Machines Labには、ムラティ氏をはじめOpenAIの元共同創業者や研究担当副社長など、トップレベルの人材が集結しています。同社は製品発表前にすでに20億ドルのシード資金を調達し、評価額は120億ドルに達するなど、業界から極めて高い期待が寄せられています。

現在、TinkerはMeta社の「Llama」やAlibaba社の「Qwen」といったオープンソースモデルに対応しています。大手テック企業がモデルを非公開にする傾向が強まる中、同社はオープンなアプローチを推進することで、AI研究のさらなる発展と民主化を目指す考えです。これにより、イノベーションの加速が期待されます。

NVIDIA、AIモデル群Nemotronを無償公開 開発加速へ

NVIDIAは9月24日、マルチモーダルAIモデルファミリー「Nemotron」をオープンソースとして公開しました。NemotronにはAIモデル、データセット、開発ツール群が含まれ、研究および商用目的で利用可能です。GitHubなどを通じて提供され、開発者は透明性の高いAIを迅速に構築できます。これにより、あらゆる規模の企業でAI開発の加速が期待されます。 Nemotronは、AI開発の全段階を効率化するオープンソース技術群です。大学院レベルの科学的推論や高度な数学コーディングに優れた最先端のAIモデルが含まれます。さらに、モデルの学習に使われたデータセットや、AIを高速かつ低コストで実行するための数値精度アルゴリズムなども提供されます。 なぜNVIDIAはオープンソース化に踏み切ったのでしょうか。それは、広範な問題解決を可能にする「汎用知能」と、各業界特有の課題に対応する「特化知能」の両方を向上させるためです。同社はNemotronを通じて、あらゆる産業でAIの導入を大規模に推進することを目指しています。 既に多くの企業がNemotronの活用を進めています。例えば、セキュリティ企業のCrowdStrikeは、AIエージェントエコシステム強化に利用しています。また、DataRobotはNemotronを基に、より高速でコスト効率の高い推論モデルを開発するなど、具体的な成果が出始めています。 NVIDIAはNemotron開発で得た知見を次世代GPUの設計に活かす一方、コミュニティの技術も積極的に取り入れています。Alibabaの「Qwen」やMetaの「Llama」といったオープンモデルの技術を活用し、Nemotronのデータセットや機能を強化するなど、エコシステム全体での発展を目指しています。 開発者GitHubやHugging Face、OpenRouterを通じてNemotronを利用開始できます。NVIDIA RTX PCユーザーはllama.cppフレームワーク経由でのアクセスも可能です。同社は今後もイベントなどを通じて、開発者コミュニティとの連携を深めていく方針です。

医療AI、女性や少数派の症状を軽視するバイアスが判明

医師が利用するAIツールが、女性やエスニックマイノリティの健康状態を悪化させるリスクが指摘されています。米英の複数の研究で、多くの大規模言語モデル(LLM)がこれらの患者の症状を軽視する傾向が示されたのです。これは、社会に存在する治療格差のパターンをAIが再生産・強化する可能性を示唆します。 マサチューセッツ工科大学(MIT)の研究によると、OpenAIGPT-4MetaLlama 3などは、女性患者に対して明らかに低いレベルの治療を推奨しました。症状によっては、専門医の受診ではなく自宅での自己治療を提案するなど、診断の深刻さを過小評価する傾向が見られたといいます。 同大学の別の研究では、人種によるバイアスも明らかになりました。GPT-4などのモデルは、精神的な不調を訴える黒人やアジア系の人々に対し、他の人種に比べて「共感」の度合いが低い回答を生成。これにより、患者が受けるサポートの質が人種によって左右される危険性が懸念されます。 同様の傾向は、ロンドン・スクール・オブ・エコノミクスの研究でも確認されました。ソーシャルワーカーの支援に使われるGoogleのGemmaモデルは、男性と比較して女性の身体的・精神的な問題を軽視する形でケースノートを要約・生成する傾向があったと報告されています。 現在、MicrosoftGoogleなどの巨大テック企業は、医師の負担軽減と治療の迅速化を目指し、医療AI製品の開発を急いでいます。しかし、これらのツールに潜むバイアスは、特定の患者層に不利益をもたらしかねません。AIの恩恵を公平に享受するため、開発と導入にはより慎重な検証と対策が不可欠です。