LoRA(モデル学習手法・技術)に関するニュース一覧

Krea、画像生成AIを2秒のオープンウェイト公開

公開モデルの概要

学習用のRawと高速版Turbo
2秒での画像生成
120億パラメータの新設計

ライセンス条件

50席超は有償の企業契約
違法画像防止の技術対策を義務化
生成物の著作権は利用者

AI創作ツール新興企業のKreaは6月、新たな画像生成AI「Krea 2」のオープンウェイト版を公開しました。学習向けの「Krea 2 Raw」と高速生成向けの「Krea 2 Turbo」の2種で、いずれもHugging Faceから誰でもダウンロードできます。同社はAI画像が画一的になりがちな課題を踏まえ、表現の多様性と高い指示再現性の両立を掲げます。

技術的な中核は、ゼロから構築した120億パラメータの拡散トランスフォーマーです。Turboは知識蒸留により生成工程を8ステップまで圧縮し、一般的な消費者向けハードでも2K解像度の画像を約2秒で描き出します。一方のRawは事後学習や人間のフィードバックによる調整を施さない素の状態で、独自スタイルの追加学習に向く「白紙のキャンバス」と位置づけられています。

想定される使い方は「Rawで学習し、Turboで生成する」という流れです。Rawは作り込まれた作風の偏りがないため、建築製図や特定ブランドの素材といった独自表現を高い忠実度で吸収できます。学習したLoRAはそのままTurboへ移植でき、高速な試作と反復に活用できる仕組みです。

ライセンスは独自の「Krea 2 コミュニティライセンス契約」を採用しました。個人や小規模事業者は無償で商用利用や成果物の収益化ができ、Kreaは生成物の著作権を主張しないと明記しています。一方で席数が50を超える組織は企業向けの有償契約が必要となり、APIの利用も生成ごとに課金される別建てのサービスです。

従来のMITやApache 2.0と異なり、この契約には下流の行動規範が課されています。モデルを自社運用する事業者は、違法素材や同意なき性的画像、児童性的虐待素材、名誉毀損的な生成物を防ぐための入出力フィルターの実装を義務づけられます。怠れば契約違反となり、Kreaは重みの更新やアクセス停止を行う権利を持ちます。

Kreaは2022年にサンフランシスコで創業し、これまでに計8300万ドルを調達、利用者は191カ国で3000万人を超えると説明しています。複数のAIエンジンを束ねる集約サービスから、自社開発モデルを提供する企業への転換を進めてきました。今回の公開は、閉鎖的なAPIに対し制作者の自由度を重視する選択肢として、オープンウェイト市場での競争を一段と高めるものと位置づけられます。

IEEEがLLMオンライン講座を開講、技術者の実装力底上げへ

講座の中身

全5講座のオンラインプログラム
Transformer構造を数式から解説
PyTorchで学習パイプライン実装
RAGRLHF・量子化まで網羅

ねらいと修了特典

プロンプトを超えた構築力育成
修了でデジタルバッジ付与
組織向け団体研修にも対応

IEEEは2026年6月19日、技術者向けにLLMの仕組みを基礎から学ぶオンライン講座「Large Language Models Demystified」を開講したと発表しました。IEEE Learning Networkを通じて提供される全5講座構成のプログラムで、IEEE Educational ActivitiesがIEEE Computer Societyと共同で開発しています。

背景には、LLMを使う人と作れる人の差が急速に広がっている現状があります。LLMはメールや旅行計画に使う一般用途を超え、ソースコードの脆弱性検出や技術仕様の整理など、技術者の日常業務を支える基盤要素になりつつあります。市場は2030年まで年率約33%の成長が見込まれ、実装力は専門技能から必須要件へと変わりつつあります。

講座は単なるプロンプト術ではなく、生成AIの工学的な仕組みに踏み込む内容です。Transformerの自己注意機構や位置エンコーディングをNumPyとPythonで実装し、PyTorchでエンドツーエンドの学習パイプラインを構築します。LoRAなどのパラメータ効率化手法や量子化も扱います。

さらに最適化やアライメント、デプロイの段階では、RLHFGRPORAGエージェント型AIまで取り上げます。なぜモデルがそう動くのかを理解することで、開発者は試行錯誤から脱し、信頼性の高いAIツールを設計できるようになります。

修了者にはプロフェッショナル開発単位とIEEEデジタルバッジが付与され、習得した専門性を証明できます。組織単位でチームを育成したい企業は、IEEEコンテンツ専門家を通じて団体登録や研修プランの相談が可能です。

ハイパーネットワークが専門モデルを生成しエージェント自律化

従来手法の限界

微調整による破滅的忘却
プロンプト肥大で起きる文脈ロット
人手による検証が外せない構造

第三の手法

方針から重みを生むハイパーネットワーク
推論時に専門モデルを即時生成
小型ゆえ10〜30倍安い運用

残る課題

不確実性を測る較正の難しさ
自動化バイアスへの警戒

米メディアVentureBeatは2026年6月19日、AIエージェントの自律性を阻む根本原因と、その解決策として浮上するハイパーネットワークを解説する記事を公開しました。多くのエージェントは試作では好調でも、本番投入後は短時間で人間の介在を必要とし、効率化の約束が監視作業に消えてしまいます。問題はモデルの能力ではなく、企業の知識をモデルのどこに置くかにあると指摘しています。

企業がこれまで取ってきた選択肢は二つです。第一は微調整で知識を重みに焼き込む方法ですが、新しい学習が既存の知識を侵食する破滅的忘却を抱え、方針変更のたびに高コストな再学習が必要になります。第二は実行時にプロンプトへ方針を載せる文脈内学習ですが、入力が増えるほど精度が落ちる文脈ロットに直面し、いずれも人間が検証から離れられません。

第三の道として注目されるのが、推論時に方針から小さな専門モデルをその場で生成する手法です。生成器となるのは、別のネットワークの重みを出力するハイパーネットワークで、2016年に命名され、言語モデルへの応用は近年活発化しています。Sakana AIのText-to-LoRAやSHINEがこの方向を進め、タスクごとのアダプターの乱立を一つの生成器に集約します。

小型化を支持する根拠として、記事はNvidia研究者の2025年論文を挙げます。エージェントの定型作業には小型モデルで十分で、最先端の汎用モデルより10〜30倍安く動かせるといいます。$2150万を調達した米Nace.AIは、企業の方針からMetaModelで重みを生成し、監査やコンプライアンスなど規制業務に向け、エージェントが大半を処理し人間が結果を検証する90対10の分担を掲げます。

ただし課題も残ります。最大の論点はモデルが自らの不確かさを把握する較正で、アダプター生成が必ずしも較正を改善しないとの研究もあります。生成モデルの質は元になる方針データに大きく依存し、データ整備が重要になります。スケールも未解明の研究領域で、Naceは公表済みの規模を超えて生成器を拡張し、性能の伸びを示すスケーリング則を導いたと主張しています。

人間への引き渡しそのものも設計上の難題です。Deloitte Australiaが約44万豪ドルで納めた政府報告書は、結論は妥当でも出典確認を怠ったため、捏造された引用を含んだまま上級審査を通過しました。EU AI法の第14条はこれを自動化バイアスと名付けています。記事は、自律比率が高いほど人間の注意が薄い最終局面に集中するため、出典を素早く確認できる根拠付けが価値を左右すると結論づけています。

HuggingFaceがLoRA超え検証、最適手法は用途次第

LoRA一強の現状

モデルカードの98.4%LoRA
画像生成でも95%占有
人気が自己強化する構図

公平な比較基盤

同条件で40以上の手法を評価
論文の自社有利な比較を回避
VRAM・忘却・速度も計測

用途別の最適解

画像生成ではOFTが上回る
config一行で手法切替

米AI企業のHugging Faceは2026年6月18日、自社ブログでパラメータ効率の良い微調整手法(PEFT)の比較検証結果を公表しました。広く使われるLoRAが本当に最適かを同社の標準ライブラリで検証し、用途によっては他手法が上回ると結論づけています。経営者エンジニアが開いたモデルを自社データで調整する際の指針となる内容です。

PEFTは、モデル全体を何度も載せる必要がある微調整のメモリ負荷を大幅に下げる技術群です。少ないメモリで量子化モデルも調整でき、チェックポイントが小さく、既存知識を忘れにくい利点があります。同社が開発するPEFTライブラリは、多数の手法を統一APIで扱える点が特徴です。

LoRAは早期に登場し効果が高かったため、現在は圧倒的な普及率を誇ります。同社の調査では、PEFT手法を一つだけ挙げたモデルカードの98.4%LoRAで、画像生成のチェックポイントでも約95%を占めました。ただしこれは性能の証明ではなく、解説や周辺対応の充実が人気を呼ぶ自己強化の可能性も指摘しています。

論文に基づく手法選びには問題があると同社は警告します。研究者は既存指標を超える結果を出す圧力にさらされ、比較対象や評価基準も論文ごとに異なるため、再現が難しいのです。実際、学習率の調整だけでLoRAが他手法に並ぶという研究もあります。

そこで同社は同一の基盤モデル・データ・ハードウェアで全手法を評価する基準を整備しました。数学データセットでの推論学習と、猫のぬいぐるみという新概念を学ぶ画像生成の二つを用意し、テスト性能に加えVRAM使用量や忘却、実行時間、チェックポイント容量まで追跡しています。

結果として、数学課題ではLoRAが性能とメモリの均衡点に位置する一方、画像生成ではOFTが高い類似度と低メモリで上回りました。同社は、LoRAが悪い選択ではないものの自動的な既定にすべきではなく、config一行で手法を切り替えて自分の用途に最適な手法を試すよう促しています。

Cosmos動画生成モデルのLoRA微調整手法を公開

効率的な微調整手法

LoRA・DoRAでアダプタ注入
2Bパラメータモデルを単一GPUで学習可能
rank32で約5000万の学習パラメータ
アダプタ切替で複数ドメイン対応

ロボット動画生成への応用

92本のロボット操作動画で学習
人間の手の幻覚を微調整で解消
指示追従と物理的妥当性が大幅に向上
8基のH100で約2.5時間で学習完了

NVIDIAHugging Faceは、大規模動画生成モデルCosmos Predict 2.5をLoRAおよびDoRAで効率的に微調整する手法を公開しました。20億パラメータのモデル全体を再学習する代わりに、注意機構やフィードフォワード層に小規模なアダプタモジュールを注入することで、単一のGPUでも微調整が可能になります。ロボット操作の合成動画生成を主な応用先として、92本の実ロボット動画を使った学習手順が示されています。

微調整にはrectified flowの定式化が用いられ、ノイズサンプルからクリーンデータへ線形に輸送する速度をモデルが学習します。VAE、テキストエンコーダ、DiTの基盤重みはすべて凍結され、LoRAアダプタのパラメータのみが更新されます。数値安定性のため、アダプタの重みはfloat32にキャストされ、bf16混合精度で学習が進みます。

評価では、Sampson誤差による幾何的整合性と、Cosmos Reason2をLLM審査員とした物理的妥当性・指示追従性の3指標が用いられました。微調整前のベースモデルでは、ロボットの手が人間の手に置き換わる幻覚や、指定された手の左右が無視される問題が発生していましたが、LoRA・DoRAによる微調整でこれらが解消されました。

rank 8とrank 32の比較では、高ランクが指示追従性を向上させる一方、幾何的整合性や物理的妥当性はランク8でも十分という結果が得られました。これは物理的な事前知識が凍結された基盤モデルに既に含まれており、アダプタはドメイン固有の外観やタスク構造の学習のみを担うためと分析されています。DoRAは低ランクでの学習安定化に有用ですが、rank 32ではLoRAと同等の性能に収束しました。

OncoAgent、がん診療AIをオープンソースで実現

システム構成と技術基盤

8ノードのLangGraphで臨床推論を分解
9Bと27Bの2段階モデルで症例難度に応じ切替
70超のNCCN/ESMOガイドラインをRAGで参照
3層の安全検証で幻覚出力を遮断

MI300Xでの学習成果

26.7万症例のQLoRA学習を約50分で完了
合成データ生成はAPI比56倍の高速化
全工程を1台で完結し患者データの外部送信なし

オープンソースのがん領域臨床意思決定支援システム「OncoAgent」の技術論文が、Hugging Faceブログで2026年5月9日に公開されました。OncoAgentは、LangGraphによる8ノードのマルチエージェント構成と、4段階の補正RAGパイプラインを組み合わせ、NCCNやESMOなど70以上の医師向けガイドラインに基づく回答生成を実現しています。患者データを外部クラウドに送信しない「Zero-PHIポリシーを掲げ、院内オンプレミス環境での完結運用を前提に設計されています。

モデルは症例の複雑さに応じて2段階に分かれます。加重スコアリングにより、ステージIVや複数遺伝子変異を伴う高難度症例は27Bパラメータの深層推論モデル(Tier 2)へ、それ以外は9Bパラメータの高速トリアージモデル(Tier 1)へ自動ルーティングされます。いずれもQwen系モデルをベースに、QLoRAで微調整されています。

学習には実症例と合成データを合わせた26万6,854件のOncoCoTコーパスが使われました。AMD Instinct MI300X(192GB HBM3)上でUnslothフレームワークとシーケンスパッキングを活用し、当初5時間と見積もられた学習を約50分に短縮しています。合成データ生成もAPI経由の毎時120件に対し、MI300X上では毎時6,800件と56倍の速度を達成しました。

安全面では、検索ゲート・信頼度ゲート・リフレクション批評・人間介入(HITL)の4層構造を採用しています。批評ノードはLLMではなく決定的コードで動作するため、敵対的プロンプトによる安全機構の迂回を防ぎます。RAGパイプラインでは、コサイン距離0.10を閾値とする反幻覚ポリシーにより、ドメイン外の入力には推奨を一切生成しない設計です。

現時点での課題として、学習データの約36%が合成症例であり、腫瘍専門医による大規模な精度検証はまだ実施されていません。ガイドラインも主に英語のNCCNが対象で、ESMOや他言語の臨床資料への対応は今後の課題です。コード・アダプタ重み・合成コーパスはHugging FaceGitHubで公開予定とされています。

IBM、文書理解特化の小型視覚言語モデル「Granite 4.0 3B Vision」公開

モデルの特徴と構造

企業文書の表・図・帳票を高精度抽出
30億パラメータの軽量設計
LoRAアダプタでテキスト専用と視覚の両対応
DeepStack方式で意味と空間情報を分離処理

ベンチマーク性能

図表要約スコア86.4%で全モデル首位
表抽出でも複数ベンチで最高精度達成
政府帳票KVP抽出で85.5%のゼロショット精度

導入と活用方法

Apache 2.0ライセンスで公開
Docling連携で大規模PDF処理に対応

IBMは2026年3月31日、企業向け文書理解に特化した小型視覚言語モデル「Granite 4.0 3B Vision」をHugging Faceで公開しました。30億パラメータながら、表・図表・帳票からの情報抽出で大型モデルを上回る性能を発揮します。

本モデルはGranite 4.0 Microの上にLoRAアダプタとして構築されており、画像処理が不要な場面ではベースモデルに自動的にフォールバックします。この設計により、1つのデプロイマルチモーダルとテキスト専用の両方に対応できます。

技術面では、独自のDeepStack Injection方式を採用しています。抽象的な視覚特徴を前段レイヤーに、高解像度の空間特徴を後段レイヤーに分離して注入することで、文書の内容と配置の両方を正確に理解します。

性能面では、図表理解ベンチマークChart2Summaryで86.4%を達成し、自身の2倍以上のサイズのモデルを含む全評価対象中で首位となりました。表抽出でもPubTables-v2やTableVQAなど複数のベンチマークで最高スコアを記録しています。

さらに、170万件の合成チャートデータセット「ChartNet」を独自開発し、CVPR 2026で発表予定です。24種類のチャートタイプと6つの描画ライブラリをカバーし、コード・画像・データ表・要約・QAの5要素を揃えた高品質なデータで訓練されています。

活用面では、単体での画像理解に加え、文書処理ツールDoclingとの統合により、大規模PDFの自動処理パイプラインを構築できます。請求書や財務報告書、学術論文など幅広い文書に対応し、Apache 2.0ライセンスで自由に利用可能です。

NVIDIA、多言語・マルチモーダル対応のAI安全モデルを公開

モデルの特徴

140以上の言語に対応
画像とテキストの複合判定
Gemma-3 4B基盤で軽量高速
文化的文脈を考慮した安全判定

性能と実用性

有害コンテンツ検出精度84%
競合モデルの約半分の遅延
12言語で安定した精度を維持
8GB VRAMGPUで動作可能

NVIDIAは2026年3月20日、マルチモーダル・多言語対応のコンテンツ安全モデル「Nemotron 3 Content Safety 4B」をHugging Faceで公開しました。従来の英語中心・テキストのみの安全モデルが抱えていた文化的ニュアンスの見落としを解消することを目指しています。

同モデルはGemma-3 4B-ITビジョン言語基盤モデル上に構築され、LoRAアダプターで安全分類機能を追加しています。テキスト・画像またはその両方を入力として受け取り、安全・危険の判定を出力します。アシスタント応答が含まれる場合はやり取り全体の文脈を評価し、複合的に生じる違反も検出できます。

訓練データにはNemotron Safety Guard Dataset v3の文化的に適応された多言語データ、人手でアノテーションされたマルチモーダルデータ、合成データなどが含まれます。英語データは日本語・中国語・韓国語を含む12言語に翻訳され、実運用環境を反映した多言語カバレッジを実現しています。

ベンチマーク評価では、Polyguard・VLGuard・MM SafetyBenchなど主要テストで平均84%の精度を達成し、同規模のオープン安全モデルを上回りました。さらにポルトガル語やロシア語など訓練外言語でも強力なゼロショット汎化性能を示しています。推論遅延は大型モデルの約半分で、エージェントループやリアルタイム用途にも適しています。

4月にはNVIDIA NIMとしても提供予定で、GPU最適化された推論マイクロサービスとして本番環境への迅速な導入が可能になります。企業のAIエージェントやグローバルサービスにおけるコンテンツモデレーション基盤として、実用性の高い選択肢となりそうです。

IBM Research、構造化AIワークフロー基盤Mellea 0.4.0を公開

Mellea 0.4.0の新機能

Granite Librariesとネイティブ統合
制約付きデコードでスキーマ正確性を保証
指示・検証・修復パターンの導入
観測フックワークフロー監視が可能に

Granite Librariesの構成

granitelib-core:要件検証用アダプタ
granitelib-ragRAGパイプライン全工程対応
granitelib-guardian:安全性・事実性・コンプライアンス特化
granite-4.0-micro向けLoRAアダプタ

IBM Researchは2026年3月20日、オープンソースのPythonライブラリMellea 0.4.0と3つのGranite Librariesを同時公開しました。これにより、IBM Graniteモデル上で構造化・検証可能・安全性を備えたAIワークフローの構築が容易になります。

Melleeは確率的なプロンプト動作を、構造化された保守可能なAIワークフローに置き換えるライブラリです。制約付きデコードや構造化修復ループ、パイプラインの組み合わせにより、LLMベースのプログラムの予測可能性と保守性を高める設計思想を持っています。

バージョン0.4.0では、Granite Librariesとのネイティブ統合が実現しました。制約付きデコードに基づく標準化APIを通じ、出力のスキーマ正確性を保証します。さらにリジェクションサンプリング戦略による指示・検証・修復パターンや、イベント駆動型コールバックによる観測フックも導入されました。

同時公開されたGranite Librariesは、granite-4.0-microモデル向けの特化型LoRAアダプタ群です。granitelib-coreは要件検証、granitelib-rag検索前・検索後・生成後のRAGタスク、granitelib-guardianは安全性・事実性・ポリシー準拠の各領域をカバーします。

汎用プロンプティングに頼らず、タスク特化型アダプタを用いることで、少ないパラメータコストで各タスクの精度を向上させつつ、ベースモデルの能力を損なわない点が特長です。コードと論文はHugging FaceおよびGitHubで公開されており、すぐに導入を開始できます。

HuggingFace、LeRobot v0.5.0でヒューマノイド対応と6つの新ポリシーを追加

ハードウェア拡張

Unitree G1ヒューマノイド初対応
全身協調制御(WBC)の実現
OpenArmロボットアームの統合
CANバスモーター対応で高性能化

AIポリシーと高速化

Pi0-FAST自己回帰VLAの導入
Real-Time Chunkingで推論の応答性向上
LoRA/PEFTで大規模VLAの効率微調整
画像学習10倍高速化を実現

エコシステム整備

EnvHubでHub上のシミュレーション環境を直接利用
NVIDIA IsaacLabとのGPU並列学習統合
サードパーティポリシープラグイン対応
ICLR 2026採択で学術的評価を獲得

Hugging Faceは2026年3月にオープンソースロボット学習フレームワーク「LeRobot」のv0.5.0をリリースした。同バージョンでは初のヒューマノイドロボット対応や6つの新ポリシー追加、データパイプラインの大幅な高速化など、あらゆる次元でのスケールアップが実現されています。

最大のハードウェア追加はUnitree G1ヒューマノイドの全面サポートです。歩行・ナビゲーション・物体操作・遠隔操作に加え、全身協調制御(WBC)により移動と操作を同時実行できる。これはLeRobotが卓上アームを超えた汎用ロボティクスへ踏み出す重要な一歩となっています。

ポリシー面ではPi0-FASTが注目されます。Gemma 300Mベースの自己回帰型アクションエキスパートを採用し、FASToトークン化によって離散化されたアクション列を生成します。また推論技術のReal-Time Chunking(RTC)は、フローマッチングポリシーの応答性を劇的に改善し、実世界デプロイでのレイテンシ問題を解消します。

データセットパイプラインではストリーミングビデオエンコーディングの導入により、エピソード記録後のエンコード待ち時間がゼロになりました。さらに画像学習が最大10倍、エンコードが3倍高速化されており、データ収集からモデル訓練までのサイクルが大幅に短縮されています。

コードベース面ではPython 3.12+とTransformers v5への移行が完了し、サードパーティポリシープラグインシステムの導入でエコシステムの拡張性が向上しました。EnvHubとNVIDIA IsaacLab-Arenaの統合により、シミュレーション環境の共有・活用も容易になっています。同論文はICLR 2026にも採択されており、学術コミュニティからの評価も高まっています。

Unsloth×HFでLLM微調整が無料開放へ

無料LLMファインチューニングの実現

Hugging Face JobsプラットフォームでUnslothを無料利用可能
高速かつ低メモリなLLMファインチューニングが一般開放
LoRA/QLoRAベースの効率的な訓練手法に対応
GPUアクセスのない研究者・開発者に訓練機会を提供
クラウドコストの民主化でドメイン特化モデルが普及

エコシステムへの影響

ファインチューニング参入コストが実質ゼロに低下
企業・研究機関がカスタムモデルを低コストで構築可能
Unslothの速度最適化技術がHFのスケールで利用可能に
HFのモデルハブとの統合でデータセット→訓練→公開が一貫

Hugging FaceとUnslothは、Hugging Face Jobsプラットフォームを通じてLLMのファインチューニングを無料で提供するパートナーシップを発表しました。Unslothはその高速化(通常の2〜5倍速)とメモリ効率(最大80%削減)で知られており、これをHFのクラウドインフラと組み合わせることで、GPUを持たない開発者や研究者に訓練機会を開放します。

ファインチューニングの民主化は、AI活用の次のフロンティアを拓きます。汎用的な基盤モデルをドメイン特化させる能力は、医療、法律、製造など特定業界でのAI活用精度を大幅に向上させます。これまでこの作業には高額なGPUクラスターが必要でしたが、今後は個人や中小企業でも実施可能になります。

HuggingFaceにとってこの提携は、モデルハブ(保管)からトレーニング基盤(構築)、さらにはデプロイメントまでをカバーするフルスタックMLプラットフォームとしての地位を強化します。Unslothのユーザーベースを取り込む獲得戦略でもあります。

Unslothの側では、有料の商用サービスへの入口としてHF経由の無料ティアを活用する戦略です。無料で試したユーザーが高度な機能や大規模訓練のために有料プランに移行するフリーミアムモデルを狙っています。

この動きはより広いトレンドの一部です。LLMの推論コストが下がり続ける中、次の競争軸は専用化・個別最適化にシフトしています。ファインチューニングの民主化が進むことで、汎用LLMよりもドメイン特化モデルが主流になる時代が近づいています。

AIエージェント構築・検証・微調整の最前線

自律エージェントの精度を高める新アプローチ

ReplitのAgent 3がREPLベース検証で200分以上の自律動作を実現
ブラウザ自動化とコード実行を組み合わせ「見せかけ実装」を自動検出
IBM製オープンソースフレームワークCUGAがHugging Face Spacesに統合
AppWorldベンチマーク1位・WebArena上位を達成した設定可能な汎用エージェント
プランナー/エグゼキューター分離とコードアクト方式で幻覚を抑制
MCP・OpenAPI・LangChain対応のマルチツール連携機能を提供

エージェントAIを支えるデータ基盤と軽量ファインチューニング

Twilioレポートで54%の消費者がAIの文脈保持の欠如を指摘
会話型AIには静的CDPではなくリアルタイム会話メモリが必要と提言
NVIDIAがNemotron 3ファミリーをエージェントAI微調整向けに発表
Unslothを使い低メモリNVIDIA GPULoRA/QLoRAによる効率的なファインチューニングが可能

ReplitはAgent 3の開発において、コードが「動いているように見えるだけ」の問題、いわゆる「ポチョムキン実装」に悩まされてきました。この課題を解決するためREPL(対話型実行環境)とブラウザ自動化を組み合わせた独自の検証システムを構築し、エージェントが生成したコードを実際に実行・操作して機能の実在性を確認できるようにしました。

この仕組みによりAgent 3は200分以上にわたって自律的にタスクを継続でき、単に見た目を整えるだけの実装を自動的に検出・修正するサイクルを回せるようになりました。自己テスト型の検証ループはエージェント品質保証に新たな基準を示しています。

IBMが開発したCUGA(Configurable Generalist Agent)はオープンソースの汎用AIエージェントフレームワークです。AppWorldベンチマークで1位、WebArenaでも上位を記録しており、WebやAPIを跨ぐ複雑なマルチステップタスクを高い精度でこなします。

CUGAは現在Hugging Face Spacesに統合され、オープンモデルと組み合わせて誰でも試せる環境が整いました。推論モードをコスト・レイテンシに応じて切り替えられる柔軟な設計が特徴で、MCP・OpenAPI・LangChain経由の多様なツール連携にも対応しています。

Twilioの調査によると、消費者の54%が「AIは過去のやりとりをほとんど覚えていない」と感じており、AIから人間担当者へ引き継がれる際に全文脈が共有されると答えたのはわずか15%でした。エージェントAIが真に機能するには、リアルタイムで携帯可能な会話メモリが不可欠です。

この問題を解決するには、従来のCRMやCDPを使い続けるのではなく、会話メモリをコミュニケーションインフラの内部に組み込む必要があると指摘されています。Twilioはこうした次世代の顧客データ基盤の構築を推進しています。

NVIDIAはNemotron 3ファミリーを発表し、エージェントAIの微調整に最適化されたオープンモデルとライブラリを提供しました。GeForce RTXラップトップからDGX Sparkまで幅広いNVIDIA GPUで動作します。

Unslothを使ったLoRA/QLoRAによるファインチューニングは、フルパラメータ更新より少ないメモリと時間でモデルを特定タスクへ特化させる手法です。製品サポートや個人アシスタントなどの用途で小型言語モデルの精度を高める実用的なアプローチとして注目されています。

MIT技術でAIが自律的に進化へ

SEAL技術の概要

LLMが自律的に自己改善
合成データを生成し学習

具体的な性能

知識タスクで大幅な性能向上
GPT-4.1が生成したデータを上回る
フューショット学習でも成功

今後の課題と展望

災害的忘却リスク
計算コストが課題
モデルの大型化で適応能力向上

マサチューセッツ工科大学(MIT)の研究チームが、大規模言語モデル(LLM)が自らを改善する技術「SEAL」の改良版を公開し、AIの自律的な進化が現実味を帯びてきました。この技術は、LLMが自ら合成データを生成してファインチューニングを行うことで、外部からの継続的なデータ供給や人間の介入なしに性能を向上させることを可能にします。

SEALの核心は、モデルが「自己編集」と呼ばれる自然言語の指示を生成し、それに基づいて自らの重みを更新する点にあります。これは、人間が学習内容を再構成して理解を深めるプロセスに似ており、従来のモデルがデータをそのまま受け身で学習するのとは一線を画します。

性能評価では、SEALは目覚ましい成果を上げています。新たな事実知識を取り込むタスクでは、正答率を33.5%から47.0%へと向上させ、これはGPT-4.1が生成したデータを使った場合を上回りました。また、少数の例から学ぶフューショット学習でも、成功率を20%から72.5%に引き上げています。

技術的には、SEALは「内側ループ」で自己編集による教師ありファインチューニングを行い、「外側ループ」で強化学習によってより有益な編集を生成する方策を学ぶ、という二重ループ構造を採用しています。計算効率を高めるため、効率的なファインチューニング手法であるLoRAが活用されています。

しかし、課題も残されています。新たな情報を学習する際に、以前に学習した能力が低下する「災害的忘却」のリスクや、一つの編集を評価するのに30~45秒かかる計算コストの高さが挙げられます。研究チームは、強化学習がこの忘却を緩和する可能性があると指摘しています。

それでも、この技術がもたらすインパクトは計り知れません。AIコミュニティからは「凍結された重みの時代の終わり」との声も上がっており、モデルが環境の変化に合わせて進化し続ける、より適応的でエージェント的なAIシステムへの道を開くものと期待されています。

PowerSchool、SageMakerで実現した教育AI向けコンテンツフィルタリング

K-12教育特化AIの安全確保

K-12教育向けAIアシスタント「PowerBuddy」
歴史教育などでの誤検出(False Positive)を回避
いじめ・自傷行為の即時検知を両立させる必要性

SageMaker活用によるモデル育成

Llama 3.1 8BをLoRA技術で教育特化ファインチューニング
高い可用性とオートスケーリングを要件にSageMakerを採用
有害コンテンツ識別精度約93%、誤検出率3.75%未満

事業へのインパクトと将来性

学校現場での教師の負担を大幅に軽減
将来的にマルチアダプター推論で運用コストを最適化

教育分野向けのクラウドソフトウェア大手PowerSchoolは、AIアシスタント「PowerBuddy」の生徒安全を確保するため、AWSAmazon SageMaker AIを活用し、コンテンツフィルタリングシステムを構築しました。オープンな基盤モデルであるLlama 3.1を教育ドメインに特化してファインチューニングし、高い精度と極めて低い誤検出率を両立させ、安全な学習環境の提供を実現しています。

このソリューションが目指したのは「責任あるAI(Responsible AI)」の実現です。ジェネリックなAIフィルタリングでは、生徒が歴史的な戦争やホロコーストのような機微な学術的話題を議論する際に、誤って暴力的コンテンツとして遮断されるリスクがありました。同時に、いじめや自傷行為を示唆する真に有害な内容は瞬時に検知する必要があり、ドメイン特化の調整が不可欠でした。

PowerSchoolは、このカスタムモデルの開発・運用基盤としてAmazon SageMaker AIを選定しました。学生の利用パターンは学校時間帯に集中するため、急激なトラフィック変動に対応できるオートスケーリング機能と、ミッションクリティカルなサービスに求められる高い信頼性が決め手となりました。また、モデルの重みを完全に制御できる点も重要でした。

同社はLlama 3.1 8Bモデルに対し、LoRA(Low Rank Adaptation)技術を用いたファインチューニングをSageMaker上で行いました。その結果、教育コンテキストに特化した有害コンテンツ識別精度は約93%を達成。さらに、学術的な内容を誤って遮断する誤検出率(False Positive)を3.75%未満に抑えることに成功しました。

この特化型コンテンツフィルタリングの導入は、学生の安全を確保するだけでなく、教育現場に大きなメリットをもたらしています。教師はAIによる学習サポートにおいて生徒を常時監視する負担が減り、より個別指導に集中できるようになりました。現在、PowerBuddyの利用者は420万人以上の学生に拡大しています。

PowerSchoolは今後、SageMaker AIのマルチアダプター推論機能を活用し、コンテンツフィルターモデルの隣で、教育ドメインに特化した意思決定エージェントなど複数の小型言語モデル(SLM)を展開する計画です。これにより、個別のモデルデプロイが不要となり、専門性能を維持しつつ大幅なコスト最適化を目指します。