Ollamaに関する最新ニュース（5件） | 【AI Times】生成AIやLLMの最新情報・ニュース

Google、最強オープンモデルGemma 4をApache 2.0で公開

2026年04月02日 Google NVIDIA ワークフロー Llama 推論事前学習 GPU 画像動画音声中国エージェント Hugging Face Ollama Gemma Google DeepMind

モデル構成と性能

4種類のモデルを同時公開

31Bがオープン世界3位の性能

26B MoEは4Bの計算量で動作

E2B・E4Bはスマホ端末対応

技術的な特徴

テキスト・画像・音声のネイティブ対応

関数呼び出しをモデルに組込み

最大256Kトークンの長文脈

140以上の言語を事前学習

ライセンスと展開

Apache 2.0で商用利用自由

Ollama・llama.cppで即日利用可能

NVIDIA GPUで最適化済み

詳細を見る

Google DeepMindは2026年4月1日、オープンモデル「Gemma 4」を4サイズ同時に公開しました。最上位の31BモデルはArena AIリーダーボードでオープンモデル世界3位を獲得し、ライセンスは従来の独自条項からApache 2.0へ変更されました。

31B Denseは高品質な推論特化、26B MoEは128個の小規模エキスパートのうち8個だけを活性化し、31B級の性能を4B級の速度で実現します。AIME 2026で31Bが89.2%、MoEが88.3%を記録し、前世代Gemma 3の20.8%から飛躍的に向上しました。

エッジ向けのE2BとE4Bは、スマートフォンやRaspberry Pi、Jetson Nanoで完全オフライン動作します。Per-Layer Embeddings技術により、E2Bは総パラメータ51億ながら実効2Bとして軽量に動き、音声認識もモデル内で処理できます。

全モデルが画像・動画・音声のマルチモーダル入力に対応し、関数呼び出しもアーキテクチャレベルで統合されています。可変アスペクト比の画像処理、最大256Kトークンの長文脈、140以上の言語への対応により、エージェント型AIワークフローの構築基盤として設計されています。

Apache 2.0ライセンスへの移行は、企業導入における法的障壁を解消する重要な転換点です。NVIDIAとの協業によりRTX GPUからDGX Sparkまで最適化され、Ollama・llama.cpp・Hugging Faceなど主要ツールが初日から対応しています。中国系モデルがオープン化を後退させる中、Googleは逆方向の戦略を明確にしました。

出典：NVIDIA公式 | DeepMind公式 | Ars Technica | VentureBeat | Hugging Face

OllamaがApple MLX対応、Macでのローカル推論を大幅高速化

2026年03月31日 NVIDIA Apple GitHub ChatGPT Claude Claude Code Codex Qwen OpenClaw Llama エンジニア推論機械学習クラウドクラウドサービス中国 Ollama

MLX対応の概要

Apple MLXフレームワーク対応開始

Ollama 0.19プレビューで提供

Qwen3.5-35Bモデルのみ対応

Apple Silicon搭載Mac・RAM32GB以上が必要

性能改善と圧縮技術

キャッシュ性能の向上を実現

Nvidia NVFP4圧縮形式に対応

メモリ使用効率の大幅改善

ローカルLLM需要の高まり

OpenClawがGitHubで30万スター突破

クラウドAPIの料金・制限への不満が背景

詳細を見る

ローカルLLM実行ツールOllamaは、Appleが開発したオープンソースの機械学習フレームワークMLXへの対応を発表しました。これにより、Apple Silicon搭載Macでの大規模言語モデルの推論性能が大幅に向上します。

今回の対応はOllama 0.19のプレビュー版として提供されており、現時点で対応モデルはAlibabaのQwen3.5-35Bパラメータ版のみです。利用にはApple Silicon搭載Macに加え、最低32GBのRAMが必要とされています。

MLX対応に加え、キャッシュ性能の改善やNvidiaのNVFP4モデル圧縮形式への対応も同時に発表されました。NVFP4はモデルのメモリ使用量を大幅に削減する技術で、より効率的な推論環境の構築が可能になります。

ローカルモデル実行への関心は急速に高まっています。OpenClawがGitHubで30万スター以上を獲得し、中国を中心に世界的な注目を集めています。研究者やホビイスト以外の層にもローカルLLMの活用が広がりつつあります。

背景には、Claude CodeやChatGPT Codexなどのクラウドサービスにおけるレート制限や高額なサブスクリプション費用への開発者の不満があります。OllamaはVisual Studio Codeとの統合も拡充しており、ローカル開発環境の充実を進めています。

出典：Ars Technica

llama.cppにモデル動的管理機能が追加

2025年12月11日 Llama コンテキスト Ollama

ルーターモードの概要

動的なモデル切り替えが可能に

再起動なしでロード・アンロード

マルチプロセスで障害を分離

主な機能と使い方

キャッシュからの自動検出

LRU方式で自動アンロード

モデルごとの個別設定に対応

Web UIからもモデル選択可能

詳細を見る

llama.cppサーバーに、複数モデルの動的管理を可能にするルーターモードが追加されました。モデルを指定せずにサーバーを起動すると、キャッシュやディレクトリからGGUFファイルを自動検出し、リクエストに応じてモデルを動的にロードします。

各モデルは独立したプロセスで実行されるため、一つのモデルがクラッシュしても他のモデルに影響しません。最大同時ロード数に達するとLRU方式で古いモデルが自動的にアンロードされ、VRAMを効率的に管理できます。

プリセットファイルを使えば、モデルごとにコンテキストサイズや温度などを個別に設定可能です。この機能は、Ollamaのようなモデル管理をllama.cppに求めるコミュニティの要望に応えたものです。

出典：Hugging Face

PowerToysのAI貼り付け、ローカル処理で無料・安全化

2025年11月20日 OpenAI マイクロソフト Gemini Windows AI活用業務効率 Llama オンデバイスクラウド Mistral Ollama

ローカルAI活用でコスト削減

NPU活用でAPI課金不要

データを守るオンデバイス処理

オフラインでも翻訳・要約が可能

多様なモデルへの対応拡大

GeminiやMistralも選択可能

オープンソースのOllamaと連携

UI改善で操作性向上

詳細を見る

MicrosoftはWindows 11向けユーティリティ「PowerToys」を更新し、Advanced Paste機能を強化しました。ユーザーはクラウドを経由せず、デバイス上のAIモデルを利用して高度な貼り付けが可能になります。

特筆すべきは、NPU（ニューラル処理装置）を活用した完全ローカル処理です。これによりAPI利用料が不要になるほか、データが外部に送信されないため、機密情報を含むテキストも安心して扱えます。

具体的には、Microsoft Foundry LocalやOllamaを介してローカルモデルを実行します。クリップボードの内容を瞬時に翻訳・要約するなど、業務効率を飛躍的に高める機能が手軽に利用可能です。

さらに、連携可能な外部モデルも拡充されました。従来のOpenAIに加え、Azure OpenAIやGemini、Mistralに対応。用途や契約状況に応じて最適なAIモデルを柔軟に選択できる設計へと進化しています。

出典：The Verge

高性能LLMをローカルPCで、NVIDIAが活用ガイド公開

2025年10月01日 Google OpenAI NVIDIA エコシステムアシスタント Llama gpt-oss エンジニア経営者学生推論 GPU クラウドプライバシー音声 Ollama Gemma

RTXでLLMを高速化

プライバシーと管理性をローカル環境で確保

サブスクリプション費用が不要

RTX GPUで推論を高速化

高品質なオープンモデルを活用

主要な最適化ツール

簡単操作のOllamaで手軽に開始

多機能なLM Studioでモデルを試用

AnythingLLMで独自AIを構築

これらツールのパフォーマンス向上を実現

詳細を見る

NVIDIAは、同社のRTX搭載PC上で大規模言語モデル（LLM）をローカル環境で実行するためのガイドを公開しました。プライバシー保護やサブスクリプション費用の削減を求める声が高まる中、OllamaやLM Studioといったオープンソースツールを最適化し、高性能なAI体験を手軽に実現する方法を提示しています。これにより、開発者や研究者だけでなく、一般ユーザーによるLLM活用も本格化しそうです。

これまでクラウド経由が主流だったLLMですが、なぜ今、ローカル環境での実行が注目されるのでしょうか。最大の理由は、プライバシーとデータ管理の向上です。機密情報を外部に出すことなく、手元のPCで安全に処理できます。また、月々の利用料も不要で、高品質なオープンモデルが登場したことも、この流れを後押ししています。

手軽に始めるための一つの選択肢が、オープンソースツール「Ollama」です。NVIDIAはOllamaと協力し、RTX GPU上でのパフォーマンスを大幅に向上させました。特にOpenAIのgpt-oss-20BモデルやGoogleのGemma 3モデルで最適化が進んでおり、メモリ使用効率の改善やマルチGPU対応も強化されています。

より専門的な利用には、人気のllama.cppを基盤とする「LM Studio」が適しています。こちらもNVIDIAとの連携で最適化が進み、最新のNVIDIA Nemotron Nano v2モデルをサポート。さらに、推論を最大20%高速化するFlash Attentionが標準で有効になるなど、RTX GPUの性能を最大限に引き出します。

ローカルLLMの真価は、独自のAIアシスタント構築で発揮されます。例えば「AnythingLLM」を使えば、講義資料や教科書を読み込ませ、学生一人ひとりに合わせた学習支援ツールを作成できます。ファイル数や利用期間の制限なく対話できるため、長期間にわたる文脈を理解した、よりパーソナルなAIが実現可能です。

NVIDIAの取り組みは汎用ツールに留まりません。ゲームPCの最適化を支援するAIアシスタント「Project G-Assist」も更新され、音声やテキストでラップトップの設定を直接変更できるようになりました。AI技術をより身近なPC操作に統合する試みと言えるでしょう。このように、RTX PCを基盤としたローカルAIのエコシステムが着実に拡大しています。

プライバシーを確保しつつ、高速かつ低コストでAIを動かす環境が整いつつあります。NVIDIAの推進するローカルLLM活用は、経営者やエンジニアにとって、自社のデータ資産を活かした新たな価値創出の好機となるでしょう。

出典：NVIDIA公式

Ollama（プロダクト）に関するニュース一覧

Ollama（プロダクト）に関するニュース一覧

Google、最強オープンモデルGemma 4をApache 2.0で公開

モデル構成と性能

技術的な特徴

ライセンスと展開

OllamaがApple MLX対応、Macでのローカル推論を大幅高速化

MLX対応の概要

性能改善と圧縮技術

ローカルLLM需要の高まり

llama.cppにモデル動的管理機能が追加

ルーターモードの概要

主な機能と使い方

PowerToysのAI貼り付け、ローカル処理で無料・安全化

ローカルAI活用でコスト削減

多様なモデルへの対応拡大

高性能LLMをローカルPCで、NVIDIAが活用ガイド公開

RTXでLLMを高速化

主要な最適化ツール

関連キーワード

同じカテゴリ

他カテゴリ