Hugging Face、画像生成パイプラインを自在に組み替える新基盤を公開

モジュラー設計の核心

ブロック単位で自由に着脱
既存APIと互換性を維持
カスタムブロックをHub共有可能
コンポーネントの遅延読み込み対応

エコシステムの広がり

Kreaがリアルタイム動画生成に採用
ノードUIMellonと統合
モジュラーリポジトリで量子化モデル参照
コミュニティパイプラインがHub上で増加
詳細を読む

Hugging Faceは、画像生成ライブラリDiffusersの新機能「Modular Diffusers」を公開しました。従来の固定的なDiffusionPipelineクラスに代わり、テキストエンコード・デノイズ・デコードなどの処理を独立したブロックとして組み合わせる設計を導入しています。

各ブロックは入出力が明確に定義されており、パイプラインから任意のブロックを抜き出して単独実行したり、別のブロックと差し替えたりすることが可能です。たとえば深度推定ブロックを作成し、ControlNetワークフローの先頭に挿入するといった柔軟な構成が数行のコードで実現できます。

カスタムブロックはHugging Face Hubに公開でき、他のユーザーがtrust_remote_codeオプションで即座に読み込めます。公式テンプレートも用意されており、コンポーネント定義・入出力宣言・処理ロジックの3要素を記述するだけでブロックを作成できます。

すでにコミュニティでの活用が始まっており、KreaはB200 GPU1枚で11fpsのリアルタイム動画生成パイプラインを構築しました。またOverworldのWaypoint-1はインタラクティブなワールド生成をモジュラーブロックで実装しています。

ノードベースのビジュアルインターフェース「Mellon」との統合も進んでおり、ブロックのAPI定義からUIを自動生成する仕組みを備えています。ComfyUIに似た操作感ながら、モデルに応じてノードが動的に変化する点や、パイプライン全体を1ノードに集約できる点が特徴です。