Hugging Face HubにS3互換のStorage Buckets機能が登場

ワークフローHugging Face

Bucketsの特徴

非バージョン管理の可変ストレージ
Xet基盤でチャンク重複排除
S3ライクな操作をCLI・Pythonで実行
fsspec互換でpandas等と直接連携

ML向け最適化

チェックポイント間の差分転送で高速化
Pre-warming機能で計算リソース近接配置
Enterprise向け重複排除課金でコスト削減

導入と今後

hf CLIで2分以内にセットアップ完了
将来的にBucketからバージョン管理リポへ直接移行可能に
詳細を読む

Hugging Faceは、Hub上で利用できる新しいオブジェクトストレージ機能「Storage Buckets」を発表しました。MLワークロードにおけるチェックポイントやデータセット、エージェントのトレースなど、頻繁に書き換えが発生する成果物を効率的に管理するための機能です。

BucketsはXetと呼ばれるチャンクベースのストレージバックエンドを基盤としています。ファイルを単一のブロブとして扱うのではなく、内容をチャンクに分割して重複排除を行うため、類似するデータセットや連続するチェックポイント間で共通部分の再転送を省略でき、帯域幅の節約と転送速度の向上を実現します。

計算リソースとデータの物理的距離を縮める「Pre-warming」機能も提供されます。学習クラスタが配置されているクラウドプロバイダーやリージョンにデータを事前配置することで、大規模な分散学習やパイプライン処理においてスループットの大幅な向上が期待できます。現時点ではAWSとGCPに対応しています。

利用方法はhf CLIからのバケット作成・同期に加え、Python SDK(huggingface_hub v1.5.0以降)やJavaScript SDK(@huggingface/hub v2.10.5以降)からのプログラム操作にも対応しています。さらにfsspec互換のファイルシステムインターフェースにより、pandasやPolars、Daskなどのライブラリから直接読み書きが可能です。

今後のロードマップでは、Bucketsとバージョン管理リポジトリ間の直接転送が計画されています。学習中の可変データをBucketsで管理し、安定版をモデルやデータセットリポジトリに昇格させるワークフローが、Hub上で一貫して完結する見込みです。料金は既存のHubストレージプランに含まれます。