Hugging Face HubにS3互換のStorage Buckets機能が登場
Bucketsの特徴
ML向け最適化
導入と今後
詳細を読む
Hugging Faceは、Hub上で利用できる新しいオブジェクトストレージ機能「Storage Buckets」を発表しました。MLワークロードにおけるチェックポイントやデータセット、エージェントのトレースなど、頻繁に書き換えが発生する成果物を効率的に管理するための機能です。
BucketsはXetと呼ばれるチャンクベースのストレージバックエンドを基盤としています。ファイルを単一のブロブとして扱うのではなく、内容をチャンクに分割して重複排除を行うため、類似するデータセットや連続するチェックポイント間で共通部分の再転送を省略でき、帯域幅の節約と転送速度の向上を実現します。
計算リソースとデータの物理的距離を縮める「Pre-warming」機能も提供されます。学習クラスタが配置されているクラウドプロバイダーやリージョンにデータを事前配置することで、大規模な分散学習やパイプライン処理においてスループットの大幅な向上が期待できます。現時点ではAWSとGCPに対応しています。
利用方法はhf CLIからのバケット作成・同期に加え、Python SDK(huggingface_hub v1.5.0以降)やJavaScript SDK(@huggingface/hub v2.10.5以降)からのプログラム操作にも対応しています。さらにfsspec互換のファイルシステムインターフェースにより、pandasやPolars、Daskなどのライブラリから直接読み書きが可能です。
今後のロードマップでは、Bucketsとバージョン管理リポジトリ間の直接転送が計画されています。学習中の可変データをBucketsで管理し、安定版をモデルやデータセットリポジトリに昇格させるワークフローが、Hub上で一貫して完結する見込みです。料金は既存のHubストレージプランに含まれます。