HF JobsでvLLMサーバー1コマンド起動

2026年06月26日 OpenAI Qwen GPU インフラ認証コーディング

1コマンドで起動

hf jobs runで即起動

vllm-openai公式イメージ使用

--flavorでGPU指定

OpenAI互換で利用

HFトークンで認証必須

OpenAIクライアント流用可

秒単位課金で都度停止

用途と拡張

大規模モデルはGPU分散対応

本番用途はEndpoints推奨

出典：Hugging Face

詳細を読む

Hugging Faceは2026年6月26日、HF Jobs上でvLLMサーバーを1コマンドで起動する手順を公式ブログで公開しました。テストや評価、バッチ生成のために、モデルを最速で立ち上げる方法として紹介しています。

手順の中心はhf jobs runコマンドです。これはHFインフラ向けのdocker runにあたり、公式のvllm-openaiイメージを指定し、--flavorでGPUを、--exposeでポート8000を公開します。起動後はジョブIDとアクセス用のURLが表示され、数分でサーバーが稼働します。

公開されたサーバーはOpenAI API互換で、リクエストにはHFトークンをベアラートークンとして付与します。curlのほか、OpenAIクライアントのbase_urlを向けるだけでPythonからも呼び出せます。エンドポイントは公開ではなく、トークンを持つ本人や組織に限定されたゲート方式です。

課金は秒単位で、a10g-largeは1時間あたり1.50ドルです。使い終わったらhf jobs cancelで明示的に停止する方がコストを抑えられます。--timeoutは自動停止の安全網として機能します。

大規模モデルにも同じコマンドが使えます。--flavorで強力なGPUを選び、--tensor-parallel-sizeでモデルをGPU間に分散させることで、122BのQwen3.5などもH200×2で動かせます。SSH接続やGradioによるUI、コーディングエージェントの基盤としての利用も可能です。

記事は使い分けの指針も示しています。最大限の柔軟性と制御がほしい実験や単発の評価にはHF Jobsが適し、アクセス制御やゼロスケールなど本番運用向けの機能が必要ならInference Endpointsを選ぶよう勧めています。