HF JobsでvLLMサーバー1コマンド起動
詳細を読む
Hugging Faceは2026年6月26日、HF Jobs上でvLLMサーバーを1コマンドで起動する手順を公式ブログで公開しました。テストや評価、バッチ生成のために、モデルを最速で立ち上げる方法として紹介しています。
手順の中心はhf jobs runコマンドです。これはHFインフラ向けのdocker runにあたり、公式のvllm-openaiイメージを指定し、--flavorでGPUを、--exposeでポート8000を公開します。起動後はジョブIDとアクセス用のURLが表示され、数分でサーバーが稼働します。
公開されたサーバーはOpenAI API互換で、リクエストにはHFトークンをベアラートークンとして付与します。curlのほか、OpenAIクライアントのbase_urlを向けるだけでPythonからも呼び出せます。エンドポイントは公開ではなく、トークンを持つ本人や組織に限定されたゲート方式です。
課金は秒単位で、a10g-largeは1時間あたり1.50ドルです。使い終わったらhf jobs cancelで明示的に停止する方がコストを抑えられます。--timeoutは自動停止の安全網として機能します。
大規模モデルにも同じコマンドが使えます。--flavorで強力なGPUを選び、--tensor-parallel-sizeでモデルをGPU間に分散させることで、122BのQwen3.5などもH200×2で動かせます。SSH接続やGradioによるUI、コーディングエージェントの基盤としての利用も可能です。
記事は使い分けの指針も示しています。最大限の柔軟性と制御がほしい実験や単発の評価にはHF Jobsが適し、アクセス制御やゼロスケールなど本番運用向けの機能が必要ならInference Endpointsを選ぶよう勧めています。