SageMaker HyperPod、LLM学習の通信遅延を解消するトポロジー認識型スケジューリング導入

インフラ運用データ・プライバシー

導入された新機能の概要

物理的配置を考慮するトポロジー認識型スケジューリング
大規模AIワークロードの最適化を目的
Amazon EKSクラスター上でのリソース管理を効率化

LLM学習効率化への貢献

データセンター内のネットワーク遅延を最小化
ネットワークホップ削減による通信速度の向上
GPUクラスターの利用効率とスループットを改善

活用方法と技術要件

Kubernetesマニフェストでの必須/推奨トポロジー設定
SageMaker HyperPod CLIからのジョブ送信に対応
Task Governanceアドオン(v1.2.2以降)が必要
詳細を読む

Amazon Web Services(AWS)は、大規模な生成AI(LLM)モデルのトレーニング効率を飛躍的に向上させるため、Amazon SageMaker HyperPodのタスクガバナンス機能に「トポロジー認識型スケジューリング」を導入しました。この新機能は、GPUインスタンス間のネットワーク通信遅延という、LLM学習における最大のボトルネックの一つを解消します。

生成AIワークロードは通常、Amazon EC2インスタンス間で広範な通信を必要とし、ネットワーク帯域幅と遅延が学習時間全体に大きく影響します。データセンター内のインスタンス配置は階層的な構造を持っており、同じ物理単位内に配置されたインスタンス間の通信は、異なる単位間の通信よりもはるかに高速になるため、配置最適化が重要でした。

このトポロジー認識型スケジューリングは、EC2のネットワークトポロジー情報を活用し、ジョブ提出時に物理的な近接性を考慮してリソースを割り当てます。具体的には、クラスター内のインスタンスの配置をネットワークの階層構造(レイヤー1〜3)に基づいて把握し、通信頻度の高いポッドを最も近いネットワークノードに集中配置します。

企業にとっての最大のメリットは、AIイノベーションの加速と市場投入までの時間(Time to Market)の短縮です。タスクガバナンス機能により、管理者やデータサイエンティストはリソース調整に時間を費やすことなく、効率的に計算リソースを利用できます。これは大規模なGPUクラスターを持つ組織全体の生産性向上に直結します。

エンジニアは、この新機能をKubernetesマニフェストファイルを通じて簡単に利用できます。ジョブ実行時に、全てのポッドを同一ネットワークノードに配置することを「必須(required)」とするか、「推奨(preferred)」とするかを選択可能です。また、SageMaker HyperPod CLIからもトポロジー指定パラメータを用いてジョブを送信することができ、柔軟な運用が実現します。