CoreWeave 的新系統 SUNK(Kubernetes 上的 Slurm)正為生產級訓練重新定義 AI 研究叢集。SUNK 專為要求嚴苛、涉及數千個 GPU 的作業而設計,透過拓撲感知調度和持續健康管理等進階功能,確保可預測且高效能的 AI 訓練。這項創新旨在為開發尖端 AI 模型提供更強大、更有效率的環境。
透過提供一個能保證大規模 AI 訓練作業可預測效能與穩定性的系統,CoreWeave 降低了複雜 AI 研究的進入門檻。這有助於加速 AI 開發的突破,因為研究人員可以信賴穩健的基礎設施。對拓撲感知調度和健康管理的關注,暗示著資源利用率和作業完成率將有顯著提升,進而影響 AI 研發的整體效率。
SUNK系统提升AI研究集群性能。
具备拓扑感知调度和健康管理功能。
旨在提供可预测且高性能的AI训练。
這項 AI 訓練基礎設施的進展,對全球的 AI 研究人員和開發者都至關重要,支持了國際間對先進 AI 能力的追求。CoreWeave 的雲端服務在全球均可使用。
具备拓扑感知调度和健康管理功能。
旨在提供可预测且高性能的AI训练。
Sign in to save notes on signals.
登录