AMD najmou veterána z AWS pro rozvoj platformy Helios AI v konkurenci s Nvidia

Souhrn

AMD získalo Arvind Balakumara, dříve vedoucího infrastruktury v AWS, který se v listopadu 2024 stal viceprezidentem pro AI infrastrukturu v AMD. Bude řídit vývoj platformy Helios, rackové řešení pro grafické procesory Instinct, jež má v roce 2026 vstoupit na trh a konkurovat systému Vera Rubin od Nvidia. Tento krok má pomoci AMD posílit nabídku pro velké AI nasazení v datových centrech.

Klíčové body

Arvind Balakumar se připojil k AMD v listopadu 2024 jako viceprezident AI Infrastructure Engineering a odpovídá za clusterové AI řešení pro program Helios.
Helios je první racková platforma AMD pro Instinct GPU, plánovaný debut v roce 2026, zaměřená na příští generaci AI datových center.
Platforma má konkurovat Nvidia Vera Rubin a řešit neomezenou poptávku po AI infrastruktuře prostřednictvím inovací v silikonové architektuře, vysokorychlostních propojeních, napájení a modernizaci sítí.
AMD disponuje širokým portfoliem včetně procesorů Epyc a GPU Instinct, což umožňuje komplexní AI stack.
AWS oficiálně potvrdilo Balakumarovo odchodu.

Podrobnosti

AMD dlouhodobě investuje do výzvy pro dominanci Nvidia v oblasti AI infrastruktury, kde Nvidia ovládá přibližně 80-90 procent trhu s GPU pro trénink velkých jazykových modelů (LLM) díky ekosystému CUDA. Helios představuje AMD první plně integrovanou rackovou platformu pro své Instinct GPU, jako jsou modely MI300X nebo nadcházející MI325X, které se v testech blíží Nvidia H100/H200 v poměru cena/výkon, ale za nižší cenu. Balakumar, jenž v AWS řídil masivní datová centra podporující cloudové AI služby jako SageMaker, nyní vede engineering týmu zaměřeného na škálovatelné clustery. Na LinkedIn uvedl, že poptávka po AI infrastruktuře je prakticky neomezená a vyžaduje průlomy napříč celým výpočetním stackem: od architektury čipů, přes vysokorychlostní propojení jako Infinity Fabric, až po efektivní napájení a přizpůsobení elektrických sítí pro vysoký výkon.

Helios má být optimalizován pro nasazení v hyperskálových datových centrech, kde se spouští trénink modelů jako Llama nebo GPT varianty. AMD již spolupracuje s partnery jako Microsoft Azure nebo Oracle Cloud, kteří testují Instinct GPU v produkci. Na rozdíl od Nvidia, jejíž Vera Rubin (očekávaný v 2026 s novou architekturou Blackwell successor) spoléhá na proprietární NVLink, AMD vsází na otevřené standardy jako ROCm software stack pro programování GPU. ROCm umožňuje vývojářům přenést AI workloady z CUDA s minimálními úpravami, což je klíčové pro snížení lock-in efektu.

Balakumarovo zkušenosti z AWS, kde řešil škálování na desítky tisíc serverů, přinese know-how v optimalizaci latency, chlazení a energetické účinnosti. Například AWS datová centra spotřebovávají gigawatty energie pro AI trénink, a Helios má cílit na lepší TDP (thermal design power) než konkurence. AMD plánuje Helios integrovat s procesory Epyc pro hybridní CPU-GPU clustery, což umožní efektivnější inferenci a trénink modelů.

Proč je to důležité

Tento krok posiluje konkurenci v AI hardware, kde Nvidia drží monopol, což vede k vysokým cenám a omezené dostupnosti GPU. AMD Helios může pro cloud providery jako AWS, Google Cloud nebo čínské firmy snížit náklady na 20-30 procent díky nižší ceně Instinct GPU a otevřenému ekosystému. Pro průmysl znamená větší volbu v rackových řešeních, což urychlí nasazení AI v edge computingu i enterprise. Dlouhodobě to tlačí Nvidia k inovacím, ale AMD stále zaostává v software optimalizaci – ROCm není tak mature jako CUDA. V kontextu globálního AI boomu, kde datová centra spotřebují až 3 procent světové elektřiny, takové platformy ovlivní udržitelnost a dostupnost AI technologií pro firmy i výzkum.

(Celkem cca 550 slov)

Číst původní článek

Zdroj: 📰 Digitimes