Souhrn
Amazon Web Services (AWS) integruje technologii NVLink Fusion od Nvidia do svého nadcházejícího čipu Trainium4. Tímto partnerstvím chce AWS zlepšit škálovatelnost svých AI systémů a konkurovat v oblasti tréninku velkých modelů umělé inteligence. Oznámení padlo na konferenci re:Invent v Las Vegas.
Klíčové body
- AWS přijme NVLink Fusion v čipu Trainium4 pro rychlejší komunikaci mezi čipy.
- Technologie umožní stavět větší AI servery pro trénink modelů, kde tisíce zařízení musí spolupracovat.
- Partnerství zahrnuje přístup k AI Factories, což jsou specializované clustery pro AI vývoj.
- Nvidia rozšiřuje NVLink na další firmy jako Intel, Qualcomm a nyní AWS.
- Žádný konkrétní termín vydání Trainium4 nebyl uveden.
Podrobnosti
Amazon Web Services, divize cloudu společnosti Amazon, oznámila na své výroční konferenci re:Invent v Las Vegas integraci klíčové technologie Nvidia do svých vlastních čipů pro umělou inteligenci. Konkrétně jde o NVLink Fusion, který se objeví v čipu Trainium4. Trainium je řada čipů navržených AWS pro trénink velkých AI modelů, jako jsou jazykové modely typu GPT nebo podobné, kde je klíčová vysoká výpočetní síla a efektivní komunikace mezi tisíci procesory.
NVLink je proprietární technologie Nvidia pro rychlé propojení GPU a dalších čipů s propustností až stovek gigabajtů za sekundu, což výrazně urychluje přenos dat oproti standardním rozhraním jako PCIe. Verze Fusion umožňuje propojit nejen Nvidia čipy, ale i cizí hardware, jako jsou ty od AWS. To znamená, že Trainium4 čipy budou schopny vytvářet obrovské clustery, kde se desetitisíce čipů synchronizují pro trénink modelů s miliardami parametrů. AWS tím řeší jednu z největších výzev v AI: škálování tréninku, kde zpoždění v komunikaci mezi uzly může prodloužit proces z hodin na dny.
Toto partnerství navazuje na snahu Nvidia prosazovat NVLink u konkurentů. Už dříve ho přijaly Intel a Qualcomm, což vytváří ekosystém kompatibilních zařízení. AWS zároveň uvádí nové servery s těmito schopnostmi a nabízí zákazníkům AI Factories – předkonfigurované prostředí pro vývoj a trénink AI, kde uživatelé mohou spouštět modely na tisících čipů bez nutnosti spravovat hardware. Konferenci re:Invent navštívilo přibližně 60 000 účastníků, což podtrhuje zájem o cloudové AI služby.
AWS vyvíjí vlastní čipy od roku 2018 (Inferentia pro inference, Trainium pro trénink), aby snížilo náklady a závislost na Nvidia H100 GPU, které dominují trhu. Integrace NVLink však ukazuje pragmatismus: místo uzavřeného systému AWS volí interoperabilitu, což usnadní migraci zákazníkům z Nvidia ekosystému.
Proč je to důležité
Toto partnerství posiluje pozici AWS v konkurenčním boji o AI zákazníky jako OpenAI, Anthropic nebo xAI. Velké AI modely vyžadují clustery s desítkami tisíc čipů, kde NVLink může zkrátit trénink o desítky procent díky nižší latenci. Pro průmysl to znamená větší volbu: zákazníci mohou kombinovat AWS Trainium s Nvidia GPU v jednom clusteru, což snižuje náklady oproti čistě Nvidia řešením.
V širším kontextu urychluje to vývoj AGI-level modelů, protože efektivnější trénink umožňuje experimentovat s většími daty a parametry. AWS tak částečně neutralizuje monopol Nvidia, ale zároveň ho posiluje standardizací NVLink. Pro uživatele to znamená levnější AI služby v cloudu, kde například trénink 100miliardového modelu bude rychlejší a dostupnější. Dlouhodobě to může vést k hybridním AI infrastruktuřám, kde vlastní čipy jako Trainium doplňují Nvidia hardware.
Zdroj: 📰 CNA
|