HPE biedt AI op elke schaal voor Nvidia Vera Rubin-aanbod

1 uur geleden 1

Hoewel AI-hardware in trek is, leidt de moeite van integraties met bestaande infrastructuur tot een tekort aan successen in productie. HPE is zich hiervan bewust en pleit voor AI-oplossingen met Nvidia-aandrijving die grotendeels plug-and-play zijn, ongeacht de schaal.

Er is daarbij geen keurslijf, vertellen HPE-vertegenwoordigers voorafgaand aan Nvidia’s jaarlijkse GTC-conferentie. Het herkent drie groepen die AI momenteel benutten of willen benutten. Allereerst AI-modelbouwers; zij hebben de meest imposante vereisten qua schaal en prestatieniveau per chip. Ten tweede zijn er AI-dienstverleners, die met onder meer HPE ProLiant-servers en Aruba-networking een geïntegreerde oplossing willen bieden. Als laatste groep zijn er wat HPE de ‘sovereigns’ noemt, zoals overheden en organisaties in sterk gereguleerde industrieën. Voor elke groep zijn er nieuwe, schaalbare oplossingen.

Blades en neoclouds

HPE introduceert vandaag de HPE Cray Supercomputing GX240 blade. Het is geschikt voor bestaande gebruikers van Cray en klanten met soortgelijke profielen, zoals grote laboratoria en academische instellingen, waarbij de upgrade voor vooruitgang op het gebied van zowel efficiëntie als prestaties zorgt. Een enkele blade kan maximaal 8 nodes gebruiken met elk twee nieuwe Nvidia Vera CPU’s, waardoor er tot wel 1.408 ARM-gebaseerde CPU-cores per blade draaien. Aan systeemgeheugen ook geen tekort met maximaal 24,5 TB aan LPDDR5 RAM-geheugen. Een enkele GX5000-rack kan 40 blades ondersteunen, wat dus 640 CPU’s en daarmee 56.320 ARM-cores per rack oplevert.

Neoclouds (denk aan CoreWeave en Nebius) zijn tevens ‘first AI adopters’ in de verwoording van HPE. Zij kunnen de verenigde architectuur van Vera Rubin het best benutten, omdat hun focus op op- en afschalen ligt. Doordat de geïntegreerde Nvidia Vera Rubin NVL72 by HPE feitelijk als één systeem opereert, zijn zoveel mogelijk bottlenecks weggenomen. On-site support en networking helpen om het met vloeistof gekoelde systeem (tot op de chip-‘die’, het stukje silicium zelf) in toom te houden. HPE omschrijft het co-ontwerp met Nvidia als “extreem” door de diepe integratie die de engineering teams van beide partijen kenden. Een LLM met een biljoen parameters zou op een enkel NVL72-systeem kunnen draaien, met tegelijkertijd tot wel tien keer lagere inference token-kosten en tot vier keer minder GPU’s die nodig zijn om Mixture-of-Experts-modellen te trainen, ten opzichte van de voorgaande systemen op basis van Nvidia Blackwell.

Kleiner kan ook

Naarmate AI meer doordringt binnen bedrijven, zullen meer organisaties de stap wagen naar eigen AI-hardware. Dat is in ieder geval de inzet die de meer traditionele HPE Compute XD700-servers, gebaseerd op het reference-ontwerp van Nvidia, de HGX Rubin NVL8. Tot 128 Rubin-GPU’s passen in een rack via deze servers, een verdubbeling ten opzichte van de vorige generatie.

Hierbij neemt het Nvidia-gehalte wel iets af, want bij deze systemen is Intel de CPU-leverancier. Xeon 6-processoren zijn volgens HPE voldoende schaalbaar om toekomstige modellen te ondersteunen. Configuraties schalen op vanaf twee racks naar duizenden met een OCP-“geïnspireerd” ontwerp, dus vermoedelijk met weinig aanpassingen van de industriële standaard. HPE Services is voor deze systemen beschikbaar voor voorspelbare dagelijkse operaties en ondersteuning.

Meer Nvidia-samenwerking

Om terug te komen op de “extreme” co-engineering die HPE zegt te hebben uitgevoerd met Nvidia: dat uit zich in zowel hardware als software en diensten. Zo ondersteunt HPE nu ook de werkzaamheid van Run.ai out-of-the-box, wat helpt om het gebruik van alle beschikbare GPU’s te maximaliseren. Run.ai, overgenomen door Nvidia, is daarmee duidelijk een prioriteit geworden zodat eindgebruikers hun kostbare hardware ook echt zoveel mogelijk inzetten.

De reden om dergelijke integraties aan te gaan, is niet simpelweg om een duurdere oplossing te bieden. HPE stelt dat een bedrijf vier tot zeven experts nodig heeft om überhaupt een AI-systeem van begin tot eind te ontwerpen, met nog de inkoop van servers en bedrading te gaan. HPE wil met het nieuwe aanbod een ‘cloud-like’ ervaring bieden waarbij de eigen ervaring, middelen en third-party tooling helpen om die experts overbodig te maken.

Een private cloud voor allerlei doeleinden

Verder is interessant dat HPE uit de doeken doet wat klanten precies uitvoeren met hun kant-en-klare oplossing, HPE Private Cloud AI. De grootste groep gebruikers kiest voor het bieden van een AI-platform via Inferencing-as-a-Service (36 procent). Daarna volgt 20 procent aan gebruikers van Retrieval-Augmented Generation (RAG), 16 procent dat OCR prioriteert, 8 procent inzet voor onderzoek en de gezondheidszorg, eveneens 8 procent voor IT Ops en ten slotte computer vision, goed voor 4 procent van de installed base.

Om in te spelen op soevereiniteit zonder een al te grote schaal te vereisen, is HPE Private Cloud AI nu schaalbaarder. Een base rack reikt tot 16 GPU’s met optionele network expansion rack. Air-gapped oplossingen reiken tot 128 GPU’s via verdere expansion racks. Wie bijvoorbeeld een fabriekslijn als digital twin wil nabootsen via Nvidia AI-Q en Omniverse Blueprints, kan dat via deze air-gapped oplossing doen.

Lees ook: HPE biedt VMware-alternatief met enterprise-grade KVM in HPE Private Cloud

Lees het hele artikel