Wat je gaat doen

Over deze rol

# Technical Product Manager – Soperator (Slurm-on-Kubernetes)

Nebius bouwt een volgende generatie AI-computerplatform voor grootschalige ML-training en inferentie. We zoeken een Technical Product Manager die de productrichting bepaalt voor Soperator — ons Slurm-on-Kubernetes-controllepaneel voor GPU-clusters.

In deze rol bepaal je hoe ML-engineers en onderzoeksteams gedistribueerde werkbelastingen in productie uitvoeren, schalen en optimaliseren.

## Verantwoordelijkheden

Eigendom van de volledige gebruikerservaring in Soperator-clusters: Slurm-workflows, dashboards, waarschuwingen/meldingen, node-levenscyclus en beheer van trainings-/inferentiecapaciteit
Bepaal de productrichting van begin tot eind: probleemontdekking → oplossingsontwikkeling → implementatie → acceptatie
Voer grondige customer discovery uit via interviews, gebruiksanalytics en workload-analyse om impactrijke kansen te ontdekken
Zet uitvoering door op platformteams: compute, networking, storage, observeerbaarheid, IAM en anderen
Zet geavanceerde ML- en infrastructuurideeën om in praktische productmogelijkheden voor echte GPU-clusters
Definieer succesmetrieken, prioriteer roadmap-beslissingen op basis van gegevens, en zorg voor meetbare klant- en bedrijfsimpact
Leid de open-source-strategie en uitvoering voor Soperator: vorm openbare roadmap-thema's, prioriteer OSS-gerichte mogelijkheden, en zorg voor sterke acceptatie in de community

## Vereisten

3–5+ jaar productmanagement, ML-infrastructuur/MLOps, gedistribueerde systemen of cloud-platformengineering
Sterke technische diepgang in gedistribueerde systemen, cloudinsfrastructuur of ML-platforms
Praktische bekendheid met grootschalige ML-training en orkestratie-tools (bv. Slurm, Kubernetes, Ray)
Bewezen trackrecord bij het uitbrengen van technisch complexe producten met meerdere engineeringteams
Sterke communicatie- en stakeholdermanagement-vaardigheden voor engineering, onderzoek en klanten
Ervaring met productanalytics, data-gestuurde prioritering en experimentation
Hoog eigendomsgevoel, hoge leersnelheid en gemak bij werken in snelbewegende AI-infrastructuuromgevingen

## Voordelig

Ervaring met GPU-platforms en HPC-primitieven: InfiniBand/RDMA, topologie-bewuste scheduling, krachtige storage
Praktisch begrip van moderne ML-trainingstacks: PyTorch, DeepSpeed, FSDP/ZeRO, NCCL
Vertrouwdheid met efficiëntie- en betrouwbaarheidsmetrieken: Goodput, MFU, foutmodi, preemptie-behandeling, gezondheidschecks
Blootstelling aan grootschalige LLM-training/inferentiesystemen
Ervaring in observeerbaarheid, prestatieafstemming of SRE/betrouwbaarheidsingenieurschap
Klantgericht technisch ervaring (oplossingen, ondersteuning, architectuurbegeleiding)

Skills & ervaring

SeniorSlurmKubernetesRayPyTorchDeepSpeedFSDPZeRONCCLInfiniBandRDMAGPU platformsHPCProduct ManagementML infrastructureMLOpsDistributed systemsCloud platform engineering

Waar je terechtkomt

Over Nebius Group

Nebius Group, gevestigd in Amsterdam, is een technologiebedrijf dat zich richt op het leveren van full-stack AI cloud-infrastructuur. Het bedrijf biedt GPU-clusters, cloudplatformen en ontwikkelaarstools voor het beheer van de volledige machine learning-levenscyclus, van dataverwerking tot fine-tuning en inferencing.

Meer bij dit bedrijf

Meer vacatures bij Nebius Group

Senior Software Engineer (Token Factory)FulltimeBekijk →Technical Product Manager - SoperatorFulltimeBekijk →AI/ML Specialist Solutions ArchitectFulltimeBekijk →Staff / Principal Applied AI Researcher (Agentic Search)FulltimeBekijk →HPC System EngineerFulltimeBekijk →ML Infrastructure EngineerFulltimeBekijk →

Verder kijken

Vergelijkbare vacatures

Software Engineer, Data Infrastructure & AcquisitionVeldhoven · FulltimeBekijk →AI Business AnalystVeldhoven · FulltimeBekijk →Lead Data EngineerFulltimeBekijk →AI Solutions EngineerNijmegen · FulltimeBekijk →Senior Data Engineer PricingFulltimeBekijk →Staff Officer (Data Scientist) - NATO 2030FulltimeBekijk →