# Technical Product Manager – Soperator (Slurm-on-Kubernetes)
Nebius bouwt een volgende generatie AI-computerplatform voor grootschalige ML-training en inferentie. We zoeken een Technical Product Manager die de productrichting bepaalt voor Soperator — ons Slurm-on-Kubernetes-controllepaneel voor GPU-clusters.
In deze rol bepaal je hoe ML-engineers en onderzoeksteams gedistribueerde werkbelastingen in productie uitvoeren, schalen en optimaliseren.
## Verantwoordelijkheden
- Eigendom van de volledige gebruikerservaring in Soperator-clusters: Slurm-workflows, dashboards, waarschuwingen/meldingen, node-levenscyclus en beheer van trainings-/inferentiecapaciteit
- Bepaal de productrichting van begin tot eind: probleemontdekking → oplossingsontwikkeling → implementatie → acceptatie
- Voer grondige customer discovery uit via interviews, gebruiksanalytics en workload-analyse om impactrijke kansen te ontdekken
- Zet uitvoering door op platformteams: compute, networking, storage, observeerbaarheid, IAM en anderen
- Zet geavanceerde ML- en infrastructuurideeën om in praktische productmogelijkheden voor echte GPU-clusters
- Definieer succesmetrieken, prioriteer roadmap-beslissingen op basis van gegevens, en zorg voor meetbare klant- en bedrijfsimpact
- Leid de open-source-strategie en uitvoering voor Soperator: vorm openbare roadmap-thema's, prioriteer OSS-gerichte mogelijkheden, en zorg voor sterke acceptatie in de community
## Vereisten
- 3–5+ jaar productmanagement, ML-infrastructuur/MLOps, gedistribueerde systemen of cloud-platformengineering
- Sterke technische diepgang in gedistribueerde systemen, cloudinsfrastructuur of ML-platforms
- Praktische bekendheid met grootschalige ML-training en orkestratie-tools (bv. Slurm, Kubernetes, Ray)
- Bewezen trackrecord bij het uitbrengen van technisch complexe producten met meerdere engineeringteams
- Sterke communicatie- en stakeholdermanagement-vaardigheden voor engineering, onderzoek en klanten
- Ervaring met productanalytics, data-gestuurde prioritering en experimentation
- Hoog eigendomsgevoel, hoge leersnelheid en gemak bij werken in snelbewegende AI-infrastructuuromgevingen
## Voordelig
- Ervaring met GPU-platforms en HPC-primitieven: InfiniBand/RDMA, topologie-bewuste scheduling, krachtige storage
- Praktisch begrip van moderne ML-trainingstacks: PyTorch, DeepSpeed, FSDP/ZeRO, NCCL
- Vertrouwdheid met efficiëntie- en betrouwbaarheidsmetrieken: Goodput, MFU, foutmodi, preemptie-behandeling, gezondheidschecks
- Blootstelling aan grootschalige LLM-training/inferentiesystemen
- Ervaring in observeerbaarheid, prestatieafstemming of SRE/betrouwbaarheidsingenieurschap
- Klantgericht technisch ervaring (oplossingen, ondersteuning, architectuurbegeleiding)