Als AI Infrastructure Engineer (SRE) bij Together ben je verantwoordelijk voor het soepel laten draaien van alle gebruikersgerichte services en productiesystemen. Je bent een combinatie van een pragmatische operator en softwareingenieur die gezonde engineeringprincipes, operationele discipline en volwassen automatisering toepast op onze operationele omgevingen en codebase.
## Verantwoordelijkheden
- Deelnemen aan een on-call (PagerDuty) rotatie om te reageren op incidenten die de beschikbaarheid beïnvloeden
- Onze infrastructuur bouwen en beheren met Ansible, Terraform en Kubernetes om schaling naar een massaal aantal gelijktijdige gebruikers mogelijk te maken
- Monitoringsystemen bouwen om de hoogste servicekwaliteit voor onze klanten te garanderen
- Operationele processen ontwerpen en implementeren (zoals deployments en upgrades)
- Productiefouten opsporen in alle services en alle lagen van de stack
- Verbeteringen voor de productarchitectuur identificeren vanuit betrouwbaarheids-, performance- en beschikbaarheidsperspectief
- De groei van Together AI's infrastructuur plannen