Poste
Nous recherchons pour notre client un(e) Expert Kubernetes /IA (H/F).
Rôle principal : Garantir la disponibilité, performance et stabilité du cluster IA (GPU/CPU/réseau/stockage), automatiser son exploitation et assurer le support.
Vos missions :
- Maintien en condition opérationnelle (MCO) du cluster IA, incluant la gestion des nœuds GPU/CPU, du stockage et du réseau.
- Administration des systèmes Linux : installation, configuration et optimisation.
- Exploitation et gestion des environnements Kubernetes : déploiement, montée en charge (scaling) et haute disponibilité (HA).
- Supervision et monitoring des infrastructures à l’aide d’outils tels que Prometheus et Grafana.
- Gestion des incidents techniques, analyse post-mortem et mise en place de plans d’action correctifs.
- Automatisation des tâches opérationnelles via Ansible et scripts Bash/Python.
- Gestion des jobs : ordonnancement des tâches GPU, gestion des quotas et priorités.
- Pilotage des mises à jour des systèmes d’exploitation, des pilotes NVIDIA et des composants Kubernetes.
- Gestion des incidents liés à l’infrastructure et coordination des interventions.
- Rédaction et mise à jour de la documentation d’exploitation pour assurer la traçabilité et la continuité des opérations.
Profil recherché
Vous êtes certifié Kubernetes, justifiez d’une expérience professionnelle minimum de 8 ans dans un poste similaire, et maîtrisez les environnements suivants :
- Infrastructure : Linux Ubuntu, Kubernetes, Docker, GPU NVIDIA (drivers, CUDA, MIG), Ansible, gestion des environnements distribués.
- Observabilité : Prometheus, Grafana
- Stockage : systèmes de fichiers distribués, stockage haute performance et stockage objet
- Réseau : comprendre l’architecture réseau d’un cluster (VLAN, Load balancing...)
- Méthodes : ITIL/ITSM, gestion des incidents et des changements, documentation d’exploitation.
Match votre profil
POSTULER