Job 1000 van 1000


Match votre profil POSTULER



Expert Kubernetes /IA H/F


Poste

Nous recherchons pour notre client un(e) Expert Kubernetes /IA (H/F).

Rôle principal : Garantir la disponibilité, performance et stabilité du cluster IA (GPU/CPU/réseau/stockage), automatiser son exploitation et assurer le support.

Vos missions :

  • Maintien en condition opérationnelle (MCO) du cluster IA, incluant la gestion des nœuds GPU/CPU, du stockage et du réseau.
  • Administration des systèmes Linux : installation, configuration et optimisation.
  • Exploitation et gestion des environnements Kubernetes : déploiement, montée en charge (scaling) et haute disponibilité (HA).
  • Supervision et monitoring des infrastructures à l’aide d’outils tels que Prometheus et Grafana.
  • Gestion des incidents techniques, analyse post-mortem et mise en place de plans d’action correctifs.
  • Automatisation des tâches opérationnelles via Ansible et scripts Bash/Python.
  • Gestion des jobs : ordonnancement des tâches GPU, gestion des quotas et priorités.
  • Pilotage des mises à jour des systèmes d’exploitation, des pilotes NVIDIA et des composants Kubernetes.
  • Gestion des incidents liés à l’infrastructure et coordination des interventions.
  • Rédaction et mise à jour de la documentation d’exploitation pour assurer la traçabilité et la continuité des opérations.

Profil recherché

Vous êtes certifié Kubernetes, justifiez d’une expérience professionnelle minimum de 8 ans dans un poste similaire, et maîtrisez les environnements suivants :

  • Infrastructure : Linux Ubuntu, Kubernetes, Docker, GPU NVIDIA (drivers, CUDA, MIG), Ansible, gestion des environnements distribués.
  • Observabilité : Prometheus, Grafana
  • Stockage : systèmes de fichiers distribués, stockage haute performance et stockage objet
  • Réseau : comprendre l’architecture réseau d’un cluster (VLAN, Load balancing...)
  • Méthodes : ITIL/ITSM, gestion des incidents et des changements, documentation d’exploitation.

Match votre profil POSTULER