Date et heure de dépôt : 29/04/2026 17:25:00
Référence : 223793
DÉBUT DE MISSION
ASAP
BUDGET
530 € HT / jour
DURÉE
12 mois
LIEU
Fontenay aux roses
Hybride
CATÉGORIE TECHNIQUE
Systèmes (Infras, Cloud, DevOps, ...), réseaux, sécurité
Kubernetes
Confirmé
Prometheus
Confirmé
Linux
Confirmé
IA
Confirmé
Nous recherchons pour notre client un(e) Expert Kubernetes /IA (H/F).
Rôle principal : Garantir la disponibilité, performance et stabilité du cluster IA (GPU/CPU/réseau/stockage), automatiser son exploitation et assurer le support.
Vos missions :
Maintien en condition opérationnelle (MCO) du cluster IA, incluant la gestion des nœuds GPU/CPU, du stockage et du réseau.
Administration des systèmes Linux : installation, configuration et optimisation.
Exploitation et gestion des environnements Kubernetes : déploiement, montée en charge (scaling) et haute disponibilité (HA).
Supervision et monitoring des infrastructures à l’aide d’outils tels que Prometheus et Grafana.
Gestion des incidents techniques, analyse post-mortem et mise en place de plans d’action correctifs.
Automatisation des tâches opérationnelles via Ansible et scripts Bash/Python.
Gestion des jobs : ordonnancement des tâches GPU, gestion des quotas et priorités.
Pilotage des mises à jour des systèmes d’exploitation, des pilotes NVIDIA et des composants Kubernetes.
Gestion des incidents liés à l’infrastructure et coordination des interventions.
Rédaction et mise à jour de la documentation d’exploitation pour assurer la traçabilité et la continuité des opérations.
Profil recherché
Vous êtes certifié Kubernetes, justifiez d’une expérience professionnelle minimum de 8 ans dans un poste similaire, et maîtrisez les environnements suivants :
Infrastructure : Linux Ubuntu, Kubernetes, Docker, GPU NVIDIA (drivers, CUDA, MIG), Ansible, gestion des environnements distribués.
Observabilité : Prometheus, Grafana
Stockage : systèmes de fichiers distribués, stockage haute performance et stockage objet
Réseau : comprendre l’architecture réseau d’un cluster (VLAN, Load balancing...)
Méthodes : ITIL/ITSM, gestion des incidents et des changements, documentation d’exploitation.
Grafana
IA
Kubernetes
Linux
Réseaux