Bleeding Llama : 300 000 serveurs Ollama fuient leur mémoire

12 mai 2026

•

Mis à jour le 12 mai 2026

•

8 min de lecture

•

1238 mots

•

12 vues

•

CVE-2026-7482 « Bleeding Llama » permet à un attaquant non authentifié de lire la mémoire entière de 300 000 serveurs Ollama exposés. Patch 0.17.1 urgent.

En bref

Une faille critique CVE-2026-7482 (CVSS 9.1) baptisée « Bleeding Llama » permet à un attaquant non authentifié de lire la mémoire entière d'un serveur Ollama exposé.
Plus de 300 000 instances Ollama sont concernées dans le monde, exposant clés API, prompts système, variables d'environnement et conversations utilisateurs.
La version Ollama 0.17.1 corrige la vulnérabilité ; toutes les versions antérieures doivent être patchées immédiatement.

Ce qui s'est passé

Les chercheurs de Cyera ont publié les détails techniques d'une vulnérabilité critique frappant Ollama, le runtime open source le plus populaire pour exécuter des grands modèles de langage en local. Référencée CVE-2026-7482 et baptisée « Bleeding Llama » par analogie avec Heartbleed, la faille affiche un score CVSS de 9.1 et touche toutes les versions antérieures à 0.17.1. Selon les scans de Shodan et Censys cités par Cyera, plus de 300 000 instances Ollama sont actuellement exposées sur internet sans authentification, principalement aux États-Unis, en Chine, en Allemagne et en France.

Le bug réside dans le chargeur de modèles au format GGUF, le format binaire utilisé par Ollama et llama.cpp pour distribuer les poids quantifiés. Lorsqu'un fichier GGUF déclare la forme d'un tenseur (sa dimensionnalité), Ollama alloue dynamiquement une zone mémoire pour le décoder. En manipulant la valeur déclarée du champ « tensor shape » et en la fixant à un entier très large, un attaquant déclenche une lecture hors limites dans le tas du processus. Le résultat brut de cette lecture est ensuite renvoyé dans la réponse HTTP, exposant des fragments arbitraires de la mémoire du serveur.

Le scénario d'attaque décrit par Cyera ne nécessite que trois appels API non authentifiés vers l'endpoint /api/create. Le premier injecte le fichier GGUF malveillant, le second déclenche la création du modèle et le troisième récupère les données fuitées. Aucune erreur n'est journalisée côté serveur, ce qui rend la détection extrêmement difficile sans télémétrie EDR dédiée. L'attaquant peut répéter l'opération pour cartographier progressivement la totalité du tas et reconstituer les secrets résidents.

Le contenu exfiltrable est large : variables d'environnement (typiquement OPENAI_API_KEY, ANTHROPIC_API_KEY, jetons HuggingFace), prompts système des applications RAG, historiques de conversations d'utilisateurs concurrents, jetons de session, mais aussi les poids ou fragments de poids chargés en mémoire. Pour les organisations qui s'appuient sur Ollama pour servir leurs LLM internes derrière une API REST, c'est un scénario de fuite de données catastrophique, équivalent à un accès direct à toute la base mémoire applicative.

La chronologie est tendue. Cyera a remonté la vulnérabilité de manière coordonnée fin mars 2026 ; Ollama a corrigé le bug dans la branche main mi-avril, puis publié la version 0.17.1 le 8 mai. La divulgation publique est intervenue le 10 mai, avec un délai très court entre disponibilité du patch et exposition technique. Selon BleepingComputer et The Hacker News, aucun exploit n'a encore été observé in the wild, mais les chercheurs estiment qu'un proof-of-concept fonctionnel sera publié dans les 48 à 72 heures suivant la divulgation.

L'ampleur du parc vulnérable s'explique par les pratiques de déploiement d'Ollama. Conçu à l'origine comme un outil de développement local, le runtime a été massivement adopté en production sans que ses paramètres d'authentification soient configurés. Par défaut, Ollama écoute sur 127.0.0.1, mais beaucoup d'administrateurs exposent volontairement le service sur 0.0.0.0:11434 pour le partager entre conteneurs ou utilisateurs internes. Une part significative se retrouve directement accessible depuis internet, sans reverse proxy ni token Bearer.

Cyera souligne que la vulnérabilité illustre un problème structurel des frameworks d'IA. Comme l'indique CSO Online dans son analyse, le manque de cloisonnement entre logique applicative et chargement de modèles non vérifiés transforme chaque endpoint /api/create en surface d'attaque privilégiée. Les chercheurs recommandent de ne jamais exposer Ollama directement sur internet, d'utiliser systématiquement un reverse proxy avec authentification, et de limiter le chargement de modèles aux artefacts signés provenant du registre officiel.

Plusieurs distributions clés-en-main embarquant Ollama, comme OpenWebUI, AnythingLLM ou LobeChat, sont indirectement touchées si elles tournent sur une version Ollama 0.17.0 ou antérieure. Les responsables de ces projets ont commencé à publier des avis recommandant la mise à jour immédiate du runtime sous-jacent. Côté cloud, les plateformes managées comme Modal, Replicate ou RunPod ont confirmé avoir déployé le patch sur leur fleet, mais les déploiements auto-hébergés restent à la charge des équipes internes.

Pourquoi c'est important

Bleeding Llama dépasse le simple bug d'implémentation pour révéler une dette de sécurité accumulée dans l'écosystème de l'IA générative open source. La vague d'adoption d'Ollama, llama.cpp, vLLM et autres runtimes en 2024-2025 s'est faite à une vitesse incompatible avec une revue de code sécurité approfondie. Les développeurs, attirés par la promesse de modèles « locaux et privés », ont trop souvent négligé que ces outils ouvrent par défaut des endpoints HTTP non authentifiés exposant des fonctions critiques comme le chargement arbitraire de fichiers binaires.

Pour les entreprises françaises qui ont déployé des assistants IA internes sur Ollama, l'incident pose la question de la souveraineté pratique. Beaucoup d'organisations ont choisi le runtime précisément pour éviter d'envoyer leurs données à OpenAI ou Anthropic. Mais une instance Ollama exposée et compromise permet à un attaquant externe d'accéder simultanément aux prompts, aux contextes RAG et aux clés d'API utilisées pour appeler d'autres services. Le bénéfice de confidentialité s'effondre si la couche de serving n'est pas durcie. Le CERT-FR devrait publier un bulletin d'alerte dans les heures qui viennent.

Sur le plan réglementaire, l'AI Act européen, entré en vigueur progressivement depuis août 2024, impose désormais aux opérateurs de systèmes d'IA à haut risque des obligations de sécurité et de journalisation. Une fuite de prompts contenant des données personnelles via un Ollama vulnérable constituerait à la fois une violation RGPD (article 32 sur la sécurité du traitement) et un manquement aux exigences d'AI Act sur la robustesse technique. Les amendes cumulées pourraient atteindre 4 % du chiffre d'affaires mondial selon le RGPD, et jusqu'à 7 % au titre de l'AI Act.

L'incident s'inscrit dans une série inquiétante. Depuis janvier 2026, plusieurs vulnérabilités critiques ont frappé l'infrastructure IA : la faille SQLi sur LiteLLM (CVE-2026-42208), les CVE HIGH dans Spring AI, et désormais Bleeding Llama. Cette accumulation suggère que la couche middleware de l'IA, longtemps considérée comme un simple « plumbing » sans valeur cible, devient une priorité pour les chercheurs offensifs comme défensifs. Les RSSI doivent intégrer ces composants dans leur cartographie de risque au même titre que les serveurs d'application web traditionnels.

Ce qu'il faut retenir

Mettre à jour immédiatement Ollama vers 0.17.1 sur tous les hôtes, conteneurs et workstations de l'entreprise.
Ne jamais exposer Ollama sur 0.0.0.0 sans reverse proxy authentifié ; auditer les règles de firewall et les services exposés sur le port 11434.
Faire tourner tous les secrets (clés API, jetons) chargés en mémoire sur des instances Ollama potentiellement exposées au cours des 30 derniers jours.

Comment vérifier si mon serveur Ollama a été compromis par Bleeding Llama ?

L'attaque ne laisse pas de traces directes dans les logs Ollama standard. Pour détecter une exploitation potentielle, surveillez les pics anormaux d'appels à l'endpoint /api/create, les requêtes contenant des fichiers GGUF avec des champs « tensor shape » disproportionnés, et les transferts sortants inhabituels. Activez la journalisation au niveau debug et envoyez les logs vers un SIEM. Si votre instance a été exposée sur internet avant la mise à jour, partez du principe que tous les secrets en mémoire sont compromis et rotez-les sans délai.

Besoin d'un accompagnement expert ?

Ayi NEDJIMI vous accompagne sur vos projets cybersécurité et IA.

Prendre contact

Partager cet article

Twitter LinkedIn

À propos de l'auteur

Ayi NEDJIMI

Auditeur Senior Cybersécurité & Consultant IA

Expert Judiciaire — Cour d'Appel de Paris
Habilitation Confidentiel Défense

ayi@ayinedjimi-consultants.fr

25+

ans d'expérience

700+

articles publiés

100+

missions réalisées

Ayi NEDJIMI est un vétéran de la cybersécurité avec plus de 25 ans d'expérience sur des missions critiques. Ancien développeur Microsoft à Redmond sur le module GINA (Windows NT4) et co-auteur de la version française du guide de sécurité Windows NT4 pour la NSA.

À la tête d'Ayi NEDJIMI Consultants, il réalise des audits Lead Auditor ISO 42001 et ISO 27001, des pentests d'infrastructures critiques, du forensics et des missions de conformité NIS2 / AI Act.

Conférencier international (Europe & US), il a formé plus de 10 000 professionnels.

Domaines d'expertise

ISO 42001 Lead Auditor ISO 27001 · NIS2 Pentest & Forensics IA / LLM / RAG Cloud & Active Directory

Voir le profil complet Demander un devis

Ressources & Outils de l'auteur

GitHub

Code & projets open source

Hugging Face

Modèles IA & datasets

CertifExpress

Préparez vos certifications IT

WindowsBooster

Optimisation Windows 11

Commentaires

Aucun commentaire pour le moment. Soyez le premier à commenter !

Laisser un commentaire