SGLang CVE-2026-5760 : RCE 9.8 via modèle GGUF piégé

21 avril 2026

•

Mis à jour le 29 juillet 2026

•

5 min de lecture

•

506 mots

•

769 vues

•

SGLang corrige CVE-2026-5760 (CVSS 9.8) : une injection SSTI Jinja2 dans les fichiers GGUF permet une RCE via l endpoint /v1/rerank des serveurs d inférence LLM.

TL;DR — En résumé

SGLang 0.5.9 vulnérable à CVE-2026-5760 (CVSS 9.8) : RCE via SSTI Jinja2 dans chat_template d un modèle GGUF malveillant.

En bref

SGLang 0.5.9 : RCE via SSTI Jinja2 dans les fichiers GGUF (CVE-2026-5760, CVSS 9.8)
Exploitation déclenchée par le chargement d'un modèle et un appel à /v1/rerank
Pas de sandbox Jinja2 : tout GGUF téléchargé depuis un dépôt public devient vecteur RCE

Les faits

Les chercheurs d'Orca Security ont publié le 20 avril 2026 les détails de CVE-2026-5760, une vulnérabilité critique (CVSS 9.8) dans SGLang, framework open-source d'inférence pour grands modèles de langage. La faille permet à un attaquant de déclencher une exécution de code distante via un fichier GGUF (GPT-Generated Unified Format) malveillant dont le paramètre tokenizer.chat_template contient une payload d'injection de template côté serveur (SSTI) écrite en Jinja2.

La cause racine est l'utilisation de jinja2.Environment() sans bac à sable, au lieu de la variante ImmutableSandboxedEnvironment. Lorsque la victime charge le modèle piégé dans SGLang et qu'une requête atteint l'endpoint /v1/rerank avec la phrase déclencheuse "The answer can only be 'yes' or 'no'" (reconnue par la détection du reranker Qwen3), le template est rendu et la payload exécute du code Python arbitraire sur le serveur d'inférence.

Impact et exposition

Tout déploiement SGLang qui charge des modèles GGUF provenant de dépôts publics (Hugging Face, mirrors communautaires) est vulnérable. La surface est d'autant plus large que SGLang est massivement utilisé pour servir Qwen, DeepSeek, Llama et d'autres LLM en production. Les serveurs d'inférence exposent souvent des GPU, des clés API tierces (OpenAI, Anthropic) et des données sensibles transitées en prompt ou en RAG, autant de cibles de valeur pour un attaquant ayant obtenu un shell.

Recommandations

Ne charger que des modèles GGUF signés ou provenant de sources vérifiées en interne
Mettre à niveau SGLang dès la publication du correctif enforcement de la sandbox Jinja2
En attendant, auditer les modèles déjà déployés en recherchant des chat_templates contenant des appels suspects (subprocess, os, open, __class__, __mro__)
Isoler les serveurs d'inférence dans des segments réseau dédiés avec egress filtré
Activer le monitoring des processus enfants de SGLang pour détecter toute exécution Python non attendue

Alerte critique

L'écosystème LLM normalise le téléchargement massif de modèles tiers. CVE-2026-5760 transforme chaque fichier GGUF en potentiel cheval de Troie. Un seul modèle piégé sur Hugging Face peut compromettre des milliers de serveurs SGLang.

Comment auditer un fichier GGUF sans le charger dans SGLang ?

Extrayez les métadonnées avec gguf-py ou llama.cpp gguf-dump et inspectez le champ tokenizer.chat_template. Toute construction Jinja2 contenant {{% set %}} avec appels à __class__, __subclasses__, __globals__, os ou subprocess est un indicateur de compromission. Le template légitime ne devrait contenir que de la mise en forme de messages chat.

Votre infrastructure est-elle exposée ?

Ayi NEDJIMI réalise des audits de sécurité ciblés pour identifier et corriger vos vulnérabilités avant qu'elles ne soient exploitées.

Sources et références

#News

Partager cet article

Twitter LinkedIn

À propos de l'auteur

Ayi NEDJIMI

Auditeur Senior Cybersécurité & Consultant IA

Expert Judiciaire — Cour d'Appel de Paris
Habilitation Confidentiel Défense

[email protected]

25+

ans d'expérience

700+

articles publiés

100+

missions réalisées

Ayi NEDJIMI est un vétéran de la cybersécurité avec plus de 25 ans d'expérience sur des missions critiques. Ancien développeur Microsoft à Redmond sur le module GINA (Windows NT4) et co-auteur de la version française du guide de sécurité Windows NT4 pour la NSA.

À la tête d'Ayi NEDJIMI Consultants, il réalise des audits Lead Auditor ISO 42001 et ISO 27001, des pentests d'infrastructures critiques, du forensics et des missions de conformité NIS2 / AI Act.

Conférencier international (Europe & US), il a formé plus de 10 000 professionnels.

Domaines d'expertise

ISO 42001 Lead Auditor ISO 27001 · NIS2 Pentest & Forensics IA / LLM / RAG Cloud & Active Directory

Voir le profil complet Demander un devis

Ressources & Outils de l'auteur

GitHub

Code & projets open source

ORCID

Identifiant chercheur

Hugging Face

Modèles IA & datasets

CertifExpress

Préparez vos certifications IT

WindowsBooster

Optimisation Windows 11

Articles connexes

TfL hack : Scattered Spider condamné à 5,5 ans de prison

Le 16 juillet 2026, Owen Flowers et Thalha Jubair, membres de Scattered Spider, ont été condamnés à 5,5 ans de prison chacun pour l'attaque de 2024 contre Transport for London : 148 systèmes paralysés, 27 000 employés impactés, £29 millions de dommages.

28/07/2026

SonicWall SMA1000 : zero-days CVSS 10 exploités avant divulgation

Deux zero-days critiques CVE-2026-15409 (CVSS 10) et CVE-2026-15410 dans les VPN SonicWall SMA1000 ont été activement exploités depuis le 22 juin 2026, trois semaines avant la publication d'un correctif le 14 juillet. Du malware persistant a été déployé sur des équipements exposés.

28/07/2026

LegacyHive : zero-day Windows sorti hors embargo

Un chercheur publie LegacyHive, un exploit zero-day d'élévation de privilèges locaux sur Windows 10, 11 et Server, quelques heures après le Patch Tuesday de juillet 2026. Aucun CVE ni correctif Microsoft disponible à ce jour.

28/07/2026

Article précédent

Spinnaker CVE-2026-32604 : RCE non authentifiée CVSS 9.9

Article suivant

ShinyHunters : ultimatum 21 avril — Zara, Carnival, 7-Eleven

Besoin d'un expert ?

Un projet cybersécurité ? Parlons-en.

Pentest, conformité NIS 2, ISO 27001, audit IA, RSSI externalisé… nos experts répondent sous 24h pour évaluer votre besoin et vous proposer un accompagnement sur mesure.

Nous contacter

Commentaires (1)

Marc Lebrun 01/01/0001 à 00:00

Intéressant. On utilise SGLang en staging depuis février pour servir du Qwen3, on tire nos GGUF uniquement depuis notre registry interne mais je viens de vérifier, personne n'audit le chat_template des modèles qui y arrivent. Merci pour le wake-up call.

Laisser un commentaire