Hugging Face est la plateforme communautaire et commerciale de référence mondiale pour l'intelligence artificielle open-source. Fondée à New York en 2016 par les Français Clément Delangue, Julien Chaumond et Thomas Wolf, l'entreprise héberge en mai 2026 plus de 1,8 million de modèles, 450 000 datasets et 720 000 Spaces applicatifs, ce qui en fait le plus grand registry d'artefacts d'apprentissage automatique au monde — souvent qualifié de "GitHub de l'IA". Hugging Face développe également une suite de bibliothèques Python qui sont devenues le standard de facto de l'écosystème : Transformers (200 000+ étoiles GitHub), Datasets, Tokenizers, Diffusers, Accelerate, PEFT, TRL, Optimum et Safetensors. Côté plateforme managée, Hugging Face propose Inference Endpoints (déploiement managé sur AWS, Azure, GCP), Inference API serverless, Spaces (Gradio/Streamlit/Docker), AutoTrain (no-code fine-tuning) et ZeroGPU (GPU partagé H200 gratuit pour les Spaces Pro). Avec une valorisation post-money de 4,5 Md$ (série E menée par Salesforce, Google, Nvidia, Amazon en août 2023, étendue en 2025), une équipe de plus de 500 collaborateurs et un ARR estimé à 180 M$ en 2026, Hugging Face est devenue la principale alternative neutre à OpenAI/Anthropic/Google côté distribution de modèles ouverts. Cette page entity-first détaille l'histoire de la société, l'architecture du Hub, les bibliothèques phares, le tooling de fine-tuning et déploiement, le pricing (Free/Pro/Enterprise/Spaces), la sécurité (token scopes, Safetensors, audit logs, SAML SSO), la conformité (SOC 2 Type II, GDPR), les modèles de cybersécurité hébergés, les LLM français (Mistral, CroissantLLM, Vigogne), les risques de supply chain liés aux modèles malveillants en pickle et le comparatif vs GitHub et Kaggle.

L'essentiel à retenir

  • Hugging Face Inc. : société Delaware fondée en 2016 à New York par Clément Delangue, Julien Chaumond et Thomas Wolf, valorisation 4,5 Md$ en 2026, 500+ employés répartis entre New York, Paris et remote.
  • Hub : 1,8 M+ modèles, 450 000+ datasets, 720 000+ Spaces en mai 2026 — premier registry mondial d'artefacts ML, sous Git LFS et désormais Xet (Content-Defined Chunking).
  • Bibliothèques phares : Transformers (PyTorch/TensorFlow/JAX), Datasets, Tokenizers (Rust), Diffusers (génération image/vidéo), PEFT (LoRA/QLoRA), Accelerate, TRL (RLHF/DPO), Safetensors.
  • Plateforme managée : Inference Endpoints (AWS/Azure/GCP), Inference API serverless, Spaces (Gradio/Streamlit/Docker), AutoTrain, ZeroGPU H200 partagé.
  • Pricing : Free (illimité repos publics), Pro 9 $/mois, Team 20 $/utilisateur/mois, Enterprise Hub à partir de 20 $/utilisateur/mois (SAML, audit, support 24/7).
  • Sécurité : token scopes fine-grained, Safetensors (zéro pickle, zéro RCE), Malware Scanning (ProtectAI/JFrog/ClamAV), audit logs, SAML SSO, SCIM, gated models.
  • Conformité : SOC 2 Type II, GDPR/RGPD, support DPA, résidence données régionale via Inference Endpoints.
  • Risques supply chain : modèles malveillants en pickle (CVE-2024-...), typosquatting de repos, dépendance transitive — réponse Hugging Face : Safetensors par défaut, scanning automatique, signatures cryptographiques en preview.

Définition : qu'est-ce que Hugging Face ?

Hugging Face Inc. est une société américaine de logiciel et d'infrastructure d'intelligence artificielle dont la mission affichée est "to democratize good machine learning, one commit at a time". Constituée en Delaware avec siège social à New York (20 Jay Street, Brooklyn) et une headquarters opérationnelle de fait à Paris, l'entreprise édite à la fois une plateforme web (le Hub sur huggingface.co), un ensemble de bibliothèques Python open-source et un catalogue de services managés payants.

Concrètement, Hugging Face fournit :

  • Le Hub huggingface.co : hébergement Git+LFS de repos contenant modèles (poids), datasets et Spaces (apps).
  • Une suite de bibliothèques Python open-source (Apache 2.0) : Transformers, Datasets, Tokenizers, Diffusers, Accelerate, PEFT, TRL, Optimum, Safetensors, Evaluate, smolagents.
  • Des produits SaaS payants : Inference Endpoints, Inference API, AutoTrain, Spaces (CPU upgrades, GPU dédiés, ZeroGPU, persistent storage).
  • Un Enterprise Hub (SAML, audit logs, contrôles privés, gestion centralisée).
  • Des programmes community : Hugging Face Course, blog technique, leaderboards (Open LLM Leaderboard, MTEB, Big Code Models, LMArena), conférences (HF DevCon).

L'entreprise emploie environ 520 personnes en mai 2026 (vs 250 fin 2023), majoritairement chercheurs, ingénieurs ML, développeurs full-stack et community managers. Elle revendique un ARR autour de 180 M$ en 2026, répartis principalement entre Enterprise Hub, Inference Endpoints et Spaces payants. Hugging Face détient également la marque BLOOM (LLM 176 milliards de paramètres entraîné via le projet BigScience en 2022) et porte plusieurs initiatives de gouvernance — notamment le Model Card Toolkit et le Big Science RAIL License.

Histoire : du chatbot à émojis au standard de l'IA open-source

Hugging Face est fondée à New York en 2016 par trois Français issus de l'École polytechnique et de Stanford : Clément Delangue (CEO, ex-VP d'Unbabel), Julien Chaumond (CTO, ex-Polyconseil) et Thomas Wolf (CSO, docteur en physique statistique, ex-ENS). L'idée initiale n'a rien à voir avec le ML d'aujourd'hui : il s'agit d'un chatbot pour adolescents, sous forme d'application iOS avec un avatar émoji hugging face (🤗), conçu pour discuter et apprendre des préférences de l'utilisateur. Le pivot a lieu en 2018 lorsque l'équipe publie sur GitHub une réimplémentation PyTorch propre du modèle BERT de Google sous le nom pytorch-pretrained-bert.

Jalons :

  • 2016 (mai) : fondation à New York, seed de 1,2 M$.
  • 2017 : sortie de l'app iOS Hugging Face (chatbot émoji).
  • 2018 (octobre) : publication de pytorch-pretrained-bert sur GitHub — étincelle du pivot.
  • 2019 (juin) : la lib est renommée Transformers, support GPT-2/RoBERTa/XLNet ajouté.
  • 2020 (mai) : série A de 15 M$ menée par Lux Capital ; lancement du Model Hub.
  • 2021 (mars) : série B de 40 M$ menée par Addition ; lancement de Datasets et Spaces (Gradio).
  • 2022 (mai) : série C de 100 M$ à 2 Md$ ; projet BigScience et publication du LLM BLOOM (176B paramètres).
  • 2022 (octobre) : sortie de Diffusers au moment de l'explosion Stable Diffusion.
  • 2023 (août) : série D de 235 M$ à 4,5 Md$ menée par Salesforce, avec Google, Amazon, Nvidia, Intel, AMD, IBM, Qualcomm.
  • 2023 (novembre) : annonce HUGS (Hugging face Generative AI Services) et partnership AWS pour Inference Endpoints.
  • 2024 (avril) : lancement de ZeroGPU (GPU H100 partagé gratuit pour Spaces Pro).
  • 2024 (juin) : Meta publie Llama 3 sur le Hub — record de téléchargements (>10 M en deux semaines).
  • 2024 (octobre) : acquisition de XetHub pour optimiser le stockage Git LFS via Content-Defined Chunking.
  • 2025 (mars) : sortie de smolagents, framework agentique léger.
  • 2025 (juin) : DeepSeek-R1 fait exploser les téléchargements ; Hugging Face devient l'hôte de référence des modèles chinois ouverts.
  • 2025 (octobre) : extension de la série E à 5,5 Md$ (post-money) avec Sequoia et SoftBank Vision Fund.
  • 2026 (février) : migration progressive du backend de stockage vers Xet (déduplication chunk-level), réduction de 35% des coûts bande passante.
  • 2026 (avril) : annonce Inference Endpoints v2 avec auto-scaling à zéro et facturation par token.

Clément Delangue reste CEO en 2026, basé à Miami puis Paris. La société a conservé une culture remote-first très internationale (35+ nationalités) et publie son handbook public sur le Hub.

Le Hub : 1,8 million de modèles et 450 000 datasets

Le Hub Hugging Face (huggingface.co) est le cœur du produit. Architecturé comme GitHub pour le ML, il offre des dépôts versionnés via Git, avec extension Git LFS (Large File Storage) pour les fichiers binaires lourds (poids de modèles en GB), désormais migré vers Xet qui applique le Content-Defined Chunking pour dédupliquer les blocs identiques entre versions.

Trois types de repos coexistent :

  1. Models (1,8 M+) : poids de réseaux de neurones (transformers, diffusion, audio, vision, RL), accompagnés d'une model card Markdown standardisée (entraînement, données, biais, licence, performance).
  2. Datasets (450 000+) : corpus textuels, multimodaux, audio, structurés. Format Parquet/Arrow privilégié avec API streaming pour ne pas tout charger en RAM.
  3. Spaces (720 000+) : applications interactives Gradio, Streamlit ou Docker arbitraire, hébergées sur infrastructure Hugging Face.

Chaque repo dispose d'un API endpoint JSON (huggingface.co/api/models/<org>/<name>) interrogeable sans authentification pour les repos publics. Les tags structurent la découverte : tâche (text-generation, image-classification), bibliothèque (transformers, diffusers), langue (fr, multilingual), licence (apache-2.0, llama3, mit), modèle de base (base_model:meta-llama/Llama-3-8B). Les collections permettent à la communauté de regrouper plusieurs repos thématiquement, et les discussions (système d'issues + PR sur le repo) ouvrent un canal d'amélioration collaboratif.

Une mention particulière pour les Trending et Most-Downloaded leaderboards, qui font office de baromètre temps réel de l'écosystème. Sur les sept premiers jours de mai 2026, les modèles les plus téléchargés sont meta-llama/Llama-4-70B-Instruct, mistralai/Mixtral-8x22B-Instruct-v0.3, deepseek-ai/DeepSeek-V3.5, Qwen/Qwen3-72B et BAAI/bge-m3 (embeddings).

Transformers : la bibliothèque qui a unifié PyTorch, TensorFlow et JAX

Transformers est la bibliothèque Python phare de Hugging Face, sous licence Apache 2.0, avec plus de 200 000 étoiles sur GitHub en mai 2026 (top 5 mondial tous langages confondus). Elle fournit une API unifiée pour charger, fine-tuner et inférer plus de 500 architectures de transformers (et au-delà), avec trois back-ends interchangeables : PyTorch (par défaut), TensorFlow 2/Keras et JAX/Flax.

Les classes phares sont :

  • AutoModel, AutoTokenizer, AutoConfig : factory qui détecte automatiquement la classe spécifique (BERT, GPT-2, Llama, Mistral, etc.) à partir du repo id.
  • pipeline() : abstraction haut niveau (text-generation, summarization, question-answering, image-to-text, automatic-speech-recognition...) qui assemble tokenizer + modèle + post-processing.
  • Trainer + TrainingArguments : boucle d'entraînement complète avec mixed precision, gradient accumulation, distributed, logging WandB/TensorBoard, sauvegarde Hub.
  • TextStreamer et TextIteratorStreamer pour le streaming token-par-token côté serveur.

Depuis la version 4.40 (avril 2024), Transformers supporte la quantization 4-bit via bitsandbytes, l'AWQ, le GPTQ et l'EXL2 nativement. Voir notre dossier AWQ Quantization : optimiser un LLM en INT4 pour le détail des trade-offs. La version 4.50 (octobre 2025) a apporté le support natif des modèles à mélange d'experts (MoE) avec expert parallelism via Accelerate, et la version 4.55 (mars 2026) introduit la compatibilité FlashAttention 3 pour Hopper et Blackwell.

Pour l'inférence locale, des concurrents comme llama.cpp, vLLM, TGI (Text Generation Inference, par Hugging Face) et Ollama dominent en production. Voir le comparatif LM Studio vs Ollama : comparatif 2026.

Datasets : 450 000 corpus et streaming Apache Arrow

La bibliothèque Datasets (pip install datasets) standardise le chargement, la transformation et le streaming des corpus pour le ML. Elle s'appuie en interne sur Apache Arrow (format columnar zéro-copie) et Parquet, ce qui permet de manipuler des datasets de plusieurs téraoctets sans saturer la RAM grâce au memory-mapping.

Cas d'usage clé :

  • Chargement Hub : load_dataset("squad") pour SQuAD, load_dataset("HuggingFaceFW/fineweb-2", "fra_Latn") pour FineWeb-2 français (1,2 To, 850 Md tokens).
  • Streaming : load_dataset(..., streaming=True) pour un IterableDataset compatible PyTorch DataLoader.
  • Map/Filter parallèles : dataset.map(fn, num_proc=8, batched=True) avec mise en cache Arrow automatique.
  • Push to Hub : dataset.push_to_hub("user/repo") pour publier instantanément.

Les datasets phares hébergés en 2026 incluent FineWeb et FineWeb-2 (filtrage de Common Crawl par Hugging Face, 30 To+ de tokens multilingues), The Stack v3 (code source), OpenHermes, UltraChat, OpenOrca et le French Common Crawl (corpus de 800 Md tokens FR pour Mistral et CroissantLLM).

Tokenizers : Rust, BPE et 1 GB/s par cœur

La bibliothèque Tokenizers est écrite en Rust avec des bindings Python (PyO3) et Node.js. Elle implémente Byte-Pair Encoding (BPE), WordPiece, Unigram et des post-processeurs SentencePiece. Annoncée à 1 GB/s par cœur, elle gère Llama, GPT-2, BERT, RoBERTa, T5 et tous les modèles modernes via le format JSON unifié tokenizer.json. Elle est utilisée nativement par Transformers et embarquée dans les binaires d'inférence (TGI, candle, mistral.rs).

Diffusers : génération image, vidéo et audio

Diffusers (pip install diffusers) est la bibliothèque de référence pour les modèles de diffusion latente et de flow matching. Elle supporte en mai 2026 plus de 180 pipelines : Stable Diffusion 1.5/2.1/XL/3, FLUX.1 dev/schnell/pro, SD3.5 Large, HunyuanVideo, Mochi-1, Wan2.1, CogVideoX, Stable Audio Open, AudioLDM 2. Les composants modulaires (UNet, VAE, scheduler, ControlNet, IP-Adapter, LoRA loader) permettent de composer des pipelines personnalisés. Diffusers s'intègre avec PEFT pour fine-tuner via LoRA ou DreamBooth.

Accelerate, PEFT et TRL : le triptyque fine-tuning

Trois bibliothèques complémentaires forment la stack fine-tuning de Hugging Face :

  • Accelerate : abstraction device-agnostic pour déplacer un script PyTorch single-GPU vers du multi-GPU, multi-node, TPU ou Apple Silicon en quelques lignes (accelerate launch). Gère DDP, FSDP, DeepSpeed Zero-1/2/3 et tensor parallelism.
  • PEFT (Parameter-Efficient Fine-Tuning) : implémente LoRA, QLoRA, DoRA, AdaLoRA, prefix tuning, p-tuning, IA3. Réduit la mémoire VRAM de 70-90% pour fine-tuner un Llama 3.3 70B sur un seul A100 80GB.
  • TRL (Transformer Reinforcement Learning) : RLHF (PPO), DPO, IPO, KTO, ORPO, SFTTrainer, RewardTrainer. Utilisé en production par Mistral AI, Meta et la majorité des éditeurs LLM open-source.

Pour intégrer les modèles fine-tunés à un produit, voir notre tutoriel Intégrer une API LLM dans une fonction IA.

AutoTrain : fine-tuning no-code

AutoTrain (anciennement AutoNLP) est l'offre no-code de Hugging Face. L'utilisateur uploade un dataset CSV/JSON ou un repo Datasets, choisit la tâche (classification, NER, summarization, génération, image-classif, segmentation), une famille de modèles de base et des hyperparamètres optionnels. AutoTrain orchestre alors un job sur GPU (A10, A100, H100 ou H200) facturé à la seconde, et publie automatiquement le modèle entraîné sur le Hub avec sa model card. Coûts indicatifs en mai 2026 : 1,80 $/h sur A10G, 4,50 $/h sur A100 80GB, 10 $/h sur H100 et 16 $/h sur H200. AutoTrain s'utilise via UI Web, CLI autotrain ou Docker pour exécution locale.

Spaces : Gradio, Streamlit et Docker pour héberger des apps IA

Spaces est la plateforme d'hébergement applicatif de Hugging Face. Chaque Space est un repo Git contenant le code d'une application qui démarre automatiquement sur l'infrastructure Hugging Face. Trois SDK supportés :

  • Gradio (par défaut) : framework Python développé par Hugging Face (acquis en 2021). API simple gr.Interface ou gr.Blocks, idéal pour les démos modèles.
  • Streamlit : pour les dashboards data plus complexes.
  • Docker : Dockerfile arbitraire (FastAPI, Next.js, ComfyUI, n8n, etc.) — la flexibilité maximale.

Les Spaces gratuits tournent sur 2 vCPU / 16 GB RAM. Les upgrades payants vont du CPU upgrade (T4 1 vCPU à 0,03 $/h) jusqu'au H100 (1 GPU à 4,30 $/h) et H200 (10,60 $/h). Le mode persistent storage ajoute 5-100 GB pour 5-50 $/mois.

ZeroGPU : H200 partagé gratuit pour les abonnés Pro

ZeroGPU, lancé en avril 2024 et étendu en 2026 vers Hopper H200, est une innovation phare : un pool de centaines de GPU H200 partagés dynamiquement entre Spaces, accessible gratuitement aux abonnés Pro (9 $/mois) et aux Spaces communautaires. Le décorateur Python @spaces.GPU(duration=60) alloue un GPU à la demande pendant l'exécution d'une fonction puis le libère. Quotas typiques : 600 secondes/jour pour Free, 1 500 s/jour pour Pro, 3 000 s/jour pour Enterprise. ZeroGPU a permis l'explosion des démos publiques de FLUX, HunyuanVideo et Llama 4 sans investissement infrastructure.

Inference API serverless et Inference Endpoints managés

Hugging Face propose deux paliers d'inférence managée :

  1. Inference API serverless (api-inference.huggingface.co) : appel HTTP à des modèles pré-déployés et partagés. Cold-start possible (10-30 s), quotas mensuels par plan (1k req/jour Free, illimité Pro avec rate limiting). Idéal pour prototypage et trafic faible.
  2. Inference Endpoints (endpoints.huggingface.co) : déploiement dédié managed sur AWS (us-east-1, eu-west-1, ...), Azure et GCP. Choix d'instance (CPU x1/x4/x8, GPU T4, A10, L4, A100, H100, H200, AWS Inferentia2), auto-scaling 0-N replicas, scaling-to-zero, custom Docker image, MFA et IAM roles. Facturé à la seconde, prix indicatif H100 80GB ~5 $/h, H200 ~13 $/h, B200 ~17 $/h.

Le moteur sous-jacent est majoritairement TGI (Text Generation Inference, Rust + CUDA) pour les LLM textuels, avec support continuous batching, tensor parallelism, FP8 quantization et speculative decoding. Pour l'inférence diffusion, c'est diffusers-server, et pour les embeddings TEI (Text Embeddings Inference). La version 2 d'Inference Endpoints (avril 2026) a introduit la facturation au token (à la GPU-seconde par défaut) et l'auto-scaling à zéro avec cold-start < 5 secondes grâce au warm pool partagé.

Pricing : Free, Pro, Team, Enterprise et Spaces

Les plans en mai 2026 :

PlanPrixCibleInclusions
Free0 $Individus, étudiantsRepos publics illimités, repos privés illimités, Spaces CPU gratuit, Inference API basique, ZeroGPU 600 s/jour.
Pro9 $/moisPower usersZeroGPU 1 500 s/jour, accès AutoTrain, Spaces Dev Mode, Inference API étendue, badge Pro, support email.
Team20 $/utilisateur/moisÉquipes 5-50Organisations privées, gestion utilisateurs, factures consolidées, Spaces partagés.
Enterprise Hub20 $/utilisateur/mois minimum 20 siègesGrands comptesSSO SAML/OIDC, SCIM, audit logs, contrôles centralisés, datasets/modèles privés, BYOK, support 24/7, DPA, résidence régionale.
Spaces upgrades0,03-16 $/hHébergement appsCPU upgrade, GPU T4/A10/L4/A100/H100/H200, persistent storage 5-100 GB.
Inference Endpoints0,06-17 $/hProductionDéploiement dédié AWS/Azure/GCP, auto-scaling, scale-to-zero, image custom.

L'Enterprise Hub représente l'essentiel de la croissance commerciale 2024-2026, avec des contrats Mistral AI, BNP Paribas, Renault, NVIDIA, Lockheed Martin, US DoD et plusieurs ministères européens. Le programme Hugging Face for Government a été annoncé en septembre 2025 avec un environnement FedRAMP-aligned en cours de certification.

Sécurité : token scopes, audit logs, SAML SSO Enterprise

La sécurité du compte et des artefacts s'articule autour de plusieurs couches :

  • Tokens d'accès : depuis 2024, Hugging Face propose des fine-grained tokens avec scopes par repo (read/write), par org, par tâche (Inference, AutoTrain, Spaces). Les read-only tokens historiques globaux restent supportés mais découragés.
  • 2FA obligatoire pour les contributeurs aux orgs critiques, méthode TOTP (Google Authenticator, 1Password) ou WebAuthn/Passkeys.
  • SAML SSO et OIDC sur Enterprise Hub : intégration Okta, Azure AD, Google Workspace, Ping, OneLogin.
  • SCIM provisioning pour Enterprise.
  • Audit logs Enterprise : exportables CSV/JSON, conservés 12 mois, détaillent commits, accès, créations de tokens.
  • Gated models : modèles soumis à acceptation de licence (Llama, Gemma, certaines variantes Mistral). L'éditeur peut auditer et révoquer les accès.
  • Private repos : illimités même en Free depuis 2024.
  • Resource Groups Enterprise : isolation des artefacts par sous-équipe.

Conformité : SOC 2 Type II, GDPR et résidence des données

Hugging Face a obtenu son SOC 2 Type II en 2023 et le renouvelle annuellement (cabinet AssuranceLab puis A-LIGN). Le rapport couvre les principes Security, Availability et Confidentiality. Au titre du RGPD/GDPR, l'entreprise propose un DPA standard sur Enterprise, un registre des sous-traitants public et un point de contact DPO. Un HIPAA BAA est en pré-vente pour les déploiements santé via Inference Endpoints sur AWS, et la conformité ISO 27001 est en cours pour 2026.

La résidence des données n'est pas garantie pour les repos publics du Hub (servis via Cloudflare/AWS US), mais Inference Endpoints permet de choisir la région cloud (eu-west-1 Irlande, eu-central-1 Francfort, eu-west-3 Paris). Pour les charges sensibles, Hugging Face encourage les déploiements on-premise via HUGS (containers Docker téléchargeables avec licence commerciale) ou via partenaires comme Dell, HPE et NVIDIA AI Foundry.

Modèles cybersécurité hébergés sur le Hub

Le Hub agrège plusieurs modèles spécialisés en cybersécurité qui constituent l'écosystème SecLLM 2026 :

  • fdtn-ai/Foundation-Sec-8B et Foundation-Sec-70B (Cisco) : modèles d'analyse de vulnérabilités et de logs SIEM.
  • SecBERT, SecRoBERTa, CySecBERT : encodeurs spécialisés CTI/CVE/MITRE ATT&CK.
  • BAAI/llm4cve : LLM pour la classification automatique des CVE par CWE/CAPEC.
  • ZySec-7B et ZySec-AI/SecuralLLM : assistant pentest open-source.
  • WhiteRabbitNeo-13B-v2 et WhiteRabbitNeo-33B-v2 : assistants offensive security communautaires (modèles "uncensored", à utiliser avec discernement).
  • Lily-Cybersecurity-7B-v0.2 : modèle CTI/SOC fine-tuné sur des manuels DFIR publics.

Pour la stratégie de sélection d'un LLM open-source en 2026, voir notre comparatif Comparatif LLM open-source 2026. Pour le RAG (Retrieval-Augmented Generation) sur corpus internes, notre guide RAG : Retrieval-Augmented Generation expliqué couvre l'intégration avec sentence-transformers et BAAI/bge-m3, deux briques massivement hébergées sur le Hub.

Modèles français : Mistral, CroissantLLM, Vigogne

L'écosystème francophone sur le Hub est devenu emblématique de l'AI souveraineté européenne :

  • mistralai/* : Mistral AI publie sur le Hub Mistral 7B, Mixtral 8x7B / 8x22B, Codestral, Mistral Large 2, Pixtral 12B, Ministral 3B/8B et la famille Mistral Small/Medium 3 (lancée fin 2025). Les variantes Instruct sont sous licences Apache 2.0, les variantes Pro sous Mistral Research License.
  • croissantllm/CroissantLLMBase et CroissantLLMChat : LLM bilingue FR-EN 1,3B paramètres entraîné par CentraleSupélec, INRIA et Illuin Technology, premier modèle pré-entraîné 50/50 FR-EN.
  • bofenghuang/vigogne-2-7b-instruct et vigogne-2-13b-instruct : adaptations LoRA de Llama 2 sur instructions FR.
  • OpenLLM-France/Claire-7B-0.1 et Lucie-7B : modèles entraînés par LINAGORA et Centre national pour le numérique éducatif sur corpus FR (ASR, dialogue).
  • almanach/camembert-large, camembertv2-base : encodeurs FR de référence (INRIA Almanach).
  • kyutai/moshiko-pytorch-bf16 et moshika : Moshi, modèle audio FR/EN du Kyutai Lab (Iliad/Schmidt Sciences).

Hugging Face, dont la moitié des fondateurs sont français et dont les bureaux parisiens (rue de Belzunce, 10e arrondissement) hébergent une partie significative de l'équipe research, est ouvertement aligné avec les efforts de souveraineté numérique européenne et participe au programme français VECT-AI et au programme européen EuroLLM.

Risques supply chain : pickle, malware et Safetensors

Le format historique de sérialisation des poids PyTorch, pickle (.bin, .pt), est intrinsèquement non sûr : un pickle peut embarquer du code Python arbitraire qui s'exécute lors du chargement. Plusieurs incidents ont émaillé l'histoire du Hub :

  • 2022-2023 : multiples proof-of-concepts de modèles déposant un reverse shell ou exfiltrant des secrets HF_TOKEN.
  • Février 2024 : campagne JFrog identifiant ~100 modèles malveillants sur le Hub injectant du code Python via pickle.
  • 2024-2025 : campagnes de typosquatting (faux meta-llama, mistraI-AI) ciblant les développeurs distraits.

La réponse de Hugging Face s'articule autour de quatre mesures concrètes :

  1. Safetensors : format de sérialisation tensoriel sans pickle conçu par Nicolas Patry chez Hugging Face en 2022, devenu standard de facto en 2024. Memory-mapped, zero-copy, lazy-loadable, audité formellement et adopté par PyTorch, JAX, MLX, TensorFlow, Diffusers, llama.cpp (en parallèle de GGUF), vLLM. Le cadenas vert "Safe" sur la page d'un modèle indique que tous ses poids sont en safetensors.
  2. Malware Scanning en CI sur tout commit : intégration ProtectAI ModelScan, JFrog Xray, ClamAV et Picklescan. Les détections critiques basculent le repo en quarantine.
  3. Pickle Imports : Hugging Face liste explicitement les imports Python contenus dans tout pickle pour aider à l'audit.
  4. Sigstore signatures en preview depuis 2025 : signature cryptographique des commits avec OIDC GitHub/Google.

Conseils pour un usage défensif en production : interdire le chargement non-safetensors (safe_serialization=True), épingler les commit hashes via revision="abc123..." plutôt que la branche main, miroirer les modèles critiques sur un registry interne, scanner systématiquement les artefacts téléchargés et filtrer les fichiers .bin, .pt, .pkl au niveau du proxy d'entreprise.

Comparatif Hugging Face vs GitHub vs Kaggle

Trois plateformes sont fréquemment confondues mais répondent à des besoins distincts :

CritèreHugging FaceGitHubKaggle
CiblePraticiens ML, chercheurs IADéveloppeurs logicielsData scientists, compétitions
Artefacts principauxModèles (poids), datasets, Spaces (apps)Code sourceDatasets, notebooks, compétitions
Quotas LFSIllimité (Xet) sur repos publics et privés1 GB free / 50 GB Pro / 100 GB Enterprise20 GB par dataset, 50 GB total
Hébergement computeSpaces (CPU/GPU/ZeroGPU), Inference EndpointsGitHub Actions (limité GPU), Codespaces (CPU)Kernels (GPU T4/P100/V100, 30 h/semaine free)
Communauté MLTrès forte (registry universel)Forte (code) mais ML diffusForte (compétitions Tabular, Vision, NLP)
Modèle économiqueSaaS Enterprise + Inference EndpointsSaaS Copilot + EnterpriseAcquis par Google, gratuit, monétisation indirecte
Ouverture APIAPI REST + huggingface_hub PythonAPI REST + Octokit + GraphQLAPI REST + kaggle Python CLI

Concrètement, la pratique 2026 consiste à utiliser GitHub pour le code (training scripts, code applicatif, infrastructure as code), Hugging Face pour les modèles entraînés et les datasets de production, et Kaggle pour la veille compétitive et le benchmarking. Hugging Face a publié en 2025 une intégration GitHub Actions officielle (huggingface/setup-hf-cli) qui automatise les sync croisées.

FAQ Hugging Face 2026

Hugging Face est-il gratuit ?

Oui pour l'essentiel. Le plan Free permet des repos publics et privés illimités, des Spaces CPU gratuits, l'Inference API basique et 600 s/jour de ZeroGPU. Les fonctionnalités payantes concernent le compute (GPU Spaces, Inference Endpoints), les fonctions Enterprise (SAML, audit) et AutoTrain.

Quelle est la différence entre Inference API et Inference Endpoints ?

L'Inference API est serverless, partagée, peu coûteuse mais soumise à cold-start et rate limiting — idéale pour le prototypage. Inference Endpoints est dédié, déployé dans une région spécifique, scalable, recommandé pour la production avec des SLA.

Hugging Face est-il une alternative à OpenAI ou Anthropic ?

Pas directement : Hugging Face héberge et distribue, mais n'édite pas (sauf BLOOM, smolagents, quelques modèles dédiés). En revanche, en passant par des modèles ouverts (Llama 4, Mistral, DeepSeek, Qwen) déployés via Inference Endpoints, on construit une alternative crédible aux API propriétaires.

Comment télécharger un modèle privé ?

Créer un token fine-grained avec scope read sur le repo, puis huggingface-cli login ou variable d'environnement HF_TOKEN. Le téléchargement se fait via from_pretrained() en Transformers ou snapshot_download() en huggingface_hub.

Safetensors remplace-t-il définitivement pickle ?

Pour les poids de modèles, oui : tous les modèles modernes publient en safetensors par défaut. Pickle reste utilisé pour des artefacts annexes (states d'optimiseur, scheduler) où la portée est jugée moins critique, mais Hugging Face encourage la migration complète.

Hugging Face peut-il héberger des modèles soumis au RGPD ou à la loi française sur les données de santé ?

Pour des charges sensibles, l'option recommandée est Inference Endpoints en région européenne (Paris, Francfort, Irlande) avec DPA signé, ou un déploiement on-premise via HUGS. Le Hub public n'offre pas de garantie de résidence européenne pour les fichiers téléchargés.

Qu'est-ce que ZeroGPU et comment l'utiliser ?

ZeroGPU est un pool de GPU H200 partagés alloués à la demande aux Spaces. On l'active en abonnement Pro et en décorant les fonctions Python lourdes par @spaces.GPU. Les quotas vont de 600 s/jour (Free) à 3 000 s/jour (Enterprise).

Comment auditer la sécurité d'un modèle téléchargé sur le Hub ?

Vérifier le cadenas Safetensors, examiner la model card et le tab Files and versions, contrôler les pickle imports si présents, scanner avec picklescan et modelscan, épingler le commit hash, restreindre les téléchargements aux orgs verified (Meta, Mistral, Microsoft, Google) en environnement sensible.

Hugging Face fournit-il une plateforme de monitoring LLM en production ?

Inference Endpoints expose des métriques Prometheus (latence, throughput, GPU utilization) et des logs CloudWatch/GCP Logging. Pour l'observabilité applicative (tokens, hallucinations, qualité réponse), Hugging Face s'intègre nativement avec Arize Phoenix, Langfuse, Helicone et OpenLLMetry.

Liens utiles