Jun 04, 2026 Tribunes

Status: clean

En un mois, une IA a trouvé plus de dix mille failles critiques. 75 corrigées. Tout le monde en tire la même leçon : patcher plus vite. C'est la mauvaise. Le taux ne bouge pas, le volume double, et l'instrument de mesure devient aveugle au même moment.

Dorian Gray (2009)

Working tree clean. Le portrait, lui, enregistre tout.

Le 22 mai 2026, Anthropic publie un bilan de Project Glasswing. En un mois, Claude Mythos Preview, un modèle capable de trouver et d'exploiter seul des vulnérabilités que personne n'avait repérées depuis des décennies², et une cinquantaine de partenaires ont trouvé plus de dix mille vulnérabilités de sévérité haute ou critique dans les logiciels les plus critiques de la planète¹. Plus bas, le même rapport donne un autre chiffre : sur les 530 failles haute ou critique divulguées aux mainteneurs, 75 ont été corrigées¹. Le premier chiffre fait les titres. Le second mesure le problème.

Anthropic formule lui-même le renversement. Les progrès de la sécurité logicielle étaient limités par la vitesse à laquelle on trouvait les failles ; ils le sont désormais par la vitesse à laquelle on peut les vérifier, les divulguer et les corriger¹. Un correctif prend deux semaines en moyenne, et des mainteneurs ont demandé à Anthropic de ralentir ses divulgations¹.

Le déséquilibre était lisible trois mois plus tôt. Le 5 février, Anthropic annonçait que Claude Opus 4.6 avait découvert plus de 500 vulnérabilités critiques dans du code open source de production, certaines dormantes depuis des décennies³. Le 20 février, l'éditeur lançait un outil pour les corriger automatiquement⁴. Le même jour, Snyk calculait que ces correctifs portaient statistiquement le même taux de vulnérabilité que le code qu'ils réparent⁵.

J'ai vérifié les données derrière ces annonces. Le déséquilibre qu'elles décrivent fait consensus, et la réponse qu'on en tire, patcher plus vite, domine. Elle est insuffisante. Le code produit par l'IA reste à peu près aussi vulnérable que le code humain, au même taux qu'il y a deux ans, à un volume qui explose, pendant que l'appareil censé le voir, le nommer et le corriger se dégrade en même temps.

Un taux qui ne bouge pas

La mise à jour Veracode de mars 2026 porte sur plus de 150 modèles, dont les derniers flagships : GPT-5.2, Gemini 3, Claude 4.5 et 4.6. Taux de code sécurisé : 55%, identique à la mesure de 2024⁶. Deux ans de progrès fonctionnels spectaculaires, zéro progrès sécuritaire. Chris Wysopal, cofondateur de Veracode, a forgé un terme pour ce flux : le code slop⁸.

Les mesures convergent d'une source à l'autre. Java : 72% d'échec sécuritaire. Cross-Site Scripting : 86%. L'injection SQL, faille la plus enseignée de l'histoire de la sécurité logicielle, échoue encore une fois sur cinq⁷. Et ce code reste exploitable sur les modèles les plus récents : une méthode d'attaque publiée en 2026 extrait des vulnérabilités récurrentes du logiciel généré par GPT-5.2, Claude 4.5 Opus et Gemini 3 Pro, avec jusqu'à 94% de succès⁹.

La contradiction avec les 500 zero-days n'est qu'apparente. Trouver une faille dans du code existant relève de l'analyse : le modèle lit un code qu'il n'a pas écrit, dans une base mature, et raisonne sur des flux de données. Les LLM excellent en lecture profonde. Produire du code sécurisé relève de la synthèse sous contraintes simultanées de fonctionnalité, de performance, de maintenabilité et de sécurité. Le modèle sacrifie la sécurité pour la fonctionnalité, parce que l'entraînement optimise la complétion. BaxBench, le benchmark d'ETH Zurich (392 tâches, 14 frameworks), mesure cet écart : Claude Opus 4.5, premier du classement, produit du code à la fois correct et sécurisé dans 56% des cas¹¹. Et Opus 4.6, le modèle qui a trouvé les 500 zero-days, affiche une densité de vulnérabilités en hausse de 55% par rapport à son prédécesseur quand il écrit du code¹⁰. Excellence en détection, échec à 45% en synthèse, sur le même modèle, dans la même fenêtre.

Un volume qui double

Un taux stable à 45% dans un volume qui double tous les six mois donne une quantité absolue de failles qui explose pendant que les ratios sur les tableaux de bord ne bougent pas.

85% des développeurs utilisent des outils de code IA¹², 90% selon DORA¹³. La mesure objective dément la perception. Sur la télémétrie de 10 000 développeurs, les pull requests augmentent de 98% pendant que les métriques de livraison restent plates¹⁴. En conditions contrôlées, les développeurs assistés par IA sont 19% plus lents, et se perçoivent 20% plus rapides¹⁵. L'écart entre ce qu'on croit livrer et ce qu'on livre atteint quarante points.

Claude Code est passé de zéro à 2,5 milliards de dollars de revenus annualisés en neuf mois¹⁶. 4% des commits publics GitHub, projection à plus de 20% d'ici fin 2026¹⁷. Le dirigeant d'Anthropic estime que les modèles feront sous six à douze mois l'essentiel, voire la totalité, du travail des ingénieurs logiciels¹⁸.

Le relevé objectif suit. Sur 1,6 million d'applications, la dette sécuritaire touche 82% des organisations, contre 74% un an plus tôt¹⁹. Le code IA est à l'origine d'une brèche sur cinq²⁰. Moins de la moitié des développeurs relisent le code IA avant de le committer²¹. Et les mêmes templates insécurisés réapparaissent à l'identique dans des projets sans lien entre eux, parce que les mêmes modèles produisent les mêmes défauts chez des développeurs qui ne se connaissent pas²².

La courbe se lit déjà dans les bases publiques. Le Vibe Security Radar de Georgia Tech traque depuis mai 2025 les CVE directement attribuables à des outils de code IA, en remontant l'historique des commits²³. Second semestre 2025 : 18 cas en sept mois. Premier trimestre 2026 : 56. Mars 2026 seul : 35, plus que toute l'année 2025. Claude Code pèse 27 des 35, parce qu'il laisse une signature traçable que les autres outils effacent. Les chercheurs estiment le chiffre réel cinq à dix fois supérieur²³. Le taux est plat. Le volume attribuable à l'IA suit une exponentielle.

Trouver va plus vite que corriger

Le déséquilibre, tout le monde le voit désormais. En un mois, Mythos a trouvé plus de dix mille failles critiques. Sur les 530 divulguées, 75 corrigées : 14% de ce qui a été remonté aux mainteneurs, moins de 1% de ce qui a été trouvé¹. Anthropic relocalise lui-même le goulot, de la découverte vers la correction¹. Palo Alto parle d'un déluge de vulnérabilités et fixe une fenêtre de trois à cinq mois pour corriger chaque faille trouvée avant que les attaquants n'aient la même capacité²⁴. Le mot d'ordre tient en deux mots : patcher plus vite. Schneier objecte déjà que cette course est réactive, et appelle à une résilience d'ensemble plutôt qu'à rester un patch en avance²⁵. Le désaccord que je porte est plus précis : le taux qui ne bouge pas fait du déluge un flux permanent, pas un retard à rattraper, et l'instrument censé dire quoi corriger se brouille au même moment.

Il faut concéder un point, sous peine de se tromper de cible. La qualité de correction des modèles récents a progressé. Une étude de février 2026 sur du vrai code mesure GPT-5 et Claude Opus 4.1 réparant 75 à 80% des failles détectées, contre la moitié un an plus tôt, et conclut que le code IA est à peu près aussi susceptible de contenir une faille que le code humain²⁶. Une équipe de l'AIxCC fait passer la correctness de ses correctifs de 52% à 71% entre 2025 et début 2026²⁷. La dégradation par correction, le patch qui casse plus qu'il ne répare, se mesurait sur les modèles de génération précédente : un LLM autonome introduisant près de neuf fois plus de failles que l'humain²⁸, des vulnérabilités critiques en hausse de 37,6% après cinq cycles de correction²⁹. Sur les modèles récents, ce flanc se referme.

Le déséquilibre n'a pas besoin de lui. Le modèle excave plus vite qu'aucun humain, quel que soit le niveau de qualité du patch. Chaque faille trouvée et non corrigée rejoint une réserve qui grossit, connue mais ouverte, le temps que le correctif arrive (deux semaines en moyenne, quand il arrive). Ce qu'une telle réserve offre à un attaquant relève d'un autre article de cette série³⁰. Ici, le point tient sans lui : la chaîne défensive trouve dans son propre code plus vite qu'elle ne le referme.

L'instrument qui se brouille

Reste à savoir ce qu'on voit de cette réserve. La réponse tient en une suite de mesures récentes et convergentes : de moins en moins.

Le valideur déterministe, l'analyse statique sur laquelle repose l'idée même de vérifier le code IA, attrape un tiers à la moitié de ce qu'il cherche. Sur 1 080 échantillons à la vérité-terrain établie à la main, CodeQL identifie correctement un tiers des failles ciblées, Semgrep la moitié³¹. Sur les classes les plus connues, celles que ces outils ont été conçus pour reconnaître.

Les benchmarks qui classent les modèles ne valent pas mieux. Un audit des vérificateurs de SWE-Bench Pro montre qu'ils acceptent une mauvaise implémentation près d'une fois sur douze et rejettent une bonne près d'une fois sur quatre³². Quant à SWE-bench Verified, longtemps la référence du domaine, OpenAI a cessé d'y publier ses scores après avoir constaté que les modèles récents en restituaient les solutions mot pour mot, déjà présentes dans leurs données d'entraînement³². Le banc note des modèles qui connaissent déjà ses réponses.

Le détecteur lui-même dérive. Un détecteur de vulnérabilités fondé sur un LLM, évalué en conditions réalistes (entraîné sur le passé, testé sur le futur), identifie correctement deux failles sur trois, et cette performance varie du simple au double selon les périodes, parce que les vulnérabilités changent de forme dans le temps³³. Accumuler des données n'y fait rien : la précision gagne moins de deux points pour un coût de calcul multiplié par seize³³.

Enfin, la couche qui nomme les failles cède. En avril 2026, le NIST a arrêté l'enrichissement systématique des CVE non prioritaires pour le gouvernement fédéral américain, faute de tenir le rythme des soumissions³⁴. Le système mondial qui qualifie les vulnérabilités produit moins vite que l'IA n'en fabrique. Et l'origine du code reste invisible : 62% des praticiens sécurité n'ont aucun moyen de savoir où les LLM sont utilisés chez eux³⁵, aucun framework de chaîne logicielle (SBOM, SLSA, in-toto) ne capture qui a écrit le code source, et les rares tentatives de traçabilité sont volontaires et contournables³⁶.

Chaque instrument qui permettrait de mesurer la réserve réelle sature, dérive ou se tait. Le relevé existe toujours, mais plus personne ne le tient à jour.

La correction ne tient que pour ceux qui en ont les moyens

Le bilan Glasswing contient pourtant des corrections qui ont réussi, et vite. Mozilla a corrigé 271 failles dans Firefox, dix fois plus qu'avec le modèle précédent¹. Palo Alto a publié cinq fois plus de correctifs que d'habitude¹. L'outil Claude Security a servi à patcher 2 100 vulnérabilités en entreprise en trois semaines¹.

Le point commun de ces réussites : une organisation qui possède son code et qui a les moyens de le corriger, à vitesse machine, sur son propre périmètre. Anthropic le dit lui-même, ces correctifs vont vite parce que les entreprises réparent leur propre code, là où l'open source dépend de mainteneurs bénévoles passant par la divulgation coordonnée¹. D'un côté, les géants durcissent leur code. De l'autre, le commun open source encaisse moins de 1% de corrections, des mainteneurs débordés qui demandent qu'on ralentisse, et un déluge de rapports de bugs générés par IA et de faible qualité¹.

Les programmes qui offrent des assistants de code aux mainteneurs des bibliothèques les plus utilisées (seuil : 5 000 étoiles GitHub ou un million de téléchargements npm mensuels) visent exactement les nœuds du graphe de dépendances où la transitivité est maximale³⁷. Ils fournissent l'outil aux mainteneurs, pas le temps ni les bras pour l'employer. La capacité à suivre se concentre là où il y a des moyens. Partout ailleurs, le volume arrive sans rien pour l'absorber.

Ce que je ne sais pas

Si les correctifs déployés en masse depuis avril ont introduit de nouvelles failles. Glasswing a fait corriger 75 vulnérabilités sur 530, l'outil d'un éditeur en a patché 2 100 en entreprise en trois semaines¹. Le patch est du code IA. Aucun éditeur n'a publié de mesure de régression sur ces correctifs. La littérature indépendante établit un taux de réintroduction substantiel sur les modèles de génération précédente²⁸. Sur ceux d'aujourd'hui, à grande échelle, personne n'a vérifié.

Le coût réel des résultats de détection. Ni Anthropic pour ses 500 vulnérabilités, ni OpenAI pour son agent Aardvark³⁸ n'ont publié le coût de calcul, le taux de faux positifs ou la méthodologie complète³⁹. Le chiffre flatteur est annoncé. Ce qui jugerait sa qualité ne l'est pas.

Comment le cadre réglementaire européen s'adaptera. Le CRA impose une diligence raisonnable sur les composants intégrés, la PLD crée une responsabilité sans faute⁴⁰. J'ai documenté ces mécanismes dans l'article 12 de cette série. Les deux textes évaluent un produit à un instant donné. Aucun ne distingue le code humain du code IA, aucun ne voit une réserve de failles qui grossit sous une mesure aveugle. La responsabilité existe. Le moyen de la chiffrer, non.

Ce que je sais

L'industrie a posé une prémisse : que le chiffre affiché sur le tableau de bord décrit l'état du système. Il ne le décrit plus. Le taux de vulnérabilité du code IA n'a pas bougé en deux ans, modèles récents compris. Le volume double. Et chaque instrument qui montrerait la conséquence, le valideur, les benchmarks, le détecteur, le nommage, la traçabilité, sature ou dérive au même moment. La population réelle de failles croît plus vite qu'on ne peut la voir, la nommer ou la corriger.

On objectera que les modèles récents corrigent mieux. C'est vrai, et ça ne change rien. La qualité du patch a progressé, le code IA vaut à peu près le code humain, mais le taux reste plat sous un volume exponentiel, le déséquilibre trouver/corriger s'élargit, l'instrument de mesure est aveugle, et la capacité à suivre se privatise au profit de ceux qui réparent leur propre code. Là où l'on tient le rythme, c'est qu'on en a les moyens, pas que le problème soit résolu.

Les organisations qui adoptent le code IA à cette échelle augmentent leur exposition au CRA et à la PLD, qui se moquent de l'origine du code et tiennent le fabricant pour responsable du produit mis sur le marché⁴¹. Plus de failles, plus de surface exposée, plus de signalements potentiels sous 24 heures⁴¹, et une infrastructure mondiale qui ne sait plus les nommer⁴². Elles ne le savent pas, parce que rien dans leurs métriques ne le leur montre.

Le statut affiche : working tree clean. Le relevé réel vieillit dans une pièce qu'on a cessé d'ouvrir.

Dix-septième article d'une série sur les failles structurelles de la cybersécurité occidentale :

Article 1 : La vulnérabilité de la gestion des vulnérabilités
Article 2 : La dépendance européenne aux standards américains
Article 3 : Les États, architectes cachés du marché noir des vulnérabilités
Article 4 : L'IA ou l'effondrement du modèle défensif occidental
Article 5 : Desert Power — survivre sans l'Empire
Article 6 : I Am Altering the Deal
Article 7 : Le dernier canal
Article 8 : Lord of Cyber War
Article 9 : Les faucons du numérique
Article 10 : They Live... we sleep
Article 11 : Soylent Green
Article 12 : Ghost in the Binary
Article 13 : Now You See Me
Article 14 : The Prestige
Article 15 : Pitch Black
Article 16 : The Thing That Should Not Be

Références

¹ Anthropic (2026). « Project Glasswing: An initial update ». 22 mai 2026 — 10 000+ failles haute/critique en un mois ; 6 202 estimées haute/critique en open source sur 23 019 ; 530 divulguées, 75 corrigées (65 advisories) ; délai moyen 2 semaines ; goulot relocalisé sur la capacité humaine de triage et de correction ; Mozilla 271 (×10 vs modèle précédent), Palo Alto ×5, Claude Security/Opus 4.7 = 2 100 patchs entreprise en 3 semaines https://www.anthropic.com/research/glasswing-initial-update

² Anthropic Frontier Red Team (2026). « Claude Mythos Preview ». Avril 2026 — milliers de zero-days dans les principaux OS et navigateurs, exploitation autonome d'un RCE FreeBSD de 17 ans https://red.anthropic.com/2026/mythos-preview/

³ Anthropic (2026). « Finding a new satisfiability-based approach to software vulnerability discovery with Claude ». Frontier Red Team, 5 février 2026 https://red.anthropic.com/2026/zero-days/

⁴ Anthropic (2026). « Claude Code Security ». 20 février 2026 https://www.anthropic.com/news/claude-code-security

⁵ Snyk (2026). « Why Anthropic Launching Claude Code Security Is Great News for the Industry ». 20 février 2026 https://snyk.io/articles/anthropic-launches-claude-code-security/

⁶ Veracode (2026). « Spring 2026 GenAI Code Security Update ». Mars 2026 — 150+ modèles incluant GPT-5.1/5.2, Gemini 3, Claude 4.5 et 4.6. Taux de code sécurisé : 55%, identique à 2024 https://www.veracode.com/blog/spring-2026-genai-code-security/

⁷ Veracode (2025). 2025 GenAI Code Security Report. Juillet 2025 — 80 tâches, 100+ LLM, 4 langages. Java 72% d'échec, XSS 86%, injection SQL ~20% https://www.veracode.com/resources/genai-code-security-report-2025

⁸ Dark Reading (2025). Interview Chris Wysopal, « code slop ». Octobre 2025 https://www.darkreading.com/application-security/ai-generated-code-leading-expanded-technical-security-debt

⁹ arXiv:2602.04894 (2026). « Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software ». FSTab évalué sur GPT-5.2, Claude-4.5 Opus, Gemini-3 Pro — jusqu'à 94% de succès d'attaque, 93% de couverture de vulnérabilités https://arxiv.org/abs/2602.04894

¹⁰ SonarSource (2026). Analyse Claude Opus 4.6. 20 février 2026 — densité de vulnérabilités en hausse de 55% vs prédécesseur https://www.sonarsource.com/blog/why-claude-opus-4-6-requires-verification/

¹¹ Vero, M. et al. (2025). « BaxBench: Can LLMs Generate Correct and Secure Backends? ». arXiv:2502.11844, ICML 2025 — Claude Opus 4.5 : 56% de code correct et sécurisé https://arxiv.org/abs/2502.11844

¹² JetBrains (2025). State of Developer Ecosystem 2025 https://www.jetbrains.com/lp/devecosystem-2025/

¹³ Google Cloud (2025). 2025 DORA State of AI-assisted Software Development Report — 90% d'adoption, relation négative entre adoption IA et stabilité des livraisons https://cloud.google.com/devops/state-of-devops

¹⁴ Faros AI (2025). « The AI Productivity Paradox ». Juillet 2025 — pull requests +98%, livraison organisationnelle plate https://www.faros.ai/blog/ai-software-engineering

¹⁵ METR (2025). « Measuring the Impact of AI Coding Assistants on Developer Productivity ». Juillet 2025 — 19% plus lents, perception +20% https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

¹⁶ Reuters / Sacra / The Information. Claude Code : 2,5 Md$ ARR, février 2026 https://sacra.com/c/anthropic/

¹⁷ GitClear / SaaStr. 4% des commits GitHub = Claude Code https://www.saastr.com/anthropic-just-hit-14-billion-in-arr-up-from-1-billion-just-14-months-ago/

¹⁸ VentureBeat (2026). Citation Amodei, Davos, janvier 2026 https://venturebeat.com/security/anthropic-claude-code-security-reasoning-vulnerability-hunting

¹⁹ Veracode (2026). 2026 State of Software Security. 26 février 2026 — dette sécuritaire 82% des organisations (74% l'an passé), vulnérabilités haut risque 8,3% → 11,3% https://www.veracode.com/resources/analyst-reports/state-of-software-security-2026/

²⁰ Aikido Security (2026). State of AI in Security & Development 2026 — code IA à l'origine d'une brèche sur cinq https://www.aikido.dev/state-of-ai-security-development-2026

²¹ Sonar (2026). State of Code Developer Survey. Janvier 2026 — 48% vérifient toujours le code IA https://www.sonarsource.com/blog/state-of-code-developer-survey-report-the-current-reality-of-ai-coding/

²² arXiv:2512.18567 (2025). Top 1 000 repos GitHub 2022-2025, templates insécurisés propagés entre projets sans lien https://arxiv.org/abs/2512.18567

²³ Infosecurity Magazine (2026). « Security Researchers Sound the Alarm on Vulnerabilities in AI-Generated Code ». Avril 2026 — Vibe Security Radar, Georgia Tech SSLab. 18 (S2 2025), 56 (T1 2026), 35 en mars 2026 seul. Estimation 5-10× le chiffre détecté https://www.infosecurity-magazine.com/news/ai-generated-code-vulnerabilities/

²⁴ Palo Alto Networks (2026). Klarich, L. « Defender's Guide to the Frontier AI Impact on Cybersecurity ». Avril 2026, mise à jour mai 2026 — « Vulnerability Deluge » et « flood of patches », fenêtre stratégique de trois à cinq mois, objectif de corriger chaque vulnérabilité trouvée avant la diffusion des capacités aux adversaires ; mise à jour de mai : 26 CVE (75 issues) publiés contre moins de 5 par mois d'habitude https://www.paloaltonetworks.com/blog/2026/04/defenders-guide-frontier-ai-impact-cybersecurity/

²⁵ Schneier, B. (2026). « On Anthropic's Mythos Preview and Project Glasswing ». Schneier on Security, 13 avril 2026 — Glasswing décrit comme une approche réactive, « racing to patch holes before attackers adapt » ; appel à une « systemic resilience rather than hoping to stay one patch ahead » https://www.schneier.com/blog/archives/2026/04/on-anthropics-mythos-preview-and-project-glasswing.html

²⁶ Belozerov, V., Barclay, P.J., Sami, A. (2026). « Secure Coding with AI — From Detection to Repair ». arXiv:2504.20814, v2 février 2026 — GPT-5 et Claude Opus 4.1 réparent 75-80% des failles détectées (vs ~50% en 2024) ; code IA à peu près aussi vulnérable que le code humain https://arxiv.org/abs/2504.20814

²⁷ Team Atlanta (2026). « Patching Vulnerabilities with Coding Agents in 2026 ». — correctness des correctifs 52% (Claude 3.7 Sonnet, 2025) → 71% (début 2026), 630 patchs revus à la main https://team-atlanta.github.io/blog/post-patch-2026-ensemble/

²⁸ Sajadi, A., Damevski, K., Chatterjee, P. (2025). « How Safe Are AI-Generated Patches? ». arXiv:2507.02976, v3 décembre 2025 — 20 000+ issues GitHub ; le LLM autonome (Llama 3.3 70B, génération précédente) introduit près de 9× plus de failles que les développeurs, dans des patterns distincts du code humain https://arxiv.org/abs/2507.02976

²⁹ arXiv:2506.11022 (2025). IEEE-ISTAS 2025, peer-reviewed — +37,6% de vulnérabilités critiques après 5 itérations de correction (modèles de génération précédente), « feedback loop security degradation » https://arxiv.org/abs/2506.11022

³⁰ Voir article 4 de cette série : « L'IA ou l'effondrement du modèle défensif occidental » — l'IA comme multiplicateur offensif et l'exploitation de la réserve de failles connues non corrigées

³¹ Firouzi, E., Ghafari, M. (2026). « Persistent Human Feedback, LLMs, and Static Analyzers for Secure Code Generation and Vulnerability Detection ». arXiv:2602.05868, février 2026 — 1 080 échantillons, vérité-terrain humaine. Recall CodeQL 0,34, Semgrep 0,54 sur le CWE Top 25 https://arxiv.org/abs/2602.05868

³² VentureBeat (2026). « DeepSWE blows up the AI coding leaderboard... ». Mai 2026 — audit Datacurve : vérificateurs SWE-Bench Pro acceptent une mauvaise implémentation 8,5% du temps, rejettent une bonne 24% ; OpenAI a cessé de reporter SWE-bench Verified après constat de contamination des données d'entraînement https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

³³ Dou, X., Bahsi, H., Guerra-Manzanares, A. (2026). « Enhancing Continual Learning for Software Vulnerability Prediction ». arXiv:2602.23834 — détecteur LLM, Macro-F1 0,667 (deux failles sur trois), performance variant du simple au double dans le temps ; +2 points pour un coût ×15,9 https://arxiv.org/abs/2602.23834

³⁴ NIST (2026). « NIST Updates NVD Operations to Address Record CVE Growth ». 15 avril 2026 — arrêt de l'enrichissement systématique, priorisation limitée aux CVE KEV CISA et logiciels fédéraux/critiques US. +263% de soumissions CVE entre 2020 et 2025 https://www.nist.gov/news-events/news/2026/04/nist-updates-nvd-operations-address-record-cve-growth

³⁵ Harness (2025). Enquête sur 500 praticiens sécurité (US, UK, France, Allemagne) — 62% n'ont aucun moyen de savoir où les LLM sont utilisés dans leur organisation. Via VentureBeat, janvier 2026 https://venturebeat.com/security/seven-steps-to-ai-supply-chain-visibility

³⁶ Mandel-Macaque (2026). git-memento — traçage des sessions IA par commit via git notes. Contrôle déclaratif, volontaire et contournable https://github.com/mandel-macaque/memento

³⁷ Vaughan-Nichols, S.J. (2026). « Anthropic and OpenAI Are Battling for the Best Open-Source Maintainers ». The New Stack, 6 mars 2026 — programmes ciblant les mainteneurs à 5K+ étoiles GitHub / 1M+ téléchargements npm https://thenewstack.io/openai-anthropic-open-source/

³⁸ OpenAI (2025). « Aardvark: An Agentic Security Researcher ». 30 octobre 2025 https://openai.com/index/introducing-aardvark/

³⁹ The Register (2026). « Infosec community panics over Anthropic Claude Code Security ». 23 février 2026 — ni faux positifs ni coût de calcul publiés https://www.theregister.com/2026/02/23/claude_code_security_panic/

⁴⁰ Voir article 12 de cette série : « Ghost in the Binary » — CRA, PLD, diligence raisonnable et responsabilité stricte https://www.klaerenn.fr/ghost-in-the-binary/

⁴¹ Voir article 12 de cette série : « Ghost in the Binary » — obligations de signalement sous 24 heures https://www.klaerenn.fr/ghost-in-the-binary/

⁴² Voir article 15 de cette série : « Pitch Black » — topologie de la dépendance européenne à l'infrastructure NIST/NVD https://www.klaerenn.fr/pitch-black/