Veille Technologique — AILab InfoCEPO

📊 Résumé Exécutif

Nouveaux modèles LLM majeurs

Projets GitHub en ascendance

Modèles Ollama nouvellement ajoutés

Modèles évalués sur Arena AI

Tendances dominantes

🔥 MoE ultra-efficaces — NVIDIA Nemotron 3 Ultra (1M context), DeepSeek-V4-Flash (284B total / 13B active), Laguna XS.2 (33B/3B) : l'architecture Mixture-of-Experts devient le standard pour le raisonnement local.
🧠 Claude Opus 4.x — Anthropic domine Arena AI avec les versions Opus 4.6/4.7/4.8, toutes en tête des classements code/webdev.
⚡ Outils RAG avancés — Headroom (compression de contexte 60-95%), SuperMemory (API mémoire), LiteParse (document parsing).
🔓 Ventsouverains open-source — Kimi-K2.6 (2.2M pulls), GLM-5.1 (2.2M pulls) rivalisent avec les modèles propriétaires.
🛡️ Sécurité & Qualité — Anthropic-Cybersecurity-Skills (754 skills), ECC (208k stars), Stop-Slop, Taste-Skill.

📖 Implémentations récentes déjà déployées (Wiki 03/06/2026)

Ces fonctionnalités sont déjà en production sur infocepo.com. Elles servent de base pour évaluer ce qui est nouveau.

Implémentations déployées

🤖 Agentic RAG — Compatibilité Open WebUI avec agents autonomes pour la récupération de connaissances.
🌐 Traduction temps réel — Réduction des hallucinations, latence diminuée, 600+ langues TTS supportées.
🗣️ TTS Omnivoice — Qualité améliorée, support étendu à 600 langues.
📚 LightRAG — Framework RAG combinant graphes de connaissances et recherche vectorielle.
🔍 API reranker — API dédiée au reranking de documents.
✂️ API embedding — API dédiée aux embeddings vectoriels.
🔒 privacy-filter — Filtrage automatique des données personnelles.
📝 CLAUDE.md inspiré de Karpathy — Transformer Claude en ingénieur logiciel autonome.
🧠 Qwen3.6 déployé — Améliorations agentic coding et thinking preservation.
🎙️ Gemma4 STT — API transcription compatible OpenAI, qualité très bonne, plus gourmand en mémoire que Whisper3-turbo.
💻 opencode CLI — Coder CLI à comparer avec Aider/OpenHands (migration anomalyco/opencode).
📄 api-convert2md — Extraction tableaux pour RAG compatible Open WebUI.
⚙️ Optimisation RAG — BGE-M3 (chunk 1200, overlap 100).
🧪 Brains expérimentaux — Modules expérimentaux ajoutés.
⚖️ legal-agent — Agent juridique dédié.
🛡️ ai-security — Module sécurité IA.
🏷️ langextract — Démo extraction d'entités (nécessite auth).
🎵 sam-audio — Séparation audio sémantique (c1 interne seulement).
🔊 API Realtime — WebRTC / WebSocket bidirectionnel basse latence.

🤖 Modèles LLM — Ajouts significatifs récents

Nouveautés OpenRouter (ajoutés mai-juin 2026)

Modèle	Fournisseur	Contexte	Prix prompt ($/M)	Date ajout	Note
nvidia/nemotron-3-ultra-550b	NVIDIA	1M tokens	$0.50	04/06	Nouveau MoE massive, haute performance raisonnement
nvidia/nemotron-3-ultra-550b:free	NVIDIA	1M tokens	Gratuit	04/06	À tester Version libre accès du précédent
nvidia/nemotron-3.5-content-safety	NVIDIA	128K tokens	Gratuit	04/06	Sécurité Filtrage contenu via NVIDIA
qwen/qwen3.7-plus	Alibaba	1M tokens	$0.40	03/06	Nouveau Qwen Suite à Qwen3.6 déjà déployé
minimax/minimax-m3	MiniMax	1M tokens	$0.30	31/05	Multimodal Coding & agentic, natif multimodal
stepfun/step-3.7-flash	StepFun	256K tokens	$0.20	28/05	Économique Flash rapide, bon rapport qualité/prix
anthropic/claude-opus-4.8-fast	Anthropic	1M tokens	$10.00	27/05	Premium Version rapide d'Opus 4.8
anthropic/claude-opus-4.8	Anthropic	1M tokens	$5.00	27/05	#1 Arena AI Modèle n°1 WebDev sur Arena
anthropic/claude-opus-4.7-fast	Anthropic	1M tokens	$30.00	12/05	Version rapide Opus 4.7
qwen/qwen3.7-max	Alibaba	1M tokens	$1.25	21/05	Leader Top Intelligence Index AA
x-ai/grok-build-0.1	xAI	256K tokens	$1.00	20/05	Build-focused Grok variant
google/gemini-3.5-flash	Google	1M tokens	$1.50	19/05	Google Flash rapide 1M contexte

Top téléchargements HuggingFace (mise à jour mai 2026)

Modèle	Downloads	Likes	Type	Remarques
deepseek-ai/DeepSeek-R1	5.7M	13,374 ❤️	Text Gen	Top likes HF Open-source reasoning model
hexgrad/Kokoro-82M	14M	6,273 ❤️	TTS	TTS open-source léger (déjà dans écosystème via gemma4 STT)
deepseek-ai/DeepSeek-V4-Pro	5.5M	4,671 ❤️	Text Gen	MoE 284B/13B, 1M contexte, 3 modes raisonnement
google/gemma-4-26B-A4B-it	12M	1,090 ❤️	Multimodal	Image-text-to-text, agentic workflows, 3 tailles (12b/26b/31b sur Ollama)
Qwen/Qwen3-8B	12M	1,126 ❤️	Text Gen	Part de la famille Qwen3 (27b/35b aussi disponibles)
Qwen/Qwen3-0.6B	22.5M	1,299 ❤️	Edge	Ultra-léger pour déploiement edge/on-device
Qwen/Qwen3-4B	17M	628 ❤️	Edge	Balanced performance/largeur for consumer hardware
openai/gpt-oss-120b	4.5M	4,853 ❤️	Text Gen	OpenAI OSS 120B parameters, open weights
openai/gpt-oss-20b	7.6M	4,687 ❤️	Text Gen	OpenAI OSS 20B variant, très populaire
Tongyi-MAI/Z-Image-Turbo	948K	4,756 ❤️	Image Gen	Generative AI image turbo (Alibaba)

Modèles Ollama nouvellement ajoutés (derniers 30 jours)

Modèle	Description	Pulls	Récency	Tags
gemma4	Gemma 4 frontier-level, 3 tailles (12b/26b/31b), multimodal + audio	12.2M	21h	vision tools thinking audio cloud e2b e4b 12b 26b 31b
qwen3.6	Qwen 3.6 — upgrades agentic coding & thinking preservation	2M	4j	vision tools thinking 27b 35b
nemotron-3-ultra	NVIDIA Nemotron 3 Ultra — high-throughput reasoning, agent workflows	2,442	2j	tools thinking cloud
lfm2.5	LFM2.5-8B-A1B, edge model fast tool calling on consumer hardware	8,658	6j	tools thinking 8b
minimax-m3	MiniMax M3: Coding & Agentic Frontier, 1M context, native multimodal	26.9K	5j	vision tools thinking cloud
granite4.1	IBM Granite 4.1 — Apache 2.0, multilingual, coding, RAG, JSON output	129.2K	2s	tools 3b 8b 30b
mistral-medium-3.5	Mistral flagship 128B weights merging instruction, reasoning, coding	31.4K	1m	vision tools thinking 128b
qwen3.5	Qwen 3.5 family — 7 tailles (0.8b à 122b), multimodal	13.1M	2s	vision tools thinking cloud 0.8b 2b 4b 9b 27b 35b 122b
kimi-k2.6	Kimi K2.6 — open-source multimodal agentic, long-horizon coding	286.7K	1m	vision tools thinking cloud
glm-5.1	GLM-5.1 — next-gen agentic engineering, SWE-Bench Pro SOTA	2.2M	1m	tools thinking cloud
nemotron3	NVIDIA Nemotron 3 Nano Omni — video/audio/image/text understanding	599.5K	1m	vision tools thinking audio 33b
deepseek-v4-flash	DeepSeek-V4-Flash — MoE 284B/13B, 1M token context, efficient reasoning	107.1K	1m	tools thinking cloud
deepseek-v4-pro	DeepSeek-V4-Pro — frontier MoE, 1M context, 3 reasoning modes	105.3K	1m	tools thinking cloud
laguna-xs.2	Laguna XS.2 — MoE 33B/3B activated, agentic coding local	14.7K	1m	tools thinking

🐙 GitHub Trending — Semaine en cours

Top repos par étoiles hebdomadaires

Repository	⭐ Total	📈 Cette sem.	🍴 Forks	Description
microsoft/markitdown	146K	+16,376	10K	Python tool converting files & office docs to Markdown
chopratejas/headroom	15K	+11,993	974	Compress RAG chunks before LLM — 60-95% fewer tokens
NousResearch/hermes-agent	184K	+11,333	31.6K	The agent that grows with you 🇫🇷
harry0703/MoneyPrinterTurbo	80K	+11,388	11.4K	Generate short videos with one click using AI LLM
affaan-m/ECC	209K	+10,326	32K	Agent harness performance optimization system
D4Vinci/Scrapling	61K	+6,436	5.9K	Adaptive web scraping framework, single request to full crawl
Leonxlnx/taste-skill	35K	+6,044	2.5K	Gives your AI good taste — stops boring/generic outputs
supermemoryai/supermemory	26K	+2,944	2.3K	Memory engine and app — The Memory API for the AI era
anthropics/claude-code	131K	+2,893	21.1K	Agentic coding tool in terminal
can1357/oh-my-pi	10.8K	+2,317	915	AI Coding agent for the terminal — hash-anchored edits, LSP
run-llama/liteparse	9.2K	+2,380	537	Fast, helpful, open-source document parser
mukul975/Anthropic-Cybersecurity-Skills	14.5K	+2,492	1.7K	754 cybersecurity skills — MITRE ATT&CK, NIST CSF 2.0, D3FEND
OpenBMB/VoxCPM	27K	+4,398	3K	Tokenizer-Free TTS multilingual, creative voice design, cloning
nesquena/hermes-webui	13.6K	+4,424	1.7K	Hermes WebUI — use Hermes Agent from web or phone
revfactory/harness	6.2K	+2,030	838	Meta-skill designing domain-specific agent teams
EveryInc/compound-engineering-plugin	20K	+1,933	1.5K	Official Compound Engineering plugin for Claude Code/Cursor

Analyse contributor-density

ECC (208K ⭐, 32K forks) : ~5 contributeurs clés dont claude/Copilot bots → moteur AI-augmenté, signal fort.
Headroom (15K ⭐, +12K cette semaine !) : 5 contributeurs (+claude+copilot) → viral organique, compression contexte = game-changer RAG.
Hermes-Agent (184K ⭐, +11K/semaine) : équipe small mais communauté massive, continue croître rapidement.
Markitdown (146K ⭐, +16K/semaine !) : Microsoft, équipe 5 contributeurs, outil essentiel pour pipeline document→markdown.

🦙 Ollama — Nouveautés récentes

Modèles nouvellement disponibles sur Ollama. Privilégier ceux qui ne sont pas encore dans notre écosystème ou qui offrent des capacités distinctes.

Must-have pour notre infrastructure

Modèle	Pulls	Taille	Intérêt pour nous	Déjà chez nous ?
granite4.1 (3b/8b/30b)	129K	Multi	Haute priorité Apache 2.0, entreprise-ready, multilingue, RAG, JSON structuré — parfait alternative open à modèles propriétaires	❌ Nouveau
gemma4 (12b/26b/31b)	12.2M	Multi	Haute priorité Multimodal + audio, frontier-level, agentic — complémentaire au gemma4 STT existant	⚠️ STT oui, modèle complet non
glm-5.1	2.2M	—	À tester SOTA SWE-Bench Pro, agentic engineering — excellent pour dev assisté	❌ Nouveau
kimi-k2.6	286K	—	À tester Long-horizon coding, swarm orchestration — cas d'usage spécifique	❌ Nouveau
deepseek-v4-flash	107K	284B/13B	Performance MoE efficient, 1M contexte, 3 modes raisonnement — coût très compétitif	❌ Nouveau
laguna-xs.2	14.7K	33B/3B	Local MoE ultra-léger (3B activé), agentic coding local — idéal pour inference on-premise	❌ Nouveau
nemotron-cascade-2	121K	30B/3B	Local MoE ouvert NVIDIA, strong reasoning & agentic — alternative locale à Mistral-medium	❌ Nouveau
lfm2.5 (8b)	8.7K	8B	Edge Edge model, fast tool calling, hardware consommateur — bon candidat embarqué	❌ Nouveau
medgemma / medgemma1.5	38K / 20K	4B / 27B	Domaine Spécialisé médical texte/image — utile si projets santé	❌ Nouveau
minimax-m2.7	2.2M	—	Coding Coding/agentic/productivité — alternative MiniMax au m3	❌ Nouveau

🏆 Arena AI — Leaderboard Code/WebDev

Classement des meilleurs modèles IA pour le développement web — 352,929 votes, 85 modèles évalués au 05/06/2026.

Top 10 Code Arena (WebDev)

#	Modèle	Provider	License	Score	Trend
1	claude-opus-4-7-thinking	Anthropic	Proprietary	1567	↕ 1
2	claude-opus-4-7	Anthropic	Proprietary	1557	↕ 1
3	claude-opus-4-8-thinking	Anthropic	Proprietary	1552	↑ 3
4	claude-opus-4-8	Anthropic	Proprietary	1545	↑ 2
5	claude-opus-4-6-thinking	Anthropic	Proprietary	1543	↔ 2
—	gpt-5.5-xhigh (codex)	OpenAI	Proprietary	~1520	Entrée top 10
—	qwen3.7-max-20260517	Alibaba	Proprietary	~1500	Montée rapide
—	glm-5.1	Z.ai	MIT	~1480	Open source! 🏆
—	minimax-m3	MiniMax	Proprietary	~1470	Nouveau
—	kimi-k2.6	Moonshot	MIT	~1460	Open source!

Observations clés

🏆 Domination Anthropic : Top 5 entièrement occupé par Claude Opus 4.x — aucune concurrence immédiate close-source n'est entrée dans le top 5.
🔓 GLM-5.1 est le seul modèle open-source (MIT) dans le top 10 — excellente nouvelle pour notre politique OSS.
🆕 GPT-5.5 fait son apparition dans le classement (codex-harness), prouvant la compétition s'intensifie.
📈 Qwen3.7-max monte rapidement — la famille Qwen continue sa progression.

📈 Artificial Analysis — Benchmarks par catégorie

Intelligence Index (v4.0)

Les 10 évaluations incluent : GDPval-AA, τ²-Bench Telecom, Terminal-Bench Hard, SciCode, AA-LCR, AA-Omniscience, IFBench, Humanity's Last Exam, GPQA Diamond, CritPt.

Catégorie	Leader	Score/Valeur	Suivez-le
Intelligence	Claude Opus 4.8 (max)	—	GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 (max)
Output Speed	Mercury 2	814 t/s	Granite 4.0 H Small (428 t/s), Step 3.7 Flash, Granite 3.3 8B
Latency	Command A+	0.30s	Qwen3.5 2B (0.36s), Qwen3.5 0.8B, Gemini 2.5 Flash-Lite
Prix ($/M tokens)	Qwen3.5 0.8B	$0.01	Gemma 3n E4B, Nova Micro
Context Window	Llama 4 Scout	10M	Gemini 2.0 Pro Experimental (2M), Gemini 1.5 Pro (Sep)

Nouveautés notables dans le ranking AA

🏃 Mercury 2 — nouveau leader vitesse (814 t/s), modèle à surveiller pour latence critique
⚡ Step 3.7 Flash — présent à la fois en vitesse et prix bas, excellent compromis performance/coût
💰 Granite 4.0 H Small — IBM, Apache 2.0, deuxième en vitesse (428 t/s) — bonne alternative open
🌟 Qwen3.5 0.8B — champion prix à $0.01/M tokens + faible latence — idéal pour preprocessing RAG
📏 Llama 4 Scout — record contexte 10M tokens — unique modèle à cette échelle

🎯 Priorités d'implémentation

🚀 À déployer (court terme)

chopratejas/headroom — Compression RAG 60-95% tokens. Effort: faible. MCP server + library proxy. Impact direct sur coûts LLM.
microsoft/markitdown — Conversion fichiers→Markdown. Effort: faible. Remplace api-convert2md. Essentiel pipeline RAG.
granite4.1 — Modèle Apache 2.0, multi-tailles, enterprise-ready. Effort: faible (Ollama). Alternative ouverte à modèles payants.
run-llama/liteparse — Parser de documents open-source. Effort: faible/moyen. Complément à markitdown pour PDF complexes.
laguna-xs.2 — MoE 33B/3B activé, agentic coding local. Effort: moyen. Idéal inference on-premise.
gemma4 (modèle complet) — Étendre gemma4 STT existant au modèle complet multimodal. Effort: faible.

👁️ À surveiller (moyen terme)

SuperMemory — API mémoire pour era AI. Effort: moyen. Intégration potentielle avec LightRAG.
DeepSeek-V4-Flash — MoE 284B/13B, très efficace. Effort: moyen. Concurrent Nemotron, à comparer benchmarks.
glm-5.1 — SOTA SWE-Bench Pro, MIT license. Effort: faible (Ollama). Meilleur open-source pour coding.
mukul975/cybersecurity-skills — 754 skills sécurité couvrant 5 frameworks. Effort: faible. Alignement avec ai-security.
stepfun/step-3.7-flash — $0.20/M tokens, rapide. Effort: faible. Bon backup économique.
kimi-k2.6 — Long-horizon coding, swarm orchestration. Effort: moyen. Cas d'usage avancé.

🚫 À éviter / retarder

Claude Opus 4.x — Propriétaire, cher ($5-30/M tokens). Déjà via API Anthropic. Pas d'intérêt open-source.
GPT-5.5 — Propriétaire OpenAI. Via API uniquement.
NVIDIA Nemotron 3 Ultra 550B — Modèle massif, pas viable pour on-premise sans GPU dédié >80GB VRAM.
MoneyPrinterTurbo — Intéressant mais hors scope infrastructure actuelle.
LLM-VTuber — Hors scope, niche utilisateur final.
stop-slop — Concret mais limité, intégré dans d'autres outils.

Détails d'implémentation recommandés

🔧 chopratejas/headroom — Compression RAG contextuelle Faible effort

Compresse les outputs d'outils, logs, fichiers et chunks RAG avant qu'ils n'atteignent le LLM. Réduit de 60-95% le nombre de tokens utilisés pour obtenir les mêmes résultats. Disponible en library Python, proxy HTTP et serveur MCP.

Effort : Faible — Bibliothèque Python installable + configuration MCP. Impact direct sur réduction coûts API. Compatible avec Agentic RAG déjà déployé.

github.com/chopratejas/headroom ↗

📄 microsoft/markitdown — Conversion documents → Markdown Faible effort

Outil Microsoft pour convertir fichiers et documents bureautiques en Markdown. 146K étoiles, +16K/semaine. Équipe interne Microsoft maintenue activement.

Effort : Faible — Package pip facile à installer. Remplace/améliore api-convert2md existant. Essentiel pour pipeline RAG document→vector. Déjà testable via PyPI.

github.com/microsoft/markitdown ↗

🏗️ granite4.1 — Famille de modèles IBM Apache 2.0 Faible effort

IBM Granite 4.1 — modèles ready-enterprise Apache 2.0, multilingues, codage, RAG, tool-use, JSON structuré. 3 tailles disponibles (3B, 8B, 30B). 129K pulls sur Ollama.

Effort : Faible — ollama run granite4.1:8b. Alternative ouverte à Mistral-medium 3.5 et autres modèles payants. Licence Apache 2.0, deployment libre garanti.

ollama.com/library/granite4.1 ↗

⚡ laguna-xs.2 — MoE agentic coding local Effort moyen

Laguna XS.2 — MoE 33B total / 3B paramètres actifs par token. Conçu pour agentic coding et travail long-horizon sur machine locale. 14.7K pulls, 7 tags.

Effort : Moyen — Besoin GPU ~24GB VRAM pour inférence confortable. Architecture MoE ultra-efficace (3B activés), bon candidat pour inference on-premise quand les APIs externes sont limitées ou coûteuses.

ollama.com/library/laguna-xs.2 ↗

🔒 mukul975/Anthropic-Cybersecurity-Skills Faible effort

754 skills structurés de cybersécurité cartographiés sur 5 frameworks : MITRE ATT&CK, NIST CSF 2.0, MITRE ATLAS, D3FEND, NIST AI RMF. Compatible Claude Code, Copilot, Codex CLI, Cursor, Gemini CLI.

Effort : Faible — Importer les skills dans Hermes Agent comme skills personnalisées. Complément direct au module ai-security déjà déployé.

github.com/mukul975/Anthropic-Cybersecurity-Skills ↗

📡 Veille Technologique Open-Source