📡 Veille Technologique Open-Source

AILab InfoCEPO · Données collectées le 06 juin 2026 · Sources : OpenRouter, HuggingFace, GitHub Trending, Ollama, Arena AI, Artificial Analysis

📊 Résumé Exécutif

12
Nouveaux modèles LLM majeurs
16
Projets GitHub en ascendance
20
Modèles Ollama nouvellement ajoutés
85
Modèles évalués sur Arena AI

Tendances dominantes

📖 Implémentations récentes déjà déployées (Wiki 03/06/2026)

Ces fonctionnalités sont déjà en production sur infocepo.com. Elles servent de base pour évaluer ce qui est nouveau.

Implémentations déployées

🤖 Modèles LLM — Ajouts significatifs récents

Nouveautés OpenRouter (ajoutés mai-juin 2026)

ModèleFournisseurContextePrix prompt ($/M)Date ajoutNote
nvidia/nemotron-3-ultra-550bNVIDIA1M tokens$0.5004/06Nouveau MoE massive, haute performance raisonnement
nvidia/nemotron-3-ultra-550b:freeNVIDIA1M tokensGratuit04/06À tester Version libre accès du précédent
nvidia/nemotron-3.5-content-safetyNVIDIA128K tokensGratuit04/06Sécurité Filtrage contenu via NVIDIA
qwen/qwen3.7-plusAlibaba1M tokens$0.4003/06Nouveau Qwen Suite à Qwen3.6 déjà déployé
minimax/minimax-m3MiniMax1M tokens$0.3031/05Multimodal Coding & agentic, natif multimodal
stepfun/step-3.7-flashStepFun256K tokens$0.2028/05Économique Flash rapide, bon rapport qualité/prix
anthropic/claude-opus-4.8-fastAnthropic1M tokens$10.0027/05Premium Version rapide d'Opus 4.8
anthropic/claude-opus-4.8Anthropic1M tokens$5.0027/05#1 Arena AI Modèle n°1 WebDev sur Arena
anthropic/claude-opus-4.7-fastAnthropic1M tokens$30.0012/05Version rapide Opus 4.7
qwen/qwen3.7-maxAlibaba1M tokens$1.2521/05Leader Top Intelligence Index AA
x-ai/grok-build-0.1xAI256K tokens$1.0020/05Build-focused Grok variant
google/gemini-3.5-flashGoogle1M tokens$1.5019/05Google Flash rapide 1M contexte

Top téléchargements HuggingFace (mise à jour mai 2026)

ModèleDownloadsLikesTypeRemarques
deepseek-ai/DeepSeek-R15.7M13,374 ❤️Text GenTop likes HF Open-source reasoning model
hexgrad/Kokoro-82M14M6,273 ❤️TTSTTS open-source léger (déjà dans écosystème via gemma4 STT)
deepseek-ai/DeepSeek-V4-Pro5.5M4,671 ❤️Text GenMoE 284B/13B, 1M contexte, 3 modes raisonnement
google/gemma-4-26B-A4B-it12M1,090 ❤️MultimodalImage-text-to-text, agentic workflows, 3 tailles (12b/26b/31b sur Ollama)
Qwen/Qwen3-8B12M1,126 ❤️Text GenPart de la famille Qwen3 (27b/35b aussi disponibles)
Qwen/Qwen3-0.6B22.5M1,299 ❤️EdgeUltra-léger pour déploiement edge/on-device
Qwen/Qwen3-4B17M628 ❤️EdgeBalanced performance/largeur for consumer hardware
openai/gpt-oss-120b4.5M4,853 ❤️Text GenOpenAI OSS 120B parameters, open weights
openai/gpt-oss-20b7.6M4,687 ❤️Text GenOpenAI OSS 20B variant, très populaire
Tongyi-MAI/Z-Image-Turbo948K4,756 ❤️Image GenGenerative AI image turbo (Alibaba)

Modèles Ollama nouvellement ajoutés (derniers 30 jours)

ModèleDescriptionPullsRécencyTags
gemma4Gemma 4 frontier-level, 3 tailles (12b/26b/31b), multimodal + audio12.2M21hvision tools thinking audio cloud e2b e4b 12b 26b 31b
qwen3.6Qwen 3.6 — upgrades agentic coding & thinking preservation2M4jvision tools thinking 27b 35b
nemotron-3-ultraNVIDIA Nemotron 3 Ultra — high-throughput reasoning, agent workflows2,4422jtools thinking cloud
lfm2.5LFM2.5-8B-A1B, edge model fast tool calling on consumer hardware8,6586jtools thinking 8b
minimax-m3MiniMax M3: Coding & Agentic Frontier, 1M context, native multimodal26.9K5jvision tools thinking cloud
granite4.1IBM Granite 4.1 — Apache 2.0, multilingual, coding, RAG, JSON output129.2K2stools 3b 8b 30b
mistral-medium-3.5Mistral flagship 128B weights merging instruction, reasoning, coding31.4K1mvision tools thinking 128b
qwen3.5Qwen 3.5 family — 7 tailles (0.8b à 122b), multimodal13.1M2svision tools thinking cloud 0.8b 2b 4b 9b 27b 35b 122b
kimi-k2.6Kimi K2.6 — open-source multimodal agentic, long-horizon coding286.7K1mvision tools thinking cloud
glm-5.1GLM-5.1 — next-gen agentic engineering, SWE-Bench Pro SOTA2.2M1mtools thinking cloud
nemotron3NVIDIA Nemotron 3 Nano Omni — video/audio/image/text understanding599.5K1mvision tools thinking audio 33b
deepseek-v4-flashDeepSeek-V4-Flash — MoE 284B/13B, 1M token context, efficient reasoning107.1K1mtools thinking cloud
deepseek-v4-proDeepSeek-V4-Pro — frontier MoE, 1M context, 3 reasoning modes105.3K1mtools thinking cloud
laguna-xs.2Laguna XS.2 — MoE 33B/3B activated, agentic coding local14.7K1mtools thinking

🐙 GitHub Trending — Semaine en cours

Top repos par étoiles hebdomadaires

Repository⭐ Total📈 Cette sem.🍴 ForksDescription
microsoft/markitdown146K+16,37610KPython tool converting files & office docs to Markdown
chopratejas/headroom15K+11,993974Compress RAG chunks before LLM — 60-95% fewer tokens
NousResearch/hermes-agent184K+11,33331.6KThe agent that grows with you 🇫🇷
harry0703/MoneyPrinterTurbo80K+11,38811.4KGenerate short videos with one click using AI LLM
affaan-m/ECC209K+10,32632KAgent harness performance optimization system
D4Vinci/Scrapling61K+6,4365.9KAdaptive web scraping framework, single request to full crawl
Leonxlnx/taste-skill35K+6,0442.5KGives your AI good taste — stops boring/generic outputs
supermemoryai/supermemory26K+2,9442.3KMemory engine and app — The Memory API for the AI era
anthropics/claude-code131K+2,89321.1KAgentic coding tool in terminal
can1357/oh-my-pi10.8K+2,317915AI Coding agent for the terminal — hash-anchored edits, LSP
run-llama/liteparse9.2K+2,380537Fast, helpful, open-source document parser
mukul975/Anthropic-Cybersecurity-Skills14.5K+2,4921.7K754 cybersecurity skills — MITRE ATT&CK, NIST CSF 2.0, D3FEND
OpenBMB/VoxCPM27K+4,3983KTokenizer-Free TTS multilingual, creative voice design, cloning
nesquena/hermes-webui13.6K+4,4241.7KHermes WebUI — use Hermes Agent from web or phone
revfactory/harness6.2K+2,030838Meta-skill designing domain-specific agent teams
EveryInc/compound-engineering-plugin20K+1,9331.5KOfficial Compound Engineering plugin for Claude Code/Cursor

Analyse contributor-density

ECC (208K ⭐, 32K forks) : ~5 contributeurs clés dont claude/Copilot bots → moteur AI-augmenté, signal fort.
Headroom (15K ⭐, +12K cette semaine !) : 5 contributeurs (+claude+copilot) → viral organique, compression contexte = game-changer RAG.
Hermes-Agent (184K ⭐, +11K/semaine) : équipe small mais communauté massive, continue croître rapidement.
Markitdown (146K ⭐, +16K/semaine !) : Microsoft, équipe 5 contributeurs, outil essentiel pour pipeline document→markdown.

🦙 Ollama — Nouveautés récentes

Modèles nouvellement disponibles sur Ollama. Privilégier ceux qui ne sont pas encore dans notre écosystème ou qui offrent des capacités distinctes.

Must-have pour notre infrastructure

ModèlePullsTailleIntérêt pour nousDéjà chez nous ?
granite4.1 (3b/8b/30b)129KMultiHaute priorité Apache 2.0, entreprise-ready, multilingue, RAG, JSON structuré — parfait alternative open à modèles propriétaires❌ Nouveau
gemma4 (12b/26b/31b)12.2MMultiHaute priorité Multimodal + audio, frontier-level, agentic — complémentaire au gemma4 STT existant⚠️ STT oui, modèle complet non
glm-5.12.2MÀ tester SOTA SWE-Bench Pro, agentic engineering — excellent pour dev assisté❌ Nouveau
kimi-k2.6286KÀ tester Long-horizon coding, swarm orchestration — cas d'usage spécifique❌ Nouveau
deepseek-v4-flash107K284B/13BPerformance MoE efficient, 1M contexte, 3 modes raisonnement — coût très compétitif❌ Nouveau
laguna-xs.214.7K33B/3BLocal MoE ultra-léger (3B activé), agentic coding local — idéal pour inference on-premise❌ Nouveau
nemotron-cascade-2121K30B/3BLocal MoE ouvert NVIDIA, strong reasoning & agentic — alternative locale à Mistral-medium❌ Nouveau
lfm2.5 (8b)8.7K8BEdge Edge model, fast tool calling, hardware consommateur — bon candidat embarqué❌ Nouveau
medgemma / medgemma1.538K / 20K4B / 27BDomaine Spécialisé médical texte/image — utile si projets santé❌ Nouveau
minimax-m2.72.2MCoding Coding/agentic/productivité — alternative MiniMax au m3❌ Nouveau

🏆 Arena AI — Leaderboard Code/WebDev

Classement des meilleurs modèles IA pour le développement web — 352,929 votes, 85 modèles évalués au 05/06/2026.

Top 10 Code Arena (WebDev)

#ModèleProviderLicenseScoreTrend
1claude-opus-4-7-thinkingAnthropicProprietary1567↕ 1
2claude-opus-4-7AnthropicProprietary1557↕ 1
3claude-opus-4-8-thinkingAnthropicProprietary1552↑ 3
4claude-opus-4-8AnthropicProprietary1545↑ 2
5claude-opus-4-6-thinkingAnthropicProprietary1543↔ 2
gpt-5.5-xhigh (codex)OpenAIProprietary~1520Entrée top 10
qwen3.7-max-20260517AlibabaProprietary~1500Montée rapide
glm-5.1Z.aiMIT~1480Open source! 🏆
minimax-m3MiniMaxProprietary~1470Nouveau
kimi-k2.6MoonshotMIT~1460Open source!

Observations clés

📈 Artificial Analysis — Benchmarks par catégorie

Intelligence Index (v4.0)

Les 10 évaluations incluent : GDPval-AA, τ²-Bench Telecom, Terminal-Bench Hard, SciCode, AA-LCR, AA-Omniscience, IFBench, Humanity's Last Exam, GPQA Diamond, CritPt.

CatégorieLeaderScore/ValeurSuivez-le
IntelligenceClaude Opus 4.8 (max)GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 (max)
Output SpeedMercury 2814 t/sGranite 4.0 H Small (428 t/s), Step 3.7 Flash, Granite 3.3 8B
LatencyCommand A+0.30sQwen3.5 2B (0.36s), Qwen3.5 0.8B, Gemini 2.5 Flash-Lite
Prix ($/M tokens)Qwen3.5 0.8B$0.01Gemma 3n E4B, Nova Micro
Context WindowLlama 4 Scout10MGemini 2.0 Pro Experimental (2M), Gemini 1.5 Pro (Sep)

Nouveautés notables dans le ranking AA

🎯 Priorités d'implémentation

🚀 À déployer (court terme)

  • chopratejas/headroom — Compression RAG 60-95% tokens. Effort: faible. MCP server + library proxy. Impact direct sur coûts LLM.
  • microsoft/markitdown — Conversion fichiers→Markdown. Effort: faible. Remplace api-convert2md. Essentiel pipeline RAG.
  • granite4.1 — Modèle Apache 2.0, multi-tailles, enterprise-ready. Effort: faible (Ollama). Alternative ouverte à modèles payants.
  • run-llama/liteparse — Parser de documents open-source. Effort: faible/moyen. Complément à markitdown pour PDF complexes.
  • laguna-xs.2 — MoE 33B/3B activé, agentic coding local. Effort: moyen. Idéal inference on-premise.
  • gemma4 (modèle complet) — Étendre gemma4 STT existant au modèle complet multimodal. Effort: faible.

👁️ À surveiller (moyen terme)

  • SuperMemory — API mémoire pour era AI. Effort: moyen. Intégration potentielle avec LightRAG.
  • DeepSeek-V4-Flash — MoE 284B/13B, très efficace. Effort: moyen. Concurrent Nemotron, à comparer benchmarks.
  • glm-5.1 — SOTA SWE-Bench Pro, MIT license. Effort: faible (Ollama). Meilleur open-source pour coding.
  • mukul975/cybersecurity-skills — 754 skills sécurité couvrant 5 frameworks. Effort: faible. Alignement avec ai-security.
  • stepfun/step-3.7-flash — $0.20/M tokens, rapide. Effort: faible. Bon backup économique.
  • kimi-k2.6 — Long-horizon coding, swarm orchestration. Effort: moyen. Cas d'usage avancé.

🚫 À éviter / retarder

  • Claude Opus 4.x — Propriétaire, cher ($5-30/M tokens). Déjà via API Anthropic. Pas d'intérêt open-source.
  • GPT-5.5 — Propriétaire OpenAI. Via API uniquement.
  • NVIDIA Nemotron 3 Ultra 550B — Modèle massif, pas viable pour on-premise sans GPU dédié >80GB VRAM.
  • MoneyPrinterTurbo — Intéressant mais hors scope infrastructure actuelle.
  • LLM-VTuber — Hors scope, niche utilisateur final.
  • stop-slop — Concret mais limité, intégré dans d'autres outils.

Détails d'implémentation recommandés

🔧 chopratejas/headroom — Compression RAG contextuelle Faible effort
Compresse les outputs d'outils, logs, fichiers et chunks RAG avant qu'ils n'atteignent le LLM. Réduit de 60-95% le nombre de tokens utilisés pour obtenir les mêmes résultats. Disponible en library Python, proxy HTTP et serveur MCP.

Effort : Faible — Bibliothèque Python installable + configuration MCP. Impact direct sur réduction coûts API. Compatible avec Agentic RAG déjà déployé.

📄 microsoft/markitdown — Conversion documents → Markdown Faible effort
Outil Microsoft pour convertir fichiers et documents bureautiques en Markdown. 146K étoiles, +16K/semaine. Équipe interne Microsoft maintenue activement.

Effort : Faible — Package pip facile à installer. Remplace/améliore api-convert2md existant. Essentiel pour pipeline RAG document→vector. Déjà testable via PyPI.

🏗️ granite4.1 — Famille de modèles IBM Apache 2.0 Faible effort
IBM Granite 4.1 — modèles ready-enterprise Apache 2.0, multilingues, codage, RAG, tool-use, JSON structuré. 3 tailles disponibles (3B, 8B, 30B). 129K pulls sur Ollama.

Effort : Faible — ollama run granite4.1:8b. Alternative ouverte à Mistral-medium 3.5 et autres modèles payants. Licence Apache 2.0, deployment libre garanti.

⚡ laguna-xs.2 — MoE agentic coding local Effort moyen
Laguna XS.2 — MoE 33B total / 3B paramètres actifs par token. Conçu pour agentic coding et travail long-horizon sur machine locale. 14.7K pulls, 7 tags.

Effort : Moyen — Besoin GPU ~24GB VRAM pour inférence confortable. Architecture MoE ultra-efficace (3B activés), bon candidat pour inference on-premise quand les APIs externes sont limitées ou coûteuses.

🔒 mukul975/Anthropic-Cybersecurity-Skills Faible effort
754 skills structurés de cybersécurité cartographiés sur 5 frameworks : MITRE ATT&CK, NIST CSF 2.0, MITRE ATLAS, D3FEND, NIST AI RMF. Compatible Claude Code, Copilot, Codex CLI, Cursor, Gemini CLI.

Effort : Faible — Importer les skills dans Hermes Agent comme skills personnalisées. Complément direct au module ai-security déjà déployé.