Ces fonctionnalités sont déjà en production sur infocepo.com. Elles servent de base pour évaluer ce qui est nouveau.
| Modèle | Fournisseur | Contexte | Prix prompt ($/M) | Date ajout | Note |
|---|---|---|---|---|---|
| nvidia/nemotron-3-ultra-550b | NVIDIA | 1M tokens | $0.50 | 04/06 | Nouveau MoE massive, haute performance raisonnement |
| nvidia/nemotron-3-ultra-550b:free | NVIDIA | 1M tokens | Gratuit | 04/06 | À tester Version libre accès du précédent |
| nvidia/nemotron-3.5-content-safety | NVIDIA | 128K tokens | Gratuit | 04/06 | Sécurité Filtrage contenu via NVIDIA |
| qwen/qwen3.7-plus | Alibaba | 1M tokens | $0.40 | 03/06 | Nouveau Qwen Suite à Qwen3.6 déjà déployé |
| minimax/minimax-m3 | MiniMax | 1M tokens | $0.30 | 31/05 | Multimodal Coding & agentic, natif multimodal |
| stepfun/step-3.7-flash | StepFun | 256K tokens | $0.20 | 28/05 | Économique Flash rapide, bon rapport qualité/prix |
| anthropic/claude-opus-4.8-fast | Anthropic | 1M tokens | $10.00 | 27/05 | Premium Version rapide d'Opus 4.8 |
| anthropic/claude-opus-4.8 | Anthropic | 1M tokens | $5.00 | 27/05 | #1 Arena AI Modèle n°1 WebDev sur Arena |
| anthropic/claude-opus-4.7-fast | Anthropic | 1M tokens | $30.00 | 12/05 | Version rapide Opus 4.7 |
| qwen/qwen3.7-max | Alibaba | 1M tokens | $1.25 | 21/05 | Leader Top Intelligence Index AA |
| x-ai/grok-build-0.1 | xAI | 256K tokens | $1.00 | 20/05 | Build-focused Grok variant |
| google/gemini-3.5-flash | 1M tokens | $1.50 | 19/05 | Google Flash rapide 1M contexte |
| Modèle | Downloads | Likes | Type | Remarques |
|---|---|---|---|---|
| deepseek-ai/DeepSeek-R1 | 5.7M | 13,374 ❤️ | Text Gen | Top likes HF Open-source reasoning model |
| hexgrad/Kokoro-82M | 14M | 6,273 ❤️ | TTS | TTS open-source léger (déjà dans écosystème via gemma4 STT) |
| deepseek-ai/DeepSeek-V4-Pro | 5.5M | 4,671 ❤️ | Text Gen | MoE 284B/13B, 1M contexte, 3 modes raisonnement |
| google/gemma-4-26B-A4B-it | 12M | 1,090 ❤️ | Multimodal | Image-text-to-text, agentic workflows, 3 tailles (12b/26b/31b sur Ollama) |
| Qwen/Qwen3-8B | 12M | 1,126 ❤️ | Text Gen | Part de la famille Qwen3 (27b/35b aussi disponibles) |
| Qwen/Qwen3-0.6B | 22.5M | 1,299 ❤️ | Edge | Ultra-léger pour déploiement edge/on-device |
| Qwen/Qwen3-4B | 17M | 628 ❤️ | Edge | Balanced performance/largeur for consumer hardware |
| openai/gpt-oss-120b | 4.5M | 4,853 ❤️ | Text Gen | OpenAI OSS 120B parameters, open weights |
| openai/gpt-oss-20b | 7.6M | 4,687 ❤️ | Text Gen | OpenAI OSS 20B variant, très populaire |
| Tongyi-MAI/Z-Image-Turbo | 948K | 4,756 ❤️ | Image Gen | Generative AI image turbo (Alibaba) |
| Modèle | Description | Pulls | Récency | Tags |
|---|---|---|---|---|
| gemma4 | Gemma 4 frontier-level, 3 tailles (12b/26b/31b), multimodal + audio | 12.2M | 21h | vision tools thinking audio cloud e2b e4b 12b 26b 31b |
| qwen3.6 | Qwen 3.6 — upgrades agentic coding & thinking preservation | 2M | 4j | vision tools thinking 27b 35b |
| nemotron-3-ultra | NVIDIA Nemotron 3 Ultra — high-throughput reasoning, agent workflows | 2,442 | 2j | tools thinking cloud |
| lfm2.5 | LFM2.5-8B-A1B, edge model fast tool calling on consumer hardware | 8,658 | 6j | tools thinking 8b |
| minimax-m3 | MiniMax M3: Coding & Agentic Frontier, 1M context, native multimodal | 26.9K | 5j | vision tools thinking cloud |
| granite4.1 | IBM Granite 4.1 — Apache 2.0, multilingual, coding, RAG, JSON output | 129.2K | 2s | tools 3b 8b 30b |
| mistral-medium-3.5 | Mistral flagship 128B weights merging instruction, reasoning, coding | 31.4K | 1m | vision tools thinking 128b |
| qwen3.5 | Qwen 3.5 family — 7 tailles (0.8b à 122b), multimodal | 13.1M | 2s | vision tools thinking cloud 0.8b 2b 4b 9b 27b 35b 122b |
| kimi-k2.6 | Kimi K2.6 — open-source multimodal agentic, long-horizon coding | 286.7K | 1m | vision tools thinking cloud |
| glm-5.1 | GLM-5.1 — next-gen agentic engineering, SWE-Bench Pro SOTA | 2.2M | 1m | tools thinking cloud |
| nemotron3 | NVIDIA Nemotron 3 Nano Omni — video/audio/image/text understanding | 599.5K | 1m | vision tools thinking audio 33b |
| deepseek-v4-flash | DeepSeek-V4-Flash — MoE 284B/13B, 1M token context, efficient reasoning | 107.1K | 1m | tools thinking cloud |
| deepseek-v4-pro | DeepSeek-V4-Pro — frontier MoE, 1M context, 3 reasoning modes | 105.3K | 1m | tools thinking cloud |
| laguna-xs.2 | Laguna XS.2 — MoE 33B/3B activated, agentic coding local | 14.7K | 1m | tools thinking |
| Repository | ⭐ Total | 📈 Cette sem. | 🍴 Forks | Description |
|---|---|---|---|---|
| microsoft/markitdown | 146K | +16,376 | 10K | Python tool converting files & office docs to Markdown |
| chopratejas/headroom | 15K | +11,993 | 974 | Compress RAG chunks before LLM — 60-95% fewer tokens |
| NousResearch/hermes-agent | 184K | +11,333 | 31.6K | The agent that grows with you 🇫🇷 |
| harry0703/MoneyPrinterTurbo | 80K | +11,388 | 11.4K | Generate short videos with one click using AI LLM |
| affaan-m/ECC | 209K | +10,326 | 32K | Agent harness performance optimization system |
| D4Vinci/Scrapling | 61K | +6,436 | 5.9K | Adaptive web scraping framework, single request to full crawl |
| Leonxlnx/taste-skill | 35K | +6,044 | 2.5K | Gives your AI good taste — stops boring/generic outputs |
| supermemoryai/supermemory | 26K | +2,944 | 2.3K | Memory engine and app — The Memory API for the AI era |
| anthropics/claude-code | 131K | +2,893 | 21.1K | Agentic coding tool in terminal |
| can1357/oh-my-pi | 10.8K | +2,317 | 915 | AI Coding agent for the terminal — hash-anchored edits, LSP |
| run-llama/liteparse | 9.2K | +2,380 | 537 | Fast, helpful, open-source document parser |
| mukul975/Anthropic-Cybersecurity-Skills | 14.5K | +2,492 | 1.7K | 754 cybersecurity skills — MITRE ATT&CK, NIST CSF 2.0, D3FEND |
| OpenBMB/VoxCPM | 27K | +4,398 | 3K | Tokenizer-Free TTS multilingual, creative voice design, cloning |
| nesquena/hermes-webui | 13.6K | +4,424 | 1.7K | Hermes WebUI — use Hermes Agent from web or phone |
| revfactory/harness | 6.2K | +2,030 | 838 | Meta-skill designing domain-specific agent teams |
| EveryInc/compound-engineering-plugin | 20K | +1,933 | 1.5K | Official Compound Engineering plugin for Claude Code/Cursor |
ECC (208K ⭐, 32K forks) : ~5 contributeurs clés dont claude/Copilot bots → moteur AI-augmenté, signal fort.
Headroom (15K ⭐, +12K cette semaine !) : 5 contributeurs (+claude+copilot) → viral organique, compression contexte = game-changer RAG.
Hermes-Agent (184K ⭐, +11K/semaine) : équipe small mais communauté massive, continue croître rapidement.
Markitdown (146K ⭐, +16K/semaine !) : Microsoft, équipe 5 contributeurs, outil essentiel pour pipeline document→markdown.
Modèles nouvellement disponibles sur Ollama. Privilégier ceux qui ne sont pas encore dans notre écosystème ou qui offrent des capacités distinctes.
| Modèle | Pulls | Taille | Intérêt pour nous | Déjà chez nous ? |
|---|---|---|---|---|
| granite4.1 (3b/8b/30b) | 129K | Multi | Haute priorité Apache 2.0, entreprise-ready, multilingue, RAG, JSON structuré — parfait alternative open à modèles propriétaires | ❌ Nouveau |
| gemma4 (12b/26b/31b) | 12.2M | Multi | Haute priorité Multimodal + audio, frontier-level, agentic — complémentaire au gemma4 STT existant | ⚠️ STT oui, modèle complet non |
| glm-5.1 | 2.2M | — | À tester SOTA SWE-Bench Pro, agentic engineering — excellent pour dev assisté | ❌ Nouveau |
| kimi-k2.6 | 286K | — | À tester Long-horizon coding, swarm orchestration — cas d'usage spécifique | ❌ Nouveau |
| deepseek-v4-flash | 107K | 284B/13B | Performance MoE efficient, 1M contexte, 3 modes raisonnement — coût très compétitif | ❌ Nouveau |
| laguna-xs.2 | 14.7K | 33B/3B | Local MoE ultra-léger (3B activé), agentic coding local — idéal pour inference on-premise | ❌ Nouveau |
| nemotron-cascade-2 | 121K | 30B/3B | Local MoE ouvert NVIDIA, strong reasoning & agentic — alternative locale à Mistral-medium | ❌ Nouveau |
| lfm2.5 (8b) | 8.7K | 8B | Edge Edge model, fast tool calling, hardware consommateur — bon candidat embarqué | ❌ Nouveau |
| medgemma / medgemma1.5 | 38K / 20K | 4B / 27B | Domaine Spécialisé médical texte/image — utile si projets santé | ❌ Nouveau |
| minimax-m2.7 | 2.2M | — | Coding Coding/agentic/productivité — alternative MiniMax au m3 | ❌ Nouveau |
Classement des meilleurs modèles IA pour le développement web — 352,929 votes, 85 modèles évalués au 05/06/2026.
| # | Modèle | Provider | License | Score | Trend |
|---|---|---|---|---|---|
| 1 | claude-opus-4-7-thinking | Anthropic | Proprietary | 1567 | ↕ 1 |
| 2 | claude-opus-4-7 | Anthropic | Proprietary | 1557 | ↕ 1 |
| 3 | claude-opus-4-8-thinking | Anthropic | Proprietary | 1552 | ↑ 3 |
| 4 | claude-opus-4-8 | Anthropic | Proprietary | 1545 | ↑ 2 |
| 5 | claude-opus-4-6-thinking | Anthropic | Proprietary | 1543 | ↔ 2 |
| — | gpt-5.5-xhigh (codex) | OpenAI | Proprietary | ~1520 | Entrée top 10 |
| — | qwen3.7-max-20260517 | Alibaba | Proprietary | ~1500 | Montée rapide |
| — | glm-5.1 | Z.ai | MIT | ~1480 | Open source! 🏆 |
| — | minimax-m3 | MiniMax | Proprietary | ~1470 | Nouveau |
| — | kimi-k2.6 | Moonshot | MIT | ~1460 | Open source! |
Les 10 évaluations incluent : GDPval-AA, τ²-Bench Telecom, Terminal-Bench Hard, SciCode, AA-LCR, AA-Omniscience, IFBench, Humanity's Last Exam, GPQA Diamond, CritPt.
| Catégorie | Leader | Score/Valeur | Suivez-le |
|---|---|---|---|
| Intelligence | Claude Opus 4.8 (max) | — | GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 (max) |
| Output Speed | Mercury 2 | 814 t/s | Granite 4.0 H Small (428 t/s), Step 3.7 Flash, Granite 3.3 8B |
| Latency | Command A+ | 0.30s | Qwen3.5 2B (0.36s), Qwen3.5 0.8B, Gemini 2.5 Flash-Lite |
| Prix ($/M tokens) | Qwen3.5 0.8B | $0.01 | Gemma 3n E4B, Nova Micro |
| Context Window | Llama 4 Scout | 10M | Gemini 2.0 Pro Experimental (2M), Gemini 1.5 Pro (Sep) |
Effort : Faible — Bibliothèque Python installable + configuration MCP. Impact direct sur réduction coûts API. Compatible avec Agentic RAG déjà déployé.
Effort : Faible — Package pip facile à installer. Remplace/améliore api-convert2md existant. Essentiel pour pipeline RAG document→vector. Déjà testable via PyPI.
Effort : Faible — ollama run granite4.1:8b. Alternative ouverte à Mistral-medium 3.5 et autres modèles payants. Licence Apache 2.0, deployment libre garanti.
Effort : Moyen — Besoin GPU ~24GB VRAM pour inférence confortable. Architecture MoE ultra-efficace (3B activés), bon candidat pour inference on-premise quand les APIs externes sont limitées ou coûteuses.
Effort : Faible — Importer les skills dans Hermes Agent comme skills personnalisées. Complément direct au module ai-security déjà déployé.