Aller au contenu principal

Catalogue des Modèles LLM as a Service

Vue d'ensemble

Cloud Temple LLMaaS propose 56 modèles de langage large soigneusement sélectionnés et optimisés pour répondre aux exigences SecNumCloud les plus strictes. Notre catalogue couvre l'ensemble du spectre, des micro-modèles ultra-efficaces aux modèles extrêmement volumineux.

Statistiques Globales

MétriqueValeur
Nombre total de modèles56 modèles
Contexte minimum512 tokens
Contexte maximum1,000,000 tokens
ConformitéSecNumCloud ✅ HDS ✅ Souveraineté ✅ C5 ✅
Localisation100% France 🇫🇷

Tarification

Type d'utilisationPrix
Tokens d'entrée1.8€ / million de tokens
Tokens de sortie8€ / million de tokens
Raisonnement avancé8€ / million de tokens
Reranking de documents4€ / million de tokens rerankés
Batch asynchrone (input)0.9€ / million de tokens
Batch asynchrone (output)4€ / million de tokens

Modèles Chat & Raisonnement

Modèles généralistes pour le dialogue, l'analyse, le raisonnement et les tâches multilingues.

cogito:32b

Deep Cogito • 32B paramètres • Contexte : 32,000 tokens

Modèle de raisonnement analytique avancé, conçu pour la décomposition de problèmes complexes et la vérification logique.

Spécifications techniques:

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Agent Raisonnement Compréhension Analyse

Cas d'usage :

  • Analyse de scénarios multi-factoriels
  • Résolution de problèmes scientifiques avec démonstration formelle
  • Systèmes experts (juridique, médical, technique)

gemma3:27b

Google • 27B paramètres • Contexte : 120,000 tokens

Modèle multimodal de Google avec vision intégrée et support de 140+ langues. Contexte de 120K tokens.

Spécifications techniques:

  • Vitesse : 23 tokens/seconde
  • Consommation : 5.80 kWh/million tokens
  • Licence : Google Gemma Terms of Use
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Vision Agent Grand Contexte

Cas d'usage :

  • Analyse de documents avec contexte étendu (120K tokens)
  • Traitement simultané d'images et de texte
  • Extraction structurée à partir de PDF et documents scannés

glm-4.7-flash:30b

Zhipu AI • 30B paramètres • Contexte : 120,000 tokens

Modèle rapide avec un excellent équilibre performance/latence pour le raisonnement et l'analyse.

Spécifications techniques:

  • Vitesse : 88 tokens/seconde
  • Consommation : 1.58 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Agent Rapide Grand Contexte Multilingue

Cas d'usage :

  • Assistants conversationnels rapides
  • Analyse de documents longs (120k tokens)
  • Tâches de raisonnement avec faible latence

gpt-oss:120b

OpenAI • 120B paramètres • Contexte : 120,000 tokens

Modèle open-weight de pointe d'OpenAI avec raisonnement configurable et chaîne de pensée transparente.

Spécifications techniques:

  • Vitesse : 94 tokens/seconde
  • Consommation : 2.37 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : MoE Agent Raisonnement Open-Source Très Large

Cas d'usage :

  • Agents conversationnels avancés avec raisonnement complexe
  • Applications nécessitant une transparence du processus de raisonnement
  • Scénarios commerciaux nécessitant une licence permissive

gpt-oss:20b

OpenAI • 20B paramètres • Contexte : 120,000 tokens

Version compacte du modèle OpenAI, optimisée pour l'inférence rapide avec de bonnes capacités de raisonnement.

Spécifications techniques:

  • Vitesse : 41 tokens/seconde
  • Consommation : 3.25 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : MoE Agent Raisonnement Open-Source Compact Rapide

Cas d'usage :

  • Inférence rapide avec bonnes capacités de raisonnement
  • Cas d'usage agentiques (appel de fonctions, navigation web, exécution de code)
  • Applications à budget de calcul limité

llama3.3:70b

Meta • 70B paramètres • Contexte : 132,000 tokens

Modèle multilingue de Meta, excellent en dialogue naturel et compréhension nuancée dans 8 langues.

Spécifications techniques:

Capacités: ✅ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Agent Dialogue Multilingue

Cas d'usage :

  • Chatbots multilingues (8 langues)
  • Analyse de documents juridiques ou techniques volumineux
  • Génération de textes structurés avec fidélité stylistique

ministral-3:14b

Mistral AI • 14B paramètres • Contexte : 250,000 tokens

Le plus puissant de la famille Ministral, avec raisonnement et codage avancés. Contexte de 250K tokens.

Spécifications techniques:

  • Vitesse : 28 tokens/seconde
  • Consommation : 4.74 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Haute Performance Raisonnement Code

Cas d'usage :

  • Résolution de problèmes complexes
  • Assistants de codage et d'ingénierie
  • Analyse approfondie de documents avec raisonnement

ministral-3:3b

Mistral AI • 3B paramètres • Contexte : 250,000 tokens

Modèle compact Mistral, performant malgré sa petite taille. Contexte de 250K tokens.

Spécifications techniques:

  • Vitesse : 22 tokens/seconde
  • Consommation : 1.75 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Compact Efficient

Cas d'usage :

  • Assistants personnels réactifs
  • Classification et routage rapides
  • Tâches simples avec grand contexte

ministral-3:8b

Mistral AI • 8B paramètres • Contexte : 250,000 tokens

Modèle intermédiaire Ministral avec un excellent compromis performance/vitesse. Contexte de 250K tokens.

Spécifications techniques:

  • Vitesse : 40 tokens/seconde
  • Consommation : 3.33 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Efficient Raisonnement

Cas d'usage :

  • Assistants conversationnels avancés
  • Analyse de documents et extraction d'informations
  • Bon compromis vitesse/qualité

mistral-small3.2:24b

Mistral AI • 24B paramètres • Contexte : 128,000 tokens

Modèle Mistral avec suivi d'instructions amélioré, function calling robuste et capacités vision. Détection de contenus problématiques intégrée.

Spécifications techniques:

  • Vitesse : 28 tokens/seconde
  • Consommation : 5.05 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ❌ Raisonnement • ✅ Sécurité

Tags : Vision Agent Sécurité Instruction Following

Cas d'usage :

  • Agents conversationnels fiables avec suivi d'instructions précis
  • Intégration d'outils externes via function calling
  • Applications nécessitant filtrage de sécurité natif

mistral-small4:119b

Mistral AI • 119B paramètres • Contexte : 262,144 tokens

Modèle Mistral haute performance (119B) avec vision, sécurité intégrée et contexte de 262K tokens. Rapide (100 t/s).

Spécifications techniques:

  • Vitesse : 100 tokens/seconde
  • Consommation : 2.00 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ❌ Raisonnement • ✅ Sécurité

Tags : Vision Agent Sécurité Grand Contexte Rapide

Cas d'usage :

  • Agents conversationnels haute performance avec vision
  • Analyse de documents très longs (262K tokens)
  • Applications critiques nécessitant fiabilité et sécurité

nemotron-3-super:120b

NVIDIA • 120B paramètres • Contexte : 1,000,000 tokens

Modèle NVIDIA optimisé pour les agents collaboratifs, le raisonnement long et les charges de travail à fort volume. Contexte de 1M tokens.

Spécifications techniques:

  • Vitesse : 72 tokens/seconde
  • Consommation : 1.93 kWh/million tokens
  • Licence : NVIDIA Community License
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Agent Raisonnement Grand Contexte

Cas d'usage :

  • Agents autonomes avec appels d'outils multiples
  • Automatisation de workflows à fort volume
  • Analyse de documents longs avec extraction précise

nemotron-cascade:30b

NVIDIA • 30B paramètres • Contexte : 1,000,000 tokens

Modèle NVIDIA spécialisé dans les mathématiques (médaille d'or IMO 2025) et la décomposition de problèmes. Contexte 1M tokens.

Spécifications techniques:

  • Vitesse : 130 tokens/seconde
  • Consommation : 1.93 kWh/million tokens
  • Licence : NVIDIA Community License
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Agent Raisonnement Grand Contexte Maths

Cas d'usage :

  • Résolution de problèmes mathématiques complexes
  • Agents avec appels d'outils multiples
  • Analyse de documents longs

nemotron3-nano:30b

NVIDIA • 30B paramètres • Contexte : 1,000,000 tokens

Modèle NVIDIA ultra-rapide (160 t/s) avec raisonnement et function calling. Contexte de 1M tokens.

Spécifications techniques:

  • Vitesse : 160 tokens/seconde
  • Consommation : 1.56 kWh/million tokens
  • Licence : NVIDIA Community License
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Agent Raisonnement Grand Contexte Rapide

Cas d'usage :

  • Agents autonomes nécessitant une réponse rapide
  • Raisonnement logique et résolution de problèmes
  • Analyse de documents longs avec extraction précise

olmo-3:32b

AllenAI • 32B paramètres • Contexte : 65,536 tokens

Premier modèle de raisonnement entièrement ouvert à cette échelle. Transparence totale (données, code, poids).

Spécifications techniques:

  • Vitesse : 22 tokens/seconde
  • Consommation : 5.98 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Open-Source Grand Contexte Raisonnement Transparent Code Haute Performance

Cas d'usage :

  • Raisonnement complexe et résolution de problèmes multi-étapes
  • Développement logiciel avec transparence du processus de décision
  • Tâches critiques nécessitant une auditabilité complète

olmo-3:7b

AllenAI • 7B paramètres • Contexte : 65,536 tokens

Modèle entièrement ouvert et efficient, excellent en mathématiques et programmation avec transparence totale.

Spécifications techniques:

  • Vitesse : 35 tokens/seconde
  • Consommation : 1.13 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Open-Source Grand Contexte Transparent Efficient Maths Code

Cas d'usage :

  • Recherche académique nécessitant une reproductibilité totale
  • Programmation et résolution de problèmes mathématiques
  • Analyse de documents avec traçabilité complète

qwen3-2507-think:4b

Qwen Team • 4B paramètres • Contexte : 250,000 tokens

Modèle compact optimisé pour le raisonnement profond (logique, maths, science, code). Contexte de 250K tokens.

Spécifications techniques:

  • Vitesse : 55 tokens/seconde
  • Consommation : 2.42 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Agent Raisonnement Grand Contexte Compact Rapide

Cas d'usage :

  • Raisonnement complexe (logique, maths, science, code)
  • Agents avec grand historique de conversation (250K tokens)
  • Analyse de documents volumineux avec raisonnement profond

qwen3-2507:235b

Qwen Team • 235B paramètres • Contexte : 200,000 tokens

Modèle le plus puissant du catalogue (235B paramètres, 22B actifs). Excelle en mathématiques, codage et raisonnement logique.

Spécifications techniques:

  • Vitesse : 56 tokens/seconde
  • Consommation : 3.97 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : MoE Agent Raisonnement Très Large

Cas d'usage :

  • Résolution de problèmes mathématiques et logiques complexes
  • Tâches nécessitant une vaste base de connaissances
  • Assistant de codage avancé

qwen3-omni:30b

Qwen Team • 30B paramètres • Contexte : 32,768 tokens

Modèle omnimodal natif — comprend simultanément le texte, l'image, la vidéo et l'audio.

Spécifications techniques:

  • Vitesse : 19 tokens/seconde
  • Consommation : 7.43 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Omni Audio Vision Agent Multimodal

Cas d'usage :

  • Interactions multimodales (texte + image + audio + vidéo)
  • Analyse vidéo et audio combinée
  • Assistants intelligents de nouvelle génération

qwen3.5:0.8b

Qwen Team • 0.8B paramètres • Contexte : 250,000 tokens

Modèle ultra-léger avec un contexte exceptionnel de 250K tokens — remarquable pour un modèle de cette taille.

Spécifications techniques:

  • Vitesse : 16 tokens/seconde
  • Consommation : 2.39 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Compact Efficient Grand Contexte Multilingue

Cas d'usage :

  • Traitement de texte avec très grand contexte (250K tokens)
  • Classification et tri rapide
  • Assistants légers avec grand historique

qwen3.5:4b

Qwen Team • 4B paramètres • Contexte : 250,000 tokens

Modèle Qwen3.5 compact avec un bon compromis performance/efficacité et contexte de 250K tokens.

Spécifications techniques:

  • Vitesse : 37 tokens/seconde
  • Consommation : 3.64 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Compact Efficient Grand Contexte Multilingue

Cas d'usage :

  • Assistants conversationnels avec grand contexte
  • Résumé de texte et classification
  • Tâches de codage simples

qwen3.5:9b

Qwen Team • 9B paramètres • Contexte : 250,000 tokens

Modèle Qwen3.5 intermédiaire avec raisonnement solide et contexte étendu à 250K tokens.

Spécifications techniques:

  • Vitesse : 32 tokens/seconde
  • Consommation : 4.23 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Efficient Grand Contexte Multilingue Raisonnement

Cas d'usage :

  • Assistants conversationnels avancés
  • Analyse de documents et extraction d'informations
  • Tâches de raisonnement de complexité moyenne

qwen3.6:27b

Qwen Team • 27B paramètres • Contexte : 1,000,000 tokens

Modèle généraliste de référence avec un contexte natif de 1M tokens. Excelle en raisonnement, suivi d'instructions et multilingue.

Spécifications techniques:

  • Vitesse : 80 tokens/seconde
  • Consommation : 2.78 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Agent Grand Contexte Multilingue Vision Raisonnement

Cas d'usage :

  • Assistants polyvalents avec suivi d'instructions précis
  • Analyse de documents très volumineux (1M tokens)
  • Applications multilingues avec raisonnement logique
  • Programmation et génération de code

qwen3:0.6b

Qwen Team • 0.6B paramètres • Contexte : 40,000 tokens

Micro-modèle ultra-rapide pour les tâches simples et le routage. 40K tokens de contexte.

Spécifications techniques:

  • Vitesse : 46 tokens/seconde
  • Consommation : 1.33 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Compact Rapide Efficient Multilingue

Cas d'usage :

  • Classification et tri rapide
  • Assistants légers avec faible latence
  • Routage dans des architectures multi-modèles

Modèles Programmation & Agents

Modèles spécialisés dans le code, l'ingénierie logicielle et les agents autonomes.

devstral-small-2:24b

Mistral AI & All Hands AI • 24B paramètres • Contexte : 200,000 tokens

Modèle agentique de pointe pour l'ingénierie logicielle. Performances proches des modèles >100B pour le code. Vision intégrée.

Spécifications techniques:

  • Vitesse : 33 tokens/seconde
  • Consommation : 4.23 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ❌ Raisonnement • ✅ Sécurité

Tags : Agent Programmation Vision Open-Source Grand Contexte Rapide

Cas d'usage :

  • Agents de codage autonomes
  • Refactoring rapide de code
  • Tâches d'ingénierie itératives

functiongemma:270m

Google • 270M paramètres • Contexte : 32,768 tokens

Micro-modèle spécialisé dans la détection d'appels de fonctions. Idéal comme routeur dans une architecture agentique.

Spécifications techniques:

  • Vitesse : 40 tokens/seconde
  • Consommation : 0.97 kWh/million tokens
  • Licence : Google Gemma Terms of Use
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Agent Compact Efficient Function Calling

Cas d'usage :

  • Routeur d'outils dans une architecture agentique
  • Détection d'intentions d'appels de fonctions
  • Pré-filtrage rapide avant routage

qwen-coder-next:80b

Qwen Team • 80B paramètres • Contexte : 250,000 tokens

Modèle de pointe pour le code et le raisonnement complexe. Contexte de 250K tokens.

Spécifications techniques:

  • Vitesse : 97 tokens/seconde
  • Consommation : 2.29 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Agent Programmation MoE Grand Contexte

Cas d'usage :

  • Assistant de programmation avancé (échelle dépôt)
  • Analyse et refactorisation de code complexe
  • Agents autonomes d'ingénierie logicielle

qwen3-next:80b

Qwen Team • 80B paramètres • Contexte : 250,000 tokens

Modèle polyvalent 80B optimisé pour les grands contextes, le function calling et le raisonnement structuré.

Spécifications techniques:

  • Vitesse : 67 tokens/seconde
  • Consommation : 2.09 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Agent Grand Contexte MoE

Cas d'usage :

  • Agents conversationnels avancés avec intégration d'outils
  • Analyse de documents très volumineux
  • Génération de code et raisonnement structuré

qwen3.6:35b

Qwen Team • 35B paramètres • Contexte : 1,000,000 tokens

Leader en ingénierie logicielle agentique (SWE-bench 73.4%). Contexte de 1M tokens, vision et tool calling intégrés.

Spécifications techniques:

  • Vitesse : 121 tokens/seconde
  • Consommation : 2.07 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Agent Programmation Grand Contexte MoE Vision Raisonnement

Cas d'usage :

  • Assistant de codage agentique dans IDE (Cursor, Continue.dev, VS Code Copilot)
  • Analyse de bases de code complètes (1M tokens)
  • Revue de code automatisée et CI/CD intelligents
  • Résolution de bugs complexes avec raisonnement multi-étapes

rnj-1:8b

Essential AI • 8B paramètres • Contexte : 32,000 tokens

Modèle spécialisé STEM — excelle en code (83.5% HumanEval+), mathématiques et sciences.

Spécifications techniques:

  • Vitesse : 23 tokens/seconde
  • Consommation : 1.69 kWh/million tokens
  • Licence : Open Weights
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Code Maths STEM Raisonnement Efficient

Cas d'usage :

  • Génération de code avancé
  • Résolution de problèmes mathématiques complexes
  • Tâches scientifiques et techniques

Modèles Vision & Multimodal

Modèles pour l'analyse d'images, vidéos, OCR et documents visuels.

deepseek-ocr

DeepSeek AI • 3B paramètres • Contexte : 8,192 tokens

Modèle OCR spécialisé pour l'extraction de texte haute précision avec préservation de la mise en forme (tableaux, formules).

Spécifications techniques:

  • Vitesse : 84 tokens/seconde
  • Consommation : 0.66 kWh/million tokens
  • Licence : MIT licence
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ✅ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Vision OCR Efficient

Cas d'usage :

  • Extraction de texte structuré (Markdown/LaTeX) depuis des images/PDF
  • Numérisation de documents avec tableaux et formules

gemma4:31b

Google • 31B paramètres • Contexte : 250,000 tokens

Modèle dense multimodal de Google, classé 3e mondial sur Arena AI. Vision avancée, raisonnement et codage. Contexte 250K tokens.

Spécifications techniques:

  • Vitesse : 59 tokens/seconde
  • Consommation : 3.77 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Agent Grand Contexte Vision Raisonnement Multilingue Open-Source

Cas d'usage :

  • Agents autonomes avec raisonnement et appels d'outils
  • Analyse de documents volumineux avec vision
  • Compréhension visuelle (OCR, graphiques, documents scannés)

gemma4:e2b

Google • 31B (E2B) paramètres • Contexte : 128,000 tokens

Variante ultra-rapide (125 t/s) de Gemma 4 avec vision. Excellente efficacité énergétique.

Spécifications techniques:

  • Vitesse : 125 tokens/seconde
  • Consommation : 1.11 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Vision Rapide Efficient

Cas d'usage :

  • Analyse d'images avec faible latence
  • Documents volumineux avec empreinte réduite

gemma4:e4b

Google • 31B (E4B) paramètres • Contexte : 128,000 tokens

Variante de Gemma 4 avec meilleur compromis qualité/vitesse que la version E2B. Vision intégrée.

Spécifications techniques:

  • Vitesse : 85 tokens/seconde
  • Consommation : 1.63 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Vision Rapide

Cas d'usage :

  • Analyse de documents et images avec bon compromis qualité/vitesse
  • Alternative rapide pour les tâches de vision

granite3.2-vision:2b

IBM • 2B paramètres • Contexte : 16,384 tokens

Modèle vision compact IBM Granite pour l'OCR rapide et l'extraction de données depuis des documents scannés.

Spécifications techniques:

  • Vitesse : 49 tokens/seconde
  • Consommation : 0.80 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ✅ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Vision Compact Efficient OCR

Cas d'usage :

  • OCR rapide sur documents légers
  • Extraction de données depuis des images
  • Analyse visuelle à faible consommation

qwen3-vl:235b

Qwen Team • 235B paramètres • Contexte : 200,000 tokens

Le modèle multimodal le plus puissant du catalogue. Compréhension visuelle de pointe et raisonnement exceptionnel.

Spécifications techniques:

  • Vitesse : 24 tokens/seconde
  • Consommation : 5.56 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ✅ Raisonnement • ❌ Sécurité

Tags : Agent Raisonnement Grand Contexte Vision

Cas d'usage :

  • Automatisation documentaire complexe (OCR multilingue, extraction structurée)
  • Agents visuels intelligents
  • Analyse scientifique avancée (STEM, raisonnement spatial)
  • RAG Multimodal sur documents et vidéos

qwen3-vl:2b

Qwen Team • 2B paramètres • Contexte : 250,000 tokens

Modèle vision ultra-compact pour l'OCR rapide, la détection d'objets et les applications embarquées.

Spécifications techniques:

  • Vitesse : 64 tokens/seconde
  • Consommation : 0.95 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Vision Compact Efficient Multimodal OCR

Cas d'usage :

  • Analyse d'images en temps réel
  • OCR et lecture de documents légers
  • Tri et classification visuelle rapide

qwen3-vl:30b

Qwen Team • 30B paramètres • Contexte : 250,000 tokens

Modèle multimodal performant pour l'OCR, la détection d'objets, l'analyse de vidéos et le raisonnement spatio-temporel.

Spécifications techniques:

  • Vitesse : 39 tokens/seconde
  • Consommation : 3.39 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Vision Agent Grand Contexte Multimodal Vidéo OCR

Cas d'usage :

  • Analyse de vidéos longues et surveillance intelligente
  • Extraction de données structurées (documents, tableaux, graphiques)
  • Assistants visuels avec compréhension spatiale

qwen3-vl:32b

Qwen Team • 32B paramètres • Contexte : 250,000 tokens

Variante haute performance pour les tâches de vision les plus exigeantes. Contexte 250K tokens.

Spécifications techniques:

  • Vitesse : 17 tokens/seconde
  • Consommation : 7.75 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Vision Agent Grand Contexte Multimodal Vidéo OCR

Cas d'usage :

  • Analyse scientifique et technique d'images haute résolution
  • Automatisation de processus visuels complexes
  • Compréhension détaillée de scènes dynamiques

qwen3-vl:4b

Qwen Team • 4B paramètres • Contexte : 250,000 tokens

Modèle vision compact et rapide pour l'analyse documentaire et la compréhension vidéo.

Spécifications techniques:

  • Vitesse : 57 tokens/seconde
  • Consommation : 2.34 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Vision Compact Multimodal Efficient Vidéo OCR

Cas d'usage :

  • Analyse documentaire automatisée (factures, formulaires)
  • Compréhension de contenu vidéo
  • Assistants visuels interactifs

qwen3-vl:8b

Qwen Team • 8B paramètres • Contexte : 250,000 tokens

Modèle vision intermédiaire — bon compromis entre performance et empreinte. Contexte 250K tokens.

Spécifications techniques:

  • Vitesse : 39 tokens/seconde
  • Consommation : 3.38 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ✅ Outils/Agent • ✅ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Vision Multimodal Efficient Vidéo OCR

Cas d'usage :

  • Analyse documentaire automatisée
  • Compréhension de contenu vidéo
  • Assistants visuels interactifs

Modèles d'Embedding

Modèles pour la recherche sémantique et le Retrieval-Augmented Generation (RAG).

bge-m3:567m

BAAI • 567M paramètres • Contexte : 8,192 tokens

Embedding multilingue de pointe (100+ langues). Supporte les recherches dense, sparse et multi-vectorielle.

Spécifications techniques:

  • Vitesse : 171 tokens/seconde
  • Consommation : 0.36 kWh/million tokens
  • Licence : MIT
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Embedding Multilingue Efficient

Cas d'usage :

  • Recherche sémantique multilingue
  • Retrieval-Augmented Generation (RAG)
  • Clustering et classification de documents

embeddinggemma:300m

Google • 300M paramètres • Contexte : 2,048 tokens

Embedding Google multilingue (100+ langues), optimisé pour la recherche et la récupération sémantique.

Spécifications techniques:

  • Vitesse : 175 tokens/seconde
  • Consommation : 0.35 kWh/million tokens
  • Licence : Google Gemma Terms of Use
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Embedding Compact Sémantique Efficient Multilingue

Cas d'usage :

  • Recherche et récupération d'informations
  • Classification et clustering de documents
  • Recherche de similarité sémantique

granite-embedding:278m

IBM • 278M paramètres • Contexte : 512 tokens

Embedding IBM ultra-compact pour une recherche sémantique à latence minimale.

Spécifications techniques:

  • Vitesse : 196.3 tokens/seconde
  • Consommation : 0.31 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Embedding Compact Efficient

Cas d'usage :

  • Recherche sémantique haute fréquence
  • Clustering de documents

qwen3-embedding:0.6b

Qwen Team • 0.6B paramètres • Contexte : 32,768 tokens

Embedding ultra-léger et rapide pour la recherche sémantique à faible latence.

Spécifications techniques:

  • Vitesse : N/A
  • Consommation : 0.57 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Embedding Compact Efficient

Cas d'usage :

  • Recherche sémantique rapide
  • Classification de texte en temps réel

qwen3-embedding:4b

Qwen Team • 4B paramètres • Contexte : 40,000 tokens

Embedding haute performance avec compréhension sémantique profonde et contexte étendu (40K tokens).

Spécifications techniques:

  • Vitesse : N/A
  • Consommation : 0.57 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Embedding Grand Contexte Efficient

Cas d'usage :

  • Recherche sémantique sur documents longs
  • RAG avec contexte étendu
  • Analyse sémantique de précision

qwen3-embedding:8b

Qwen Team • 8B paramètres • Contexte : 40,000 tokens

Embedding haute capacité avec la meilleure compréhension sémantique de la famille Qwen3. Contexte étendu (40K tokens).

Spécifications techniques:

  • Vitesse : N/A
  • Consommation : 0.57 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Embedding Grand Contexte Haute Performance

Cas d'usage :

  • Recherche sémantique de haute précision
  • RAG avancé avec contexte étendu
  • Analyse sémantique de documents complexes

Modèles de Reranking

Modèles pour le réordonnancement de résultats dans les pipelines RAG.

bge-reranker-large

BAAI • 335M paramètres • Contexte : 512 tokens

Modèle de reranking haute performance de la famille BGE, multilingue.

Spécifications techniques:

  • Vitesse : N/A
  • Consommation : N/A
  • Licence : MIT
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Reranker Haute Performance

Cas d'usage :

  • Réordonnancement multilingue pour RAG

nvidia/llama-nemotron-rerank-vl-1b-v2

NVIDIA • 1B paramètres • Contexte : 4,096 tokens

Modèle de reranking compatible API Cohere (/v1/rerank et /v2/rerank). Ordonne les documents par pertinence vis-à-vis d'une requête.

Spécifications techniques:

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Rerank RAG Compact

Cas d'usage :

  • Réordonnancement de résultats de recherche sémantique
  • Affinage de la pertinence dans les pipelines RAG

qwen3-reranker:0.6b

Qwen Team • 0.6B paramètres • Contexte : 4,096 tokens

Modèle de reranking compact et efficace pour le réordonnancement rapide.

Spécifications techniques:

  • Vitesse : N/A
  • Consommation : N/A
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Reranker Compact Efficient

Cas d'usage :

  • Réordonnancement rapide pour RAG

qwen3-reranker:4b

Qwen Team • 4B paramètres • Contexte : 4,096 tokens

Modèle de reranking performant avec une grande capacité de compréhension contextuelle.

Spécifications techniques:

  • Vitesse : N/A
  • Consommation : N/A
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Reranker Performance

Cas d'usage :

  • Réordonnancement haute qualité pour RAG

Modèles de Sécurité

Modèles pour le filtrage de contenu, la conformité et les guardrails.

granite3-guardian:2b

IBM • 2B paramètres • Contexte : 8,192 tokens

Version compacte du modèle de sécurité Granite Guardian pour le filtrage à faible latence.

Spécifications techniques:

  • Vitesse : 60 tokens/seconde
  • Consommation : 0.65 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ✅ Sécurité

Tags : Sécurité Guardrails Compact Efficient

Cas d'usage :

  • Guardrails à faible latence dans les workflows agentiques
  • Filtrage de sécurité en temps réel

granite3-guardian:8b

IBM • 8B paramètres • Contexte : 8,192 tokens

Modèle de sécurité spécialisé dans la détection de contenus problématiques, le jailbreak et la conformité réglementaire.

Spécifications techniques:

  • Vitesse : 45 tokens/seconde
  • Consommation : 3.09 kWh/million tokens
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ✅ Sécurité

Tags : Sécurité Guardrails Conformité Filtrage

Cas d'usage :

  • Détection de contenus problématiques et jailbreak
  • Filtrage de sécurité pré/post-génération
  • Conformité réglementaire (RGPD, HDS)

Modèles de Traduction

Modèles spécialisés dans la traduction multilingue haute fidélité.

translategemma:12b

Google • 12B paramètres • Contexte : 128,000 tokens

Traduction haute fidélité pour 55 langues avec contexte de 128K tokens.

Spécifications techniques:

  • Vitesse : 27 tokens/seconde
  • Consommation : 4.87 kWh/million tokens
  • Licence : Gemma Terms of Use
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Traduction Multilingue Spécialisé

Cas d'usage :

  • Traduction de documents longs
  • Communication inter-langues
  • Localisation de contenu

translategemma:27b

Google • 27B paramètres • Contexte : 120,000 tokens

Traduction haute performance pour 55 langues. Qualité supérieure pour les contenus complexes et techniques.

Spécifications techniques:

  • Vitesse : 17 tokens/seconde
  • Consommation : 7.84 kWh/million tokens
  • Licence : Gemma Terms of Use
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Traduction Multilingue Spécialisé Haute Performance

Cas d'usage :

  • Traduction de haute précision
  • Traduction de documents techniques
  • Nuances littéraires et culturelles

translategemma:4b

Google • 4B paramètres • Contexte : 128,000 tokens

Traduction rapide et efficace pour 55 langues. Idéal pour la localisation en temps réel.

Spécifications techniques:

  • Vitesse : 31 tokens/seconde
  • Consommation : 1.25 kWh/million tokens
  • Licence : Gemma Terms of Use
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Traduction Multilingue Spécialisé Efficient

Cas d'usage :

  • Traduction rapide de textes
  • Localisation en temps réel
  • Traduction à budget limité

Modèles Audio & Image

Modèles pour la transcription audio et la génération d'images.

voxtral

Mistral AI • 4B paramètres • Contexte : 32,768 tokens

Transcription audio en temps réel via WebSocket. Reconnaissance vocale streaming avec faible latence.

Spécifications techniques:

  • Vitesse : N/A
  • Consommation : N/A
  • Licence : Apache 2.0
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : ASR Audio Realtime WebSocket

Cas d'usage :

  • Transcription audio en temps réel (streaming)
  • Assistants vocaux
  • Sous-titrage en direct

z-image:16b

Community • 16B paramètres • Contexte : 0 tokens

Génération d'images à partir de prompts textuels, compatible API OpenAI /v1/images/generations.

Spécifications techniques:

  • Vitesse : N/A
  • Consommation : N/A
  • Licence : Open Weights
  • Localisation : FR 🇫🇷

Capacités: ❌ Outils/Agent • ❌ Vision • ❌ Raisonnement • ❌ Sécurité

Tags : Image Generation Créatif Multimodal

Cas d'usage :

  • Génération d'images à partir de descriptions textuelles
  • Création de contenu visuel
  • Prototypage visuel rapide

Cas d'Usage Recommandés

Dialogue multilingue

Chatbots et assistants capables de communiquer dans plusieurs langues avec détection automatique et maintien du contexte

Modèles recommandés:

  • nemotron-3-super:120b
  • qwen3.6:27b
  • nemotron3-nano:30b
  • gpt-oss:120b

Analyse de documents longs

Traitement de documents volumineux (>100 pages) avec extraction d'informations clés, résumés et réponses à des questions

Modèles recommandés:

  • nemotron-3-super:120b
  • qwen3.6:27b
  • qwen3-2507:235b

Programmation et développement

Génération, optimisation et débogage de code dans multiples langages, refactoring et création de tests

Modèles recommandés:

  • qwen3.6:35b
  • qwen-coder-next:80b
  • devstral-small-2:24b
  • nemotron-3-super:120b

Analyse visuelle

Traitement d'images et documents visuels, OCR, interprétation de graphiques et tableaux

Modèles recommandés:

  • qwen3-vl:235b
  • gemma4:31b
  • deepseek-ocr
  • qwen3-vl:30b

Sécurité et conformité

Filtrage de contenu sensible, détection de jailbreak, conformité RGPD/HDS

Modèles recommandés:

  • granite3-guardian:8b
  • granite3-guardian:2b
  • mistral-small4:119b

Déploiements légers

Applications nécessitant une empreinte minimale, faible latence et faible consommation

Modèles recommandés:

  • qwen3.5:0.8b
  • qwen3-vl:2b
  • ministral-3:3b

RAG (Retrieval-Augmented Generation)

Pipelines complets de recherche sémantique, réordonnancement et génération augmentée par la récupération

Modèles recommandés:

  • bge-m3:567m
  • nvidia/llama-nemotron-rerank-vl-1b-v2
  • qwen3.6:27b