Et si un modèle IA pouvait s’améliorer tout seul ? MiniMax M2.7 est le premier modèle commercial à participer activement à sa propre évolution. Avec seulement 10 milliards de paramètres actifs, il rivalise avec GPT-5 et Claude Opus 4.6 — pour 50 fois moins cher.
L’auto-évolution : une première dans l’IA
La plupart des modèles IA suivent un cycle classique : on les entraîne, on les évalue, on les déploie. Une fois en production, ils sont figés — incapables de s’améliorer sans intervention humaine.
M2.7 brise ce schéma. Construit sur le framework OpenClaw (Agent Harness), il a participé activement à sa propre amélioration pendant son développement :
- 100+ cycles d’optimisation autonome — le modèle a amélioré son propre scaffold sans intervention humaine
- Boucle itérative : analyser les échecs → planifier les changements → modifier le code → tester → comparer → garder ou annuler
- +30% de performance sur les évaluations internes grâce à l’auto-optimisation
- 30 à 50% du workflow de recherche RL géré de manière autonome
Concrètement, M2.7 a découvert seul des optimisations que des équipes humaines auraient mis des semaines à trouver : ajustement des paramètres de sampling (température, pénalités), détection de boucles infinies, et propagation automatique de correctifs à d’autres fichiers.
10 milliards de paramètres : le plus petit des géants
Le chiffre qui défie toute logique : M2.7 n’active que 10 milliards de paramètres. C’est le plus petit modèle de la catégorie Tier-1 (celle de GPT-5, Claude Opus, Gemini 3.1 Pro). Comment est-ce possible ?
La réponse tient en deux mots : Mixture-of-Experts (MoE). Le modèle complet est bien plus grand, mais seuls 10 milliards de paramètres sont activés pour chaque requête — les « experts » les plus pertinents pour la tâche en cours. Le résultat : des performances de pointe avec une fraction de la puissance de calcul.
Les benchmarks : M2.7 face aux titans
Ingénierie logicielle
| Benchmark | M2.7 | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 |
|---|---|---|---|---|
| SWE-Pro (ingénierie avancée) | 56.2% | 57.0% | — | — |
| SWE-bench Verified | 78% | 55% | — | — |
| VIBE-Pro (livraison projet) | 55.6% | — | — | — |
Sur SWE-bench Verified, M2.7 écrase littéralement Opus : 78% contre 55%. Et sur SWE-Pro (le benchmark le plus difficile), il est quasi au même niveau (56.2% vs 57%) — avec 10x moins de paramètres actifs.
Productivité professionnelle
- Score ELO 1495 sur GDPval-AA (Excel, PowerPoint, Word, édition de documents) — le plus élevé parmi tous les modèles open source
- 97% d’adhérence sur 40+ tâches complexes de plus de 2000 tokens chacune
- Gestion multi-tours : itérer sur des documents par conversation
Recherche en machine learning
M2.7 a participé à 22 compétitions ML (MLE-Bench Lite) et obtenu 9 médailles d’or. Son taux de médailles de 66.6% égale celui de Google Gemini 3.1 et approche GPT-5.4 — un résultat remarquable pour un modèle de 10B paramètres.
50x moins cher que Claude Opus
C’est le vrai game-changer. Voici la comparaison des prix :
| Modèle | Input ($/M tokens) | Output ($/M tokens) | Vitesse |
|---|---|---|---|
| MiniMax M2.7 | $0.30 | $0.30 | 100 tok/s |
| Claude Opus 4.6 | $15.00 | $75.00 | ~30 tok/s |
| GPT-5 | $5.00 | $15.00 | ~50 tok/s |
| Gemini 3.1 Pro | $3.50 | $10.50 | ~60 tok/s |
À $0.30 par million de tokens en input ET output, M2.7 est 50x moins cher qu’Opus et 17x moins cher que GPT-5. Avec l’optimisation de cache automatique, le coût effectif descend à $0.06 par million de tokens. Pour les équipes qui font tourner des agents IA à grande échelle, c’est un rapport qualité/prix inédit.
Ce que M2.7 sait faire concrètement
Agents autonomes
M2.7 est conçu dès le départ pour les workflows agentiques :
- Collaboration multi-agents avec gestion des rôles et raisonnement adversarial
- Participation active aux décisions (pas juste de la génération de texte passive)
- Mémoire persistante pour les interactions longues et complexes
Développement logiciel
- Livraison de projets de bout en bout (pas juste des patchs isolés)
- Analyse de logs et débogage automatique
- Revue de sécurité du code
- Développement de pipelines ML
Bureautique avancée
- Opérations Excel complexes et génération de formules
- Création et édition de PowerPoint
- Manipulation de documents Word
- Support multi-tours : itérer sur un document par conversation
Intelligence émotionnelle
Fonctionnalité unique : M2.7 intègre des capacités de préservation d’identité et d’intelligence émotionnelle, utiles pour le roleplay, le divertissement interactif et les applications de compagnons IA (comme Talkie de MiniMax).
OpenRoom : la démo qui impressionne
MiniMax a publié OpenRoom, une démo interactive où un agent M2.7 gère un espace virtuel — répondant aux requêtes, organisant des tâches et collaborant avec d’autres agents. C’est un aperçu concret de ce que sera le travail avec des agents IA autonomes.
- NVIDIA RTX 4070 Ti Super — GPU pour faire tourner des modèles IA open source
- Corsair Vengeance 64GB DDR5 — RAM indispensable pour les LLM locaux
- PC portable MSI RTX 4060 — développement IA mobile
Ce que ça change pour l’avenir de l’IA
M2.7 est plus qu’un modèle performant — c’est un changement de paradigme. L’auto-évolution signifie que les futurs modèles IA ne seront plus des produits figés mais des systèmes vivants qui s’améliorent en continu.
MiniMax prévoit que l’IA évoluera vers une autonomie totale : construction de données, entraînement, architecture d’inférence, évaluation — tout sera coordonné par l’IA elle-même, sans intervention humaine.
Nous ne sommes qu’aux « premiers échos de l’auto-évolution », comme le titre l’annonce officielle de MiniMax. Mais ces échos sont assourdissants.

