Quel LLM ? Quel moteur ?
Quelle combo gagne sur votre Mac ?Donnez à vos agents IA
la vision sur l'inférence
Benchmarker pour choisir. Dashboard pour monitorer. Historique pour repérer les problèmes.L'API REST d'asiai permet à vos agents IA de monitorer, diagnostiquer et optimiser l'infrastructure LLM locale de façon autonome.
asiai bench
asiai web
{
"chip": "Apple M4 Pro",
"ram_gb": 64.0,
"memory_pressure": "normal",
"gpu_utilization_percent": 45.2,
"engines": {
"ollama": { "running": true, "models_loaded": 2 },
"lmstudio": { "running": true, "models_loaded": 1 }
}
}
{
"system": {
"chip": "Apple M4 Pro",
"gpu_cores": 20,
"gpu_utilization_percent": 45.2,
"gpu_renderer_percent": 38.1,
"thermal_state": "nominal"
},
"engines": [{
"name": "ollama",
"models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
}]
}
Le problème des LLM locaux
Ça vous dit quelque chose ?
Fragmenté
Ollama, LM Studio, mlx-lm — chacun avec son CLI, ses formats et ses métriques. Aucun terrain commun.
À l'aveugle
Pas de monitoring VRAM temps réel, pas de suivi de puissance, pas d'alertes thermiques. Vous volez à l'aveugle.
Manuel
Benchmarker = scripts curl, copier-coller des chiffres, comparer dans des tableurs.
Conçu pour les power users Apple Silicon
Tout ce qu'il faut pour benchmarker, monitorer et optimiser l'inférence locale.
Benchmarks face-à-face
Même modèle sur Ollama vs LM Studio vs mlx-lm. Une commande, des vrais chiffres.
7 moteurs, un seul CLI
Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Détection et configuration automatiques.
Observabilité GPU
Utilisation GPU en temps réel, renderer, tiler et mémoire — via IOReport passif. Jauges live, sparklines, courbes historiques. Voyez votre GPU Apple Silicon comme jamais.
Classement communautaire
Partagez vos benchmarks anonymement. Comparez votre Mac à la communauté. Voyez ce que d'autres obtiennent sur la même puce.
Carte benchmark
Une commande, une image partageable. Lancez asiai bench --card et obtenez une carte 1200x630 thème sombre avec modèle, puce, comparaison moteurs et gagnant. Postez-la sur Reddit, X ou Discord. Le Speedtest des LLMs locaux.
API Agent-Ready
Conçu pour les humains. Prêt pour les agents IA. API REST avec endpoints JSON, métriques Prometheus, arbres de diagnostic et signaux d'activité d'inférence. Donnez une URL à votre agent IA et laissez-le s'auto-monitorer.
Qu'allez-vous découvrir ?
Les vraies questions de r/LocalLLaMA, une commande suffit.
"Quel moteur est le plus rapide ?"
Comparaison face-à-face — la question n°1 sur r/LocalLLaMA.
"Monitorer un essaim multi-agents"
LLMs tournant 24/7 pour des agents IA — suivez VRAM, thermique et performances.
"Comparer l'efficacité énergétique"
tok/s par watt entre moteurs. Essentiel pour les homelabs Mac Mini 24/7.
"Détecter les régressions après mise à jour"
La mise à jour Ollama ou macOS a cassé vos performances ? Détection auto via SQLite.
"Tester le support long contexte"
Benchmarks --context-size 64k. Votre modèle survit-il à 256k de contexte ?
"Mon Mac est-il en throttling thermique ?"
Détection de dérive thermique entre les runs. Unique à asiai.
"Benchmarks reproductibles"
Méthodologie MLPerf/SPEC. Warmup, médiane, décodage greedy. Partagez en confiance.
"Diagnostic en une commande"
asiai doctor diagnostique système, moteurs et base de données avec suggestions de corrections.
"Dashboard visuel"
Dashboard web dark/light avec graphiques en direct, progression SSE, contrôles de benchmark.
"Comparer les LLMs face-à-face"
Même moteur, différents modèles. Quelle quantification gagne ?
"Monitoring Prometheus + Grafana"
Exposez /metrics, scrapez avec Prometheus, visualisez dans Grafana. Observabilité production-ready.
"Suivre l'inférence des agents IA"
Activité GPU, connexions TCP, cache KV — sachez quand vos agents réfléchissent, sont inactifs ou surchargés. API prête pour les orchestrateurs de swarm.
Opérationnel en 60 secondes
Trois commandes. C'est tout.
Installer
brew install asiai
Détecter
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 moteurs trouvés
Benchmarker
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Découvertes réelles
Chiffres issus de vrais benchmarks sur Apple Silicon.
MLX vs llama.cpp
MLX est 2,3x plus rapide pour les architectures MoE (Qwen3.5-35B-A3B) sur Apple Silicon.
VRAM : 64k → 256k
La VRAM reste constante de 64k à 256k de contexte avec DeltaNet — non documenté ailleurs.
Moteur > Modèle
Même modèle, même Mac : 30 tok/s sur un moteur, 71 tok/s sur un autre. Le moteur compte plus.
Moteurs supportés
Détection automatique, zéro configuration.
| Engine | Port par défaut | API | Format | VRAM |
|---|---|---|---|---|
| Ollama | 11434 |
Native | GGUF | ✔ |
| LM Studio | 1234 |
Compatible OpenAI | GGUF + MLX | ✔ |
| mlx-lm | 8080 |
Compatible OpenAI | MLX | — |
| llama.cpp | 8080 |
Compatible OpenAI | GGUF | — |
| oMLX | 8000 |
Compatible OpenAI | MLX | — |
| vllm-mlx | 8000 |
Compatible OpenAI | MLX | — |
| Exo | 52415 |
Compatible OpenAI | MLX | — |
Ce qu'on mesure
8 métriques, méthodologie constante, à chaque run.
tok/s
Vitesse de génération (tokens/sec)
TTFT
Temps au premier token
Power (W)
Consommation GPU en watts
tok/s/W
Efficacité énergétique
Stability
Variance inter-runs
VRAM
Empreinte mémoire GPU
Thermal
État de throttling
Context
Scaling perf long contexte
Démarrer
Installation en secondes. Zéro dépendance.
brew tap druide67/tap
brew install asiai
pip install asiai
⭐ Si asiai vous a aidé, une étoile aide les autres à le trouver