Quel LLM ? Quel moteur ?
Quelle combo gagne sur votre Mac ?Donnez à vos agents IA
la vision sur l'inférence

Name: asiai
Author: Jean-Marc Nahlovsky

Benchmarker pour choisir. Dashboard pour monitorer. Historique pour repérer les problèmes.L'API REST d'asiai permet à vos agents IA de monitorer, diagnostiquer et optimiser l'infrastructure LLM locale de façon autonome.

🧑 Humain Agent IA 🤖

Démarrer Classement Voir sur GitHub Guide Agent Référence API Donnez cette URL à votre IA

Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready

asiai bench

asiai web

GET /api/status ≤ 500ms

{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}

GET /api/snapshot Full state

{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

Le problème des LLM locaux

Ça vous dit quelque chose ?

Fragmenté

Ollama, LM Studio, mlx-lm — chacun avec son CLI, ses formats et ses métriques. Aucun terrain commun.

À l'aveugle

Pas de monitoring VRAM temps réel, pas de suivi de puissance, pas d'alertes thermiques. Vous volez à l'aveugle.

Manuel

Benchmarker = scripts curl, copier-coller des chiffres, comparer dans des tableurs.

Conçu pour les power users Apple Silicon

Tout ce qu'il faut pour benchmarker, monitorer et optimiser l'inférence locale.

Benchmarks face-à-face

Même modèle sur Ollama vs LM Studio vs mlx-lm. Une commande, des vrais chiffres.

7 moteurs, un seul CLI

Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Détection et configuration automatiques.

Observabilité GPU

Utilisation GPU en temps réel, renderer, tiler et mémoire — via IOReport passif. Jauges live, sparklines, courbes historiques. Voyez votre GPU Apple Silicon comme jamais.

Classement communautaire

Partagez vos benchmarks anonymement. Comparez votre Mac à la communauté. Voyez ce que d'autres obtiennent sur la même puce.

Carte benchmark

Une commande, une image partageable. Lancez asiai bench --card et obtenez une carte 1200x630 thème sombre avec modèle, puce, comparaison moteurs et gagnant. Postez-la sur Reddit, X ou Discord. Le Speedtest des LLMs locaux.

API Agent-Ready

Conçu pour les humains. Prêt pour les agents IA. API REST avec endpoints JSON, métriques Prometheus, arbres de diagnostic et signaux d'activité d'inférence. Donnez une URL à votre agent IA et laissez-le s'auto-monitorer.

Qu'allez-vous découvrir ?

Les vraies questions de r/LocalLLaMA, une commande suffit.

"Quel moteur est le plus rapide ?"

Comparaison face-à-face — la question n°1 sur r/LocalLLaMA.

"Monitorer un essaim multi-agents"

LLMs tournant 24/7 pour des agents IA — suivez VRAM, thermique et performances.

"Comparer l'efficacité énergétique"

tok/s par watt entre moteurs. Essentiel pour les homelabs Mac Mini 24/7.

"Détecter les régressions après mise à jour"

La mise à jour Ollama ou macOS a cassé vos performances ? Détection auto via SQLite.

"Tester le support long contexte"

Benchmarks --context-size 64k. Votre modèle survit-il à 256k de contexte ?

"Mon Mac est-il en throttling thermique ?"

Détection de dérive thermique entre les runs. Unique à asiai.

"Benchmarks reproductibles"

Méthodologie MLPerf/SPEC. Warmup, médiane, décodage greedy. Partagez en confiance.

"Diagnostic en une commande"

asiai doctor diagnostique système, moteurs et base de données avec suggestions de corrections.

"Dashboard visuel"

Dashboard web dark/light avec graphiques en direct, progression SSE, contrôles de benchmark.

"Comparer les LLMs face-à-face"

Même moteur, différents modèles. Quelle quantification gagne ?

"Monitoring Prometheus + Grafana"

Exposez /metrics, scrapez avec Prometheus, visualisez dans Grafana. Observabilité production-ready.

"Suivre l'inférence des agents IA"

Activité GPU, connexions TCP, cache KV — sachez quand vos agents réfléchissent, sont inactifs ou surchargés. API prête pour les orchestrateurs de swarm.

Opérationnel en 60 secondes

Trois commandes. C'est tout.

Installer

brew install asiai

Détecter

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 moteurs trouvés

Benchmarker

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

Découvertes réelles

Chiffres issus de vrais benchmarks sur Apple Silicon.

2.3x

MLX vs llama.cpp

MLX est 2,3x plus rapide pour les architectures MoE (Qwen3.5-35B-A3B) sur Apple Silicon.

Flat

VRAM : 64k → 256k

La VRAM reste constante de 64k à 256k de contexte avec DeltaNet — non documenté ailleurs.

30 vs 71

Moteur > Modèle

Même modèle, même Mac : 30 tok/s sur un moteur, 71 tok/s sur un autre. Le moteur compte plus.

Moteurs supportés

Détection automatique, zéro configuration.

Engine	Port par défaut	API	Format	VRAM
Ollama	`11434`	Native	GGUF	✔
LM Studio	`1234`	Compatible OpenAI	GGUF + MLX	✔
mlx-lm	`8080`	Compatible OpenAI	MLX	—
llama.cpp	`8080`	Compatible OpenAI	GGUF	—
oMLX	`8000`	Compatible OpenAI	MLX	—
vllm-mlx	`8000`	Compatible OpenAI	MLX	—
Exo	`52415`	Compatible OpenAI	MLX	—

Ce qu'on mesure

8 métriques, méthodologie constante, à chaque run.

tok/s

Vitesse de génération (tokens/sec)

TTFT

Temps au premier token

Power (W)

Consommation GPU en watts

tok/s/W

Efficacité énergétique

Stability

Variance inter-runs

VRAM

Empreinte mémoire GPU

Thermal

État de throttling

Context

Scaling perf long contexte

Démarrer

Installation en secondes. Zéro dépendance.

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub Documentation Méthodologie Apache 2.0 ❤ Sponsor

⭐ Si asiai vous a aidé, une étoile aide les autres à le trouver

Quel LLM ? Quel moteur ?Quelle combo gagne sur votre Mac ?Donnez à vos agents IAla vision sur l'inférence