asiai logo

Quel LLM ? Quel moteur ?
Quelle combo gagne sur votre Mac ?
Donnez à vos agents IA
la vision sur l'inférence

Benchmarker pour choisir. Dashboard pour monitorer. Historique pour repérer les problèmes.L'API REST d'asiai permet à vos agents IA de monitorer, diagnostiquer et optimiser l'infrastructure LLM locale de façon autonome.

🧑 Humain Agent IA 🤖
Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready
asiai CLI benchmark

asiai bench

asiai web dashboard

asiai web

GET /api/status ≤ 500ms
{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}
GET /api/snapshot Full state
{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

Le problème des LLM locaux

Ça vous dit quelque chose ?

Fragmenté

Ollama, LM Studio, mlx-lm — chacun avec son CLI, ses formats et ses métriques. Aucun terrain commun.

À l'aveugle

Pas de monitoring VRAM temps réel, pas de suivi de puissance, pas d'alertes thermiques. Vous volez à l'aveugle.

Manuel

Benchmarker = scripts curl, copier-coller des chiffres, comparer dans des tableurs.

Conçu pour les power users Apple Silicon

Tout ce qu'il faut pour benchmarker, monitorer et optimiser l'inférence locale.

Benchmarks face-à-face

Même modèle sur Ollama vs LM Studio vs mlx-lm. Une commande, des vrais chiffres.

7 moteurs, un seul CLI

Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Détection et configuration automatiques.

Observabilité GPU

Utilisation GPU en temps réel, renderer, tiler et mémoire — via IOReport passif. Jauges live, sparklines, courbes historiques. Voyez votre GPU Apple Silicon comme jamais.

Classement communautaire

Partagez vos benchmarks anonymement. Comparez votre Mac à la communauté. Voyez ce que d'autres obtiennent sur la même puce.

Carte benchmark

Une commande, une image partageable. Lancez asiai bench --card et obtenez une carte 1200x630 thème sombre avec modèle, puce, comparaison moteurs et gagnant. Postez-la sur Reddit, X ou Discord. Le Speedtest des LLMs locaux.

API Agent-Ready

Conçu pour les humains. Prêt pour les agents IA. API REST avec endpoints JSON, métriques Prometheus, arbres de diagnostic et signaux d'activité d'inférence. Donnez une URL à votre agent IA et laissez-le s'auto-monitorer.

Qu'allez-vous découvrir ?

Les vraies questions de r/LocalLLaMA, une commande suffit.

"Quel moteur est le plus rapide ?"

Comparaison face-à-face — la question n°1 sur r/LocalLLaMA.

"Monitorer un essaim multi-agents"

LLMs tournant 24/7 pour des agents IA — suivez VRAM, thermique et performances.

"Comparer l'efficacité énergétique"

tok/s par watt entre moteurs. Essentiel pour les homelabs Mac Mini 24/7.

"Détecter les régressions après mise à jour"

La mise à jour Ollama ou macOS a cassé vos performances ? Détection auto via SQLite.

"Tester le support long contexte"

Benchmarks --context-size 64k. Votre modèle survit-il à 256k de contexte ?

"Mon Mac est-il en throttling thermique ?"

Détection de dérive thermique entre les runs. Unique à asiai.

"Benchmarks reproductibles"

Méthodologie MLPerf/SPEC. Warmup, médiane, décodage greedy. Partagez en confiance.

"Diagnostic en une commande"

asiai doctor diagnostique système, moteurs et base de données avec suggestions de corrections.

"Dashboard visuel"

Dashboard web dark/light avec graphiques en direct, progression SSE, contrôles de benchmark.

"Comparer les LLMs face-à-face"

Même moteur, différents modèles. Quelle quantification gagne ?

"Monitoring Prometheus + Grafana"

Exposez /metrics, scrapez avec Prometheus, visualisez dans Grafana. Observabilité production-ready.

"Suivre l'inférence des agents IA"

Activité GPU, connexions TCP, cache KV — sachez quand vos agents réfléchissent, sont inactifs ou surchargés. API prête pour les orchestrateurs de swarm.

Opérationnel en 60 secondes

Trois commandes. C'est tout.

1

Installer

brew install asiai
2

Détecter

$ asiai detect ✔ ollama (11434) ✔ lmstudio (1234) ✔ mlx-lm (8080) → 3 moteurs trouvés
3

Benchmarker

$ asiai bench -m qwen3.5 Engine tok/s TTFT lmstudio 71.2 42ms ollama 54.8 61ms mlx-lm 30.1 38ms

Découvertes réelles

Chiffres issus de vrais benchmarks sur Apple Silicon.

2.3x

MLX vs llama.cpp

MLX est 2,3x plus rapide pour les architectures MoE (Qwen3.5-35B-A3B) sur Apple Silicon.

Flat

VRAM : 64k → 256k

La VRAM reste constante de 64k à 256k de contexte avec DeltaNet — non documenté ailleurs.

30 vs 71

Moteur > Modèle

Même modèle, même Mac : 30 tok/s sur un moteur, 71 tok/s sur un autre. Le moteur compte plus.

Moteurs supportés

Détection automatique, zéro configuration.

Engine Port par défaut API Format VRAM
Ollama 11434 Native GGUF
LM Studio 1234 Compatible OpenAI GGUF + MLX
mlx-lm 8080 Compatible OpenAI MLX
llama.cpp 8080 Compatible OpenAI GGUF
oMLX 8000 Compatible OpenAI MLX
vllm-mlx 8000 Compatible OpenAI MLX
Exo 52415 Compatible OpenAI MLX

Ce qu'on mesure

8 métriques, méthodologie constante, à chaque run.

tok/s

Vitesse de génération (tokens/sec)

TTFT

Temps au premier token

Power (W)

Consommation GPU en watts

tok/s/W

Efficacité énergétique

Stability

Variance inter-runs

VRAM

Empreinte mémoire GPU

Thermal

État de throttling

Context

Scaling perf long contexte

Démarrer

Installation en secondes. Zéro dépendance.

Homebrew
brew tap druide67/tap brew install asiai
pip
pip install asiai

Si asiai vous a aidé, une étoile aide les autres à le trouver