Quale LLM? Quale motore?
Quale combo vince sul tuo Mac?Dai ai tuoi agenti IA
visibilità sull'inferenza
Benchmark per scegliere. Dashboard per monitorare. Storico per individuare i problemi.L'API REST di asiai consente ai tuoi agenti IA di monitorare, diagnosticare e ottimizzare l'infrastruttura LLM locale in autonomia.
asiai bench
asiai web
{
"chip": "Apple M4 Pro",
"ram_gb": 64.0,
"memory_pressure": "normal",
"gpu_utilization_percent": 45.2,
"engines": {
"ollama": { "running": true, "models_loaded": 2 },
"lmstudio": { "running": true, "models_loaded": 1 }
}
}
{
"system": {
"chip": "Apple M4 Pro",
"gpu_cores": 20,
"gpu_utilization_percent": 45.2,
"gpu_renderer_percent": 38.1,
"thermal_state": "nominal"
},
"engines": [{
"name": "ollama",
"models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
}]
}
Il problema dei LLM locali
Ti suona familiare?
Frammentato
Ollama, LM Studio, mlx-lm — ognuno con il proprio CLI, formati e metriche. Nessun terreno comune.
Alla cieca
Nessun monitoraggio VRAM in tempo reale, nessun tracking energetico, nessun allarme termico. Voli alla cieca.
Manuale
Benchmark significa script curl, copiare numeri e confrontare nei fogli di calcolo.
Progettato per power user Apple Silicon
Tutto ciò che serve per benchmark, monitoraggio e ottimizzazione dell'inferenza locale.
Benchmark testa a testa
Stesso modello su Ollama vs LM Studio vs mlx-lm. Un comando, numeri reali.
7 motori, un CLI
Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Rilevamento e configurazione automatici.
Osservabilità GPU
Utilizzo GPU in tempo reale, renderer, tiler e memoria — tramite IOReport passivo. Gauge live, sparkline, grafici storici. Guarda la tua GPU Apple Silicon come mai prima.
Classifica community
Condividi benchmark in modo anonimo. Confronta il tuo Mac con la community. Scopri cosa ottengono gli altri sullo stesso chip.
Scheda benchmark
Un comando, un'immagine condivisibile. Esegui asiai bench --card e ottieni una scheda 1200x630 tema scuro con modello, chip, confronto motori e vincitore. Pubblicala su Reddit, X o Discord. Lo Speedtest dei LLM locali.
API Agent-Ready
Progettato per gli umani. Pronto per gli agenti IA. API REST con endpoint JSON, metriche Prometheus, alberi decisionali diagnostici e segnali di attività inferenziale. Dai al tuo agente IA un URL e lascialo auto-monitorarsi.
Cosa scoprirai?
Domande reali da r/LocalLLaMA, risposte con un comando.
"Quale motore è il più veloce?"
Confronto diretto — la domanda n°1 su r/LocalLLaMA.
"Monitorare uno sciame multi-agente"
LLM in esecuzione 24/7 per agenti IA — monitora VRAM, temperatura e prestazioni.
"Confrontare l'efficienza energetica"
tok/s per watt tra motori. Critico per homelab Mac Mini 24/7.
"Rilevare regressioni dopo aggiornamenti"
L'aggiornamento Ollama o macOS ha peggiorato le prestazioni? Rilevamento automatico via SQLite.
"Testare il supporto contesto lungo"
Benchmark --context-size 64k. Il tuo modello sopravvive a 256k di contesto?
"Il mio Mac fa throttling termico?"
Rilevamento deriva termica tra le esecuzioni. Unico in asiai.
"Benchmark riproducibili"
Metodologia MLPerf/SPEC. Warmup, mediana, decodifica greedy. Condividi con fiducia.
"Diagnostica in un comando"
asiai doctor diagnostica sistema, motori e database con suggerimenti di correzione.
"Dashboard visuale"
Dashboard web dark/light con grafici live, avanzamento SSE e controlli benchmark.
"Confrontare LLM testa a testa"
Stesso motore, modelli diversi. Quale quantizzazione vince?
"Monitoraggio Prometheus + Grafana"
Esponi /metrics, scrape con Prometheus, visualizza in Grafana. Osservabilità production-grade.
"Monitorare l'inferenza degli agenti IA"
Attività GPU, connessioni TCP, cache KV — sappi quando i tuoi agenti pensano, sono inattivi o sovraccarichi. API pronta per orchestratori di swarm.
Operativo in 60 secondi
Tre comandi. Tutto qui.
Installare
brew install asiai
Rilevare
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motori trovati
Benchmark
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Scoperte reali
Numeri da benchmark reali su Apple Silicon.
MLX vs llama.cpp
MLX è 2,3x più veloce per architetture MoE (Qwen3.5-35B-A3B) su Apple Silicon.
VRAM: 64k → 256k
La VRAM resta costante da 64k a 256k di contesto con DeltaNet — non documentato altrove.
Motore > Modello
Stesso modello, stesso Mac: 30 tok/s su un motore, 71 tok/s su un altro. Il motore conta di più.
Motori supportati
Rilevamento automatico, zero configurazione.
| Engine | Porta predefinita | API | Formato | VRAM |
|---|---|---|---|---|
| Ollama | 11434 |
Nativa | GGUF | ✔ |
| LM Studio | 1234 |
Compatibile OpenAI | GGUF + MLX | ✔ |
| mlx-lm | 8080 |
Compatibile OpenAI | MLX | — |
| llama.cpp | 8080 |
Compatibile OpenAI | GGUF | — |
| oMLX | 8000 |
Compatibile OpenAI | MLX | — |
| vllm-mlx | 8000 |
Compatibile OpenAI | MLX | — |
| Exo | 52415 |
Compatibile OpenAI | MLX | — |
Cosa misuriamo
8 metriche, metodologia coerente, ogni esecuzione.
tok/s
Velocità di generazione (token/sec)
TTFT
Tempo al primo token
Power (W)
Consumo GPU in watt
tok/s/W
Efficienza energetica
Stability
Varianza tra esecuzioni
VRAM
Footprint memoria GPU
Thermal
Stato di throttling
Context
Scaling contesto lungo
Inizia
Installazione in secondi. Zero dipendenze.
brew tap druide67/tap
brew install asiai
pip install asiai
⭐ Se asiai ti ha aiutato, una stella aiuta gli altri a trovarlo