Quale LLM? Quale motore?
Quale combo vince sul tuo Mac?Dai ai tuoi agenti IA
visibilità sull'inferenza

Name: asiai
Author: Jean-Marc Nahlovsky

Benchmark per scegliere. Dashboard per monitorare. Storico per individuare i problemi.L'API REST di asiai consente ai tuoi agenti IA di monitorare, diagnosticare e ottimizzare l'infrastruttura LLM locale in autonomia.

🧑 Umano Agente IA 🤖

Inizia Classifica Vedi su GitHub Guida Agente Riferimento API Dai questo URL alla tua IA

Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready

asiai bench

asiai web

GET /api/status ≤ 500ms

{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}

GET /api/snapshot Full state

{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

Il problema dei LLM locali

Ti suona familiare?

Frammentato

Ollama, LM Studio, mlx-lm — ognuno con il proprio CLI, formati e metriche. Nessun terreno comune.

Alla cieca

Nessun monitoraggio VRAM in tempo reale, nessun tracking energetico, nessun allarme termico. Voli alla cieca.

Manuale

Benchmark significa script curl, copiare numeri e confrontare nei fogli di calcolo.

Progettato per power user Apple Silicon

Tutto ciò che serve per benchmark, monitoraggio e ottimizzazione dell'inferenza locale.

Benchmark testa a testa

Stesso modello su Ollama vs LM Studio vs mlx-lm. Un comando, numeri reali.

7 motori, un CLI

Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Rilevamento e configurazione automatici.

Osservabilità GPU

Utilizzo GPU in tempo reale, renderer, tiler e memoria — tramite IOReport passivo. Gauge live, sparkline, grafici storici. Guarda la tua GPU Apple Silicon come mai prima.

Classifica community

Condividi benchmark in modo anonimo. Confronta il tuo Mac con la community. Scopri cosa ottengono gli altri sullo stesso chip.

Scheda benchmark

Un comando, un'immagine condivisibile. Esegui asiai bench --card e ottieni una scheda 1200x630 tema scuro con modello, chip, confronto motori e vincitore. Pubblicala su Reddit, X o Discord. Lo Speedtest dei LLM locali.

API Agent-Ready

Progettato per gli umani. Pronto per gli agenti IA. API REST con endpoint JSON, metriche Prometheus, alberi decisionali diagnostici e segnali di attività inferenziale. Dai al tuo agente IA un URL e lascialo auto-monitorarsi.

Cosa scoprirai?

Domande reali da r/LocalLLaMA, risposte con un comando.

"Quale motore è il più veloce?"

Confronto diretto — la domanda n°1 su r/LocalLLaMA.

"Monitorare uno sciame multi-agente"

LLM in esecuzione 24/7 per agenti IA — monitora VRAM, temperatura e prestazioni.

"Confrontare l'efficienza energetica"

tok/s per watt tra motori. Critico per homelab Mac Mini 24/7.

"Rilevare regressioni dopo aggiornamenti"

L'aggiornamento Ollama o macOS ha peggiorato le prestazioni? Rilevamento automatico via SQLite.

"Testare il supporto contesto lungo"

Benchmark --context-size 64k. Il tuo modello sopravvive a 256k di contesto?

"Il mio Mac fa throttling termico?"

Rilevamento deriva termica tra le esecuzioni. Unico in asiai.

"Benchmark riproducibili"

Metodologia MLPerf/SPEC. Warmup, mediana, decodifica greedy. Condividi con fiducia.

"Diagnostica in un comando"

asiai doctor diagnostica sistema, motori e database con suggerimenti di correzione.

"Dashboard visuale"

Dashboard web dark/light con grafici live, avanzamento SSE e controlli benchmark.

"Confrontare LLM testa a testa"

Stesso motore, modelli diversi. Quale quantizzazione vince?

"Monitoraggio Prometheus + Grafana"

Esponi /metrics, scrape con Prometheus, visualizza in Grafana. Osservabilità production-grade.

"Monitorare l'inferenza degli agenti IA"

Attività GPU, connessioni TCP, cache KV — sappi quando i tuoi agenti pensano, sono inattivi o sovraccarichi. API pronta per orchestratori di swarm.

Operativo in 60 secondi

Tre comandi. Tutto qui.

Installare

brew install asiai

Rilevare

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motori trovati

Benchmark

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

Scoperte reali

Numeri da benchmark reali su Apple Silicon.

2.3x

MLX vs llama.cpp

MLX è 2,3x più veloce per architetture MoE (Qwen3.5-35B-A3B) su Apple Silicon.

Flat

VRAM: 64k → 256k

La VRAM resta costante da 64k a 256k di contesto con DeltaNet — non documentato altrove.

30 vs 71

Motore > Modello

Stesso modello, stesso Mac: 30 tok/s su un motore, 71 tok/s su un altro. Il motore conta di più.

Motori supportati

Rilevamento automatico, zero configurazione.

Engine	Porta predefinita	API	Formato	VRAM
Ollama	`11434`	Nativa	GGUF	✔
LM Studio	`1234`	Compatibile OpenAI	GGUF + MLX	✔
mlx-lm	`8080`	Compatibile OpenAI	MLX	—
llama.cpp	`8080`	Compatibile OpenAI	GGUF	—
oMLX	`8000`	Compatibile OpenAI	MLX	—
vllm-mlx	`8000`	Compatibile OpenAI	MLX	—
Exo	`52415`	Compatibile OpenAI	MLX	—

Cosa misuriamo

8 metriche, metodologia coerente, ogni esecuzione.

tok/s

Velocità di generazione (token/sec)

TTFT

Tempo al primo token

Power (W)

Consumo GPU in watt

tok/s/W

Efficienza energetica

Stability

Varianza tra esecuzioni

VRAM

Footprint memoria GPU

Thermal

Stato di throttling

Context

Scaling contesto lungo

Inizia

Installazione in secondi. Zero dipendenze.

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub Documentazione Metodologia Apache 2.0 ❤ Sponsor

⭐ Se asiai ti ha aiutato, una stella aiuta gli altri a trovarlo

Quale LLM? Quale motore?Quale combo vince sul tuo Mac?Dai ai tuoi agenti IAvisibilità sull'inferenza