asiai logo

Quale LLM? Quale motore?
Quale combo vince sul tuo Mac?
Dai ai tuoi agenti IA
visibilità sull'inferenza

Benchmark per scegliere. Dashboard per monitorare. Storico per individuare i problemi.L'API REST di asiai consente ai tuoi agenti IA di monitorare, diagnosticare e ottimizzare l'infrastruttura LLM locale in autonomia.

🧑 Umano Agente IA 🤖
Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready
asiai CLI benchmark

asiai bench

asiai web dashboard

asiai web

GET /api/status ≤ 500ms
{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}
GET /api/snapshot Full state
{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

Il problema dei LLM locali

Ti suona familiare?

Frammentato

Ollama, LM Studio, mlx-lm — ognuno con il proprio CLI, formati e metriche. Nessun terreno comune.

Alla cieca

Nessun monitoraggio VRAM in tempo reale, nessun tracking energetico, nessun allarme termico. Voli alla cieca.

Manuale

Benchmark significa script curl, copiare numeri e confrontare nei fogli di calcolo.

Progettato per power user Apple Silicon

Tutto ciò che serve per benchmark, monitoraggio e ottimizzazione dell'inferenza locale.

Benchmark testa a testa

Stesso modello su Ollama vs LM Studio vs mlx-lm. Un comando, numeri reali.

7 motori, un CLI

Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Rilevamento e configurazione automatici.

Osservabilità GPU

Utilizzo GPU in tempo reale, renderer, tiler e memoria — tramite IOReport passivo. Gauge live, sparkline, grafici storici. Guarda la tua GPU Apple Silicon come mai prima.

Classifica community

Condividi benchmark in modo anonimo. Confronta il tuo Mac con la community. Scopri cosa ottengono gli altri sullo stesso chip.

Scheda benchmark

Un comando, un'immagine condivisibile. Esegui asiai bench --card e ottieni una scheda 1200x630 tema scuro con modello, chip, confronto motori e vincitore. Pubblicala su Reddit, X o Discord. Lo Speedtest dei LLM locali.

API Agent-Ready

Progettato per gli umani. Pronto per gli agenti IA. API REST con endpoint JSON, metriche Prometheus, alberi decisionali diagnostici e segnali di attività inferenziale. Dai al tuo agente IA un URL e lascialo auto-monitorarsi.

Cosa scoprirai?

Domande reali da r/LocalLLaMA, risposte con un comando.

"Quale motore è il più veloce?"

Confronto diretto — la domanda n°1 su r/LocalLLaMA.

"Monitorare uno sciame multi-agente"

LLM in esecuzione 24/7 per agenti IA — monitora VRAM, temperatura e prestazioni.

"Confrontare l'efficienza energetica"

tok/s per watt tra motori. Critico per homelab Mac Mini 24/7.

"Rilevare regressioni dopo aggiornamenti"

L'aggiornamento Ollama o macOS ha peggiorato le prestazioni? Rilevamento automatico via SQLite.

"Testare il supporto contesto lungo"

Benchmark --context-size 64k. Il tuo modello sopravvive a 256k di contesto?

"Il mio Mac fa throttling termico?"

Rilevamento deriva termica tra le esecuzioni. Unico in asiai.

"Benchmark riproducibili"

Metodologia MLPerf/SPEC. Warmup, mediana, decodifica greedy. Condividi con fiducia.

"Diagnostica in un comando"

asiai doctor diagnostica sistema, motori e database con suggerimenti di correzione.

"Dashboard visuale"

Dashboard web dark/light con grafici live, avanzamento SSE e controlli benchmark.

"Confrontare LLM testa a testa"

Stesso motore, modelli diversi. Quale quantizzazione vince?

"Monitoraggio Prometheus + Grafana"

Esponi /metrics, scrape con Prometheus, visualizza in Grafana. Osservabilità production-grade.

"Monitorare l'inferenza degli agenti IA"

Attività GPU, connessioni TCP, cache KV — sappi quando i tuoi agenti pensano, sono inattivi o sovraccarichi. API pronta per orchestratori di swarm.

Operativo in 60 secondi

Tre comandi. Tutto qui.

1

Installare

brew install asiai
2

Rilevare

$ asiai detect ✔ ollama (11434) ✔ lmstudio (1234) ✔ mlx-lm (8080) → 3 motori trovati
3

Benchmark

$ asiai bench -m qwen3.5 Engine tok/s TTFT lmstudio 71.2 42ms ollama 54.8 61ms mlx-lm 30.1 38ms

Scoperte reali

Numeri da benchmark reali su Apple Silicon.

2.3x

MLX vs llama.cpp

MLX è 2,3x più veloce per architetture MoE (Qwen3.5-35B-A3B) su Apple Silicon.

Flat

VRAM: 64k → 256k

La VRAM resta costante da 64k a 256k di contesto con DeltaNet — non documentato altrove.

30 vs 71

Motore > Modello

Stesso modello, stesso Mac: 30 tok/s su un motore, 71 tok/s su un altro. Il motore conta di più.

Motori supportati

Rilevamento automatico, zero configurazione.

Engine Porta predefinita API Formato VRAM
Ollama 11434 Nativa GGUF
LM Studio 1234 Compatibile OpenAI GGUF + MLX
mlx-lm 8080 Compatibile OpenAI MLX
llama.cpp 8080 Compatibile OpenAI GGUF
oMLX 8000 Compatibile OpenAI MLX
vllm-mlx 8000 Compatibile OpenAI MLX
Exo 52415 Compatibile OpenAI MLX

Cosa misuriamo

8 metriche, metodologia coerente, ogni esecuzione.

tok/s

Velocità di generazione (token/sec)

TTFT

Tempo al primo token

Power (W)

Consumo GPU in watt

tok/s/W

Efficienza energetica

Stability

Varianza tra esecuzioni

VRAM

Footprint memoria GPU

Thermal

Stato di throttling

Context

Scaling contesto lungo

Inizia

Installazione in secondi. Zero dipendenze.

Homebrew
brew tap druide67/tap brew install asiai
pip
pip install asiai

Se asiai ti ha aiutato, una stella aiuta gli altri a trovarlo