Welches LLM? Welche Engine?
Welche Kombi gewinnt auf Ihrem Mac?Geben Sie Ihren KI-Agenten
Einblick in die Inferenz
Benchmarken zum Auswählen. Dashboard zum Überwachen. Verlauf zum Erkennen von Problemen.Die REST-API von asiai ermöglicht Ihren KI-Agenten, lokale LLM-Infrastruktur autonom zu überwachen, zu diagnostizieren und zu optimieren.
asiai bench
asiai web
{
"chip": "Apple M4 Pro",
"ram_gb": 64.0,
"memory_pressure": "normal",
"gpu_utilization_percent": 45.2,
"engines": {
"ollama": { "running": true, "models_loaded": 2 },
"lmstudio": { "running": true, "models_loaded": 1 }
}
}
{
"system": {
"chip": "Apple M4 Pro",
"gpu_cores": 20,
"gpu_utilization_percent": 45.2,
"gpu_renderer_percent": 38.1,
"thermal_state": "nominal"
},
"engines": [{
"name": "ollama",
"models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
}]
}
Das Problem lokaler LLMs
Kommt Ihnen das bekannt vor?
Fragmentiert
Ollama, LM Studio, mlx-lm — jede mit eigenem CLI, Formaten und Metriken. Kein gemeinsamer Nenner.
Blind
Kein Echtzeit-VRAM-Monitoring, kein Stromverbrauch-Tracking, keine Thermal-Warnungen. Sie fliegen blind.
Manuell
Benchmarking bedeutet curl-Skripte, Zahlen kopieren und in Tabellen vergleichen.
Entwickelt für Apple Silicon Power User
Alles was Sie brauchen, um lokale Inferenz zu benchmarken, überwachen und optimieren.
Direkte Vergleichs-Benchmarks
Gleiches Modell auf Ollama vs LM Studio vs mlx-lm. Ein Befehl, echte Zahlen.
7 Engines, ein CLI
Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Automatisch erkannt und konfiguriert.
GPU-Observability
GPU-Auslastung, Renderer, Tiler und Speicher in Echtzeit — via passivem IOReport. Live-Gauges, Sparklines, historische Charts. Sehen Sie Ihre Apple Silicon GPU wie nie zuvor.
Community-Rangliste
Benchmarks anonym teilen. Vergleichen Sie Ihren Mac mit der Community. Sehen Sie, was andere auf dem gleichen Chip erreichen.
Benchmark-Karte
Ein Befehl, ein teilbares Bild. Führe asiai bench --card aus und erhalte eine 1200x630 Dark-Theme-Karte mit Modell, Chip, Engine-Vergleich und Gewinner. Teile sie auf Reddit, X oder Discord. Der Speedtest für lokale LLMs.
Agent-Ready API
Für Menschen gebaut. Bereit für KI-Agenten. REST-API mit JSON-Endpunkten, Prometheus-Metriken, diagnostischen Entscheidungsbäumen und Inferenzaktivitätssignalen. Geben Sie Ihrem KI-Agenten eine URL und lassen Sie ihn sich selbst überwachen.
Was werden Sie entdecken?
Echte Fragen von r/LocalLLaMA, mit einem Befehl beantwortet.
"Welche Engine ist am schnellsten?"
Direktvergleich — die Frage Nr. 1 auf r/LocalLLaMA.
"Multi-Agent-Schwarm überwachen"
LLMs laufen 24/7 für KI-Agenten — VRAM, Temperatur und Leistung verfolgen.
"Energieeffizienz vergleichen"
tok/s pro Watt zwischen Engines. Kritisch für 24/7 Mac Mini Homelabs.
"Regressionen nach Updates erkennen"
Hat das Ollama- oder macOS-Update Ihre Leistung verschlechtert? Automatische Erkennung via SQLite.
"Langkontext-Unterstützung testen"
--context-size 64k Benchmarks. Übersteht Ihr Modell 256k Kontext?
"Drosselt mein Mac thermisch?"
Drift-Erkennung über Benchmark-Läufe hinweg. Einzigartig bei asiai.
"Reproduzierbare Benchmarks"
MLPerf/SPEC-Methodik. Warmup, Median, Greedy-Dekodierung. Mit Vertrauen teilen.
"Gesundheitscheck mit einem Befehl"
asiai doctor diagnostiziert System, Engines und Datenbank mit Lösungsvorschlägen.
"Visuelles Dashboard"
Dark/Light Web-Dashboard mit Live-Charts, SSE-Fortschritt und Benchmark-Steuerung.
"LLMs direkt vergleichen"
Gleiche Engine, verschiedene Modelle. Welche Quantisierung gewinnt?
"Prometheus + Grafana Monitoring"
Exponieren Sie /metrics, scrapen mit Prometheus, visualisieren in Grafana. Produktionsreife Observability.
"KI-Agent-Inferenz verfolgen"
GPU-Aktivität, TCP-Verbindungen, KV-Cache — wissen, wann Ihre Agenten denken, idle oder überlastet sind. API-bereit für Schwarm-Orchestratoren.
In 60 Sekunden startklar
Drei Befehle. Das war's.
Installieren
brew install asiai
Erkennen
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 Engines gefunden
Benchmarken
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Echte Entdeckungen
Zahlen aus echten Benchmarks auf Apple Silicon.
MLX vs llama.cpp
MLX ist 2,3x schneller für MoE-Architekturen (Qwen3.5-35B-A3B) auf Apple Silicon.
VRAM: 64k → 256k
VRAM bleibt konstant von 64k bis 256k Kontext mit DeltaNet — nirgendwo anders dokumentiert.
Engine > Modell
Gleiches Modell, gleicher Mac: 30 tok/s auf einer Engine, 71 tok/s auf einer anderen. Die Engine zählt mehr.
Unterstützte Engines
Automatisch erkannt, keine Konfiguration nötig.
| Engine | Standard-Port | API | Format | VRAM |
|---|---|---|---|---|
| Ollama | 11434 |
Nativ | GGUF | ✔ |
| LM Studio | 1234 |
OpenAI-kompatibel | GGUF + MLX | ✔ |
| mlx-lm | 8080 |
OpenAI-kompatibel | MLX | — |
| llama.cpp | 8080 |
OpenAI-kompatibel | GGUF | — |
| oMLX | 8000 |
OpenAI-kompatibel | MLX | — |
| vllm-mlx | 8000 |
OpenAI-kompatibel | MLX | — |
| Exo | 52415 |
OpenAI-kompatibel | MLX | — |
Was wir messen
8 Metriken, konsistente Methodik, bei jedem Lauf.
tok/s
Generierungsgeschwindigkeit (Tokens/Sek.)
TTFT
Zeit bis zum ersten Token
Power (W)
GPU-Leistungsaufnahme in Watt
tok/s/W
Energieeffizienz
Stability
Lauf-zu-Lauf-Varianz
VRAM
GPU-Speicherbedarf
Thermal
Throttling-Status
Context
Langkontext-Performance
Loslegen
Installation in Sekunden. Keine Abhängigkeiten.
brew tap druide67/tap
brew install asiai
pip install asiai
⭐ Wenn asiai Ihnen geholfen hat, hilft ein Stern anderen es zu finden