Welches LLM? Welche Engine?
Welche Kombi gewinnt auf Ihrem Mac?Geben Sie Ihren KI-Agenten
Einblick in die Inferenz

Name: asiai
Author: Jean-Marc Nahlovsky

Benchmarken zum Auswählen. Dashboard zum Überwachen. Verlauf zum Erkennen von Problemen.Die REST-API von asiai ermöglicht Ihren KI-Agenten, lokale LLM-Infrastruktur autonom zu überwachen, zu diagnostizieren und zu optimieren.

🧑 Mensch KI-Agent 🤖

Loslegen Rangliste Auf GitHub ansehen Agent-Guide API-Referenz Geben Sie Ihrer KI diese URL

Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready

asiai bench

asiai web

GET /api/status ≤ 500ms

{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}

GET /api/snapshot Full state

{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

Das Problem lokaler LLMs

Kommt Ihnen das bekannt vor?

Fragmentiert

Ollama, LM Studio, mlx-lm — jede mit eigenem CLI, Formaten und Metriken. Kein gemeinsamer Nenner.

Blind

Kein Echtzeit-VRAM-Monitoring, kein Stromverbrauch-Tracking, keine Thermal-Warnungen. Sie fliegen blind.

Manuell

Benchmarking bedeutet curl-Skripte, Zahlen kopieren und in Tabellen vergleichen.

Entwickelt für Apple Silicon Power User

Alles was Sie brauchen, um lokale Inferenz zu benchmarken, überwachen und optimieren.

Direkte Vergleichs-Benchmarks

Gleiches Modell auf Ollama vs LM Studio vs mlx-lm. Ein Befehl, echte Zahlen.

7 Engines, ein CLI

Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Automatisch erkannt und konfiguriert.

GPU-Observability

GPU-Auslastung, Renderer, Tiler und Speicher in Echtzeit — via passivem IOReport. Live-Gauges, Sparklines, historische Charts. Sehen Sie Ihre Apple Silicon GPU wie nie zuvor.

Community-Rangliste

Benchmarks anonym teilen. Vergleichen Sie Ihren Mac mit der Community. Sehen Sie, was andere auf dem gleichen Chip erreichen.

Benchmark-Karte

Ein Befehl, ein teilbares Bild. Führe asiai bench --card aus und erhalte eine 1200x630 Dark-Theme-Karte mit Modell, Chip, Engine-Vergleich und Gewinner. Teile sie auf Reddit, X oder Discord. Der Speedtest für lokale LLMs.

Agent-Ready API

Für Menschen gebaut. Bereit für KI-Agenten. REST-API mit JSON-Endpunkten, Prometheus-Metriken, diagnostischen Entscheidungsbäumen und Inferenzaktivitätssignalen. Geben Sie Ihrem KI-Agenten eine URL und lassen Sie ihn sich selbst überwachen.

Was werden Sie entdecken?

Echte Fragen von r/LocalLLaMA, mit einem Befehl beantwortet.

"Welche Engine ist am schnellsten?"

Direktvergleich — die Frage Nr. 1 auf r/LocalLLaMA.

"Multi-Agent-Schwarm überwachen"

LLMs laufen 24/7 für KI-Agenten — VRAM, Temperatur und Leistung verfolgen.

"Energieeffizienz vergleichen"

tok/s pro Watt zwischen Engines. Kritisch für 24/7 Mac Mini Homelabs.

"Regressionen nach Updates erkennen"

Hat das Ollama- oder macOS-Update Ihre Leistung verschlechtert? Automatische Erkennung via SQLite.

"Langkontext-Unterstützung testen"

--context-size 64k Benchmarks. Übersteht Ihr Modell 256k Kontext?

"Drosselt mein Mac thermisch?"

Drift-Erkennung über Benchmark-Läufe hinweg. Einzigartig bei asiai.

"Reproduzierbare Benchmarks"

MLPerf/SPEC-Methodik. Warmup, Median, Greedy-Dekodierung. Mit Vertrauen teilen.

"Gesundheitscheck mit einem Befehl"

asiai doctor diagnostiziert System, Engines und Datenbank mit Lösungsvorschlägen.

"Visuelles Dashboard"

Dark/Light Web-Dashboard mit Live-Charts, SSE-Fortschritt und Benchmark-Steuerung.

"LLMs direkt vergleichen"

Gleiche Engine, verschiedene Modelle. Welche Quantisierung gewinnt?

"Prometheus + Grafana Monitoring"

Exponieren Sie /metrics, scrapen mit Prometheus, visualisieren in Grafana. Produktionsreife Observability.

"KI-Agent-Inferenz verfolgen"

GPU-Aktivität, TCP-Verbindungen, KV-Cache — wissen, wann Ihre Agenten denken, idle oder überlastet sind. API-bereit für Schwarm-Orchestratoren.

In 60 Sekunden startklar

Drei Befehle. Das war's.

Installieren

brew install asiai

Erkennen

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 Engines gefunden

Benchmarken

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

Echte Entdeckungen

Zahlen aus echten Benchmarks auf Apple Silicon.

2.3x

MLX vs llama.cpp

MLX ist 2,3x schneller für MoE-Architekturen (Qwen3.5-35B-A3B) auf Apple Silicon.

Flat

VRAM: 64k → 256k

VRAM bleibt konstant von 64k bis 256k Kontext mit DeltaNet — nirgendwo anders dokumentiert.

30 vs 71

Engine > Modell

Gleiches Modell, gleicher Mac: 30 tok/s auf einer Engine, 71 tok/s auf einer anderen. Die Engine zählt mehr.

Unterstützte Engines

Automatisch erkannt, keine Konfiguration nötig.

Engine	Standard-Port	API	Format	VRAM
Ollama	`11434`	Nativ	GGUF	✔
LM Studio	`1234`	OpenAI-kompatibel	GGUF + MLX	✔
mlx-lm	`8080`	OpenAI-kompatibel	MLX	—
llama.cpp	`8080`	OpenAI-kompatibel	GGUF	—
oMLX	`8000`	OpenAI-kompatibel	MLX	—
vllm-mlx	`8000`	OpenAI-kompatibel	MLX	—
Exo	`52415`	OpenAI-kompatibel	MLX	—

Was wir messen

8 Metriken, konsistente Methodik, bei jedem Lauf.

tok/s

Generierungsgeschwindigkeit (Tokens/Sek.)

TTFT

Zeit bis zum ersten Token

Power (W)

GPU-Leistungsaufnahme in Watt

tok/s/W

Energieeffizienz

Stability

Lauf-zu-Lauf-Varianz

VRAM

GPU-Speicherbedarf

Thermal

Throttling-Status

Context

Langkontext-Performance

Loslegen

Installation in Sekunden. Keine Abhängigkeiten.

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub Dokumentation Methodik Apache 2.0 ❤ Sponsor

⭐ Wenn asiai Ihnen geholfen hat, hilft ein Stern anderen es zu finden

Welches LLM? Welche Engine?Welche Kombi gewinnt auf Ihrem Mac?Geben Sie Ihren KI-AgentenEinblick in die Inferenz