asiai logo

Welches LLM? Welche Engine?
Welche Kombi gewinnt auf Ihrem Mac?
Geben Sie Ihren KI-Agenten
Einblick in die Inferenz

Benchmarken zum Auswählen. Dashboard zum Überwachen. Verlauf zum Erkennen von Problemen.Die REST-API von asiai ermöglicht Ihren KI-Agenten, lokale LLM-Infrastruktur autonom zu überwachen, zu diagnostizieren und zu optimieren.

🧑 Mensch KI-Agent 🤖
Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready
asiai CLI benchmark

asiai bench

asiai web dashboard

asiai web

GET /api/status ≤ 500ms
{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}
GET /api/snapshot Full state
{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

Das Problem lokaler LLMs

Kommt Ihnen das bekannt vor?

Fragmentiert

Ollama, LM Studio, mlx-lm — jede mit eigenem CLI, Formaten und Metriken. Kein gemeinsamer Nenner.

Blind

Kein Echtzeit-VRAM-Monitoring, kein Stromverbrauch-Tracking, keine Thermal-Warnungen. Sie fliegen blind.

Manuell

Benchmarking bedeutet curl-Skripte, Zahlen kopieren und in Tabellen vergleichen.

Entwickelt für Apple Silicon Power User

Alles was Sie brauchen, um lokale Inferenz zu benchmarken, überwachen und optimieren.

Direkte Vergleichs-Benchmarks

Gleiches Modell auf Ollama vs LM Studio vs mlx-lm. Ein Befehl, echte Zahlen.

7 Engines, ein CLI

Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Automatisch erkannt und konfiguriert.

GPU-Observability

GPU-Auslastung, Renderer, Tiler und Speicher in Echtzeit — via passivem IOReport. Live-Gauges, Sparklines, historische Charts. Sehen Sie Ihre Apple Silicon GPU wie nie zuvor.

Community-Rangliste

Benchmarks anonym teilen. Vergleichen Sie Ihren Mac mit der Community. Sehen Sie, was andere auf dem gleichen Chip erreichen.

Benchmark-Karte

Ein Befehl, ein teilbares Bild. Führe asiai bench --card aus und erhalte eine 1200x630 Dark-Theme-Karte mit Modell, Chip, Engine-Vergleich und Gewinner. Teile sie auf Reddit, X oder Discord. Der Speedtest für lokale LLMs.

Agent-Ready API

Für Menschen gebaut. Bereit für KI-Agenten. REST-API mit JSON-Endpunkten, Prometheus-Metriken, diagnostischen Entscheidungsbäumen und Inferenzaktivitätssignalen. Geben Sie Ihrem KI-Agenten eine URL und lassen Sie ihn sich selbst überwachen.

Was werden Sie entdecken?

Echte Fragen von r/LocalLLaMA, mit einem Befehl beantwortet.

"Welche Engine ist am schnellsten?"

Direktvergleich — die Frage Nr. 1 auf r/LocalLLaMA.

"Multi-Agent-Schwarm überwachen"

LLMs laufen 24/7 für KI-Agenten — VRAM, Temperatur und Leistung verfolgen.

"Energieeffizienz vergleichen"

tok/s pro Watt zwischen Engines. Kritisch für 24/7 Mac Mini Homelabs.

"Regressionen nach Updates erkennen"

Hat das Ollama- oder macOS-Update Ihre Leistung verschlechtert? Automatische Erkennung via SQLite.

"Langkontext-Unterstützung testen"

--context-size 64k Benchmarks. Übersteht Ihr Modell 256k Kontext?

"Drosselt mein Mac thermisch?"

Drift-Erkennung über Benchmark-Läufe hinweg. Einzigartig bei asiai.

"Reproduzierbare Benchmarks"

MLPerf/SPEC-Methodik. Warmup, Median, Greedy-Dekodierung. Mit Vertrauen teilen.

"Gesundheitscheck mit einem Befehl"

asiai doctor diagnostiziert System, Engines und Datenbank mit Lösungsvorschlägen.

"Visuelles Dashboard"

Dark/Light Web-Dashboard mit Live-Charts, SSE-Fortschritt und Benchmark-Steuerung.

"LLMs direkt vergleichen"

Gleiche Engine, verschiedene Modelle. Welche Quantisierung gewinnt?

"Prometheus + Grafana Monitoring"

Exponieren Sie /metrics, scrapen mit Prometheus, visualisieren in Grafana. Produktionsreife Observability.

"KI-Agent-Inferenz verfolgen"

GPU-Aktivität, TCP-Verbindungen, KV-Cache — wissen, wann Ihre Agenten denken, idle oder überlastet sind. API-bereit für Schwarm-Orchestratoren.

In 60 Sekunden startklar

Drei Befehle. Das war's.

1

Installieren

brew install asiai
2

Erkennen

$ asiai detect ✔ ollama (11434) ✔ lmstudio (1234) ✔ mlx-lm (8080) → 3 Engines gefunden
3

Benchmarken

$ asiai bench -m qwen3.5 Engine tok/s TTFT lmstudio 71.2 42ms ollama 54.8 61ms mlx-lm 30.1 38ms

Echte Entdeckungen

Zahlen aus echten Benchmarks auf Apple Silicon.

2.3x

MLX vs llama.cpp

MLX ist 2,3x schneller für MoE-Architekturen (Qwen3.5-35B-A3B) auf Apple Silicon.

Flat

VRAM: 64k → 256k

VRAM bleibt konstant von 64k bis 256k Kontext mit DeltaNet — nirgendwo anders dokumentiert.

30 vs 71

Engine > Modell

Gleiches Modell, gleicher Mac: 30 tok/s auf einer Engine, 71 tok/s auf einer anderen. Die Engine zählt mehr.

Unterstützte Engines

Automatisch erkannt, keine Konfiguration nötig.

Engine Standard-Port API Format VRAM
Ollama 11434 Nativ GGUF
LM Studio 1234 OpenAI-kompatibel GGUF + MLX
mlx-lm 8080 OpenAI-kompatibel MLX
llama.cpp 8080 OpenAI-kompatibel GGUF
oMLX 8000 OpenAI-kompatibel MLX
vllm-mlx 8000 OpenAI-kompatibel MLX
Exo 52415 OpenAI-kompatibel MLX

Was wir messen

8 Metriken, konsistente Methodik, bei jedem Lauf.

tok/s

Generierungsgeschwindigkeit (Tokens/Sek.)

TTFT

Zeit bis zum ersten Token

Power (W)

GPU-Leistungsaufnahme in Watt

tok/s/W

Energieeffizienz

Stability

Lauf-zu-Lauf-Varianz

VRAM

GPU-Speicherbedarf

Thermal

Throttling-Status

Context

Langkontext-Performance

Loslegen

Installation in Sekunden. Keine Abhängigkeiten.

Homebrew
brew tap druide67/tap brew install asiai
pip
pip install asiai

Wenn asiai Ihnen geholfen hat, hilft ein Stern anderen es zu finden