asiai logo

¿Cuál LLM? ¿Cuál motor?
¿Qué combo gana en tu Mac?
Dale a tus agentes IA
visión sobre la inferencia

Benchmark para elegir. Dashboard para monitorear. Historial para detectar problemas.La API REST de asiai permite a tus agentes IA monitorear, diagnosticar y optimizar la infraestructura LLM local de forma autónoma.

🧑 Humano Agente IA 🤖
Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready
asiai CLI benchmark

asiai bench

asiai web dashboard

asiai web

GET /api/status ≤ 500ms
{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}
GET /api/snapshot Full state
{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

El problema de los LLM locales

¿Te suena?

Fragmentado

Ollama, LM Studio, mlx-lm — cada uno con su CLI, formatos y métricas. Sin terreno común.

A ciegas

Sin monitoreo VRAM en tiempo real, sin seguimiento de consumo, sin alertas térmicas. Vuelas a ciegas.

Manual

Benchmarking significa scripts curl, copiar números y comparar en hojas de cálculo.

Construido para power users de Apple Silicon

Todo lo que necesitas para benchmark, monitoreo y optimización de inferencia local.

Benchmarks cara a cara

Mismo modelo en Ollama vs LM Studio vs mlx-lm. Un comando, números reales.

7 motores, un CLI

Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Detección y configuración automática.

Observabilidad GPU

Utilización GPU en tiempo real, renderer, tiler y memoria — via IOReport pasivo. Gauges en vivo, sparklines, gráficos históricos. Ve tu GPU Apple Silicon como nunca.

Clasificación comunitaria

Comparte benchmarks anónimamente. Compara tu Mac con la comunidad. Mira lo que otros logran con el mismo chip.

Tarjeta benchmark

Un comando, una imagen compartible. Ejecuta asiai bench --card y obtén una tarjeta 1200x630 tema oscuro con modelo, chip, comparación de motores y ganador. Publícala en Reddit, X o Discord. El Speedtest de los LLMs locales.

API Agent-Ready

Construido para humanos. Listo para agentes IA. API REST con endpoints JSON, métricas Prometheus, árboles de decisión diagnósticos y señales de actividad de inferencia. Dale una URL a tu agente IA y déjalo auto-monitorearse.

¿Qué vas a descubrir?

Preguntas reales de r/LocalLLaMA, respondidas con un comando.

"¿Cuál motor es el más rápido?"

Comparación directa — la pregunta n°1 en r/LocalLLaMA.

"Monitorear un enjambre multi-agente"

LLMs ejecutándose 24/7 para agentes IA — monitorea VRAM, temperatura y rendimiento.

"Comparar eficiencia energética"

tok/s por vatio entre motores. Crítico para homelabs Mac Mini 24/7.

"Detectar regresiones tras actualizaciones"

¿La actualización de Ollama o macOS rompió tu rendimiento? Detección automática via SQLite.

"Probar soporte de contexto largo"

Benchmarks --context-size 64k. Sobrevive tu modelo a 256k de contexto?

"¿Mi Mac tiene throttling térmico?"

Detección de deriva térmica entre ejecuciones. Único en asiai.

"Benchmarks reproducibles"

Metodología MLPerf/SPEC. Warmup, mediana, decodificación greedy. Comparte con confianza.

"Diagnóstico en un comando"

asiai doctor diagnostica sistema, motores y base de datos con sugerencias de solución.

"Dashboard visual"

Dashboard web dark/light con gráficos en vivo, progreso SSE y controles de benchmark.

"Comparar LLMs cara a cara"

Mismo motor, diferentes modelos. ¿Qué cuantización gana?

"Monitoreo Prometheus + Grafana"

Expone /metrics, scrape con Prometheus, visualiza en Grafana. Observabilidad de nivel producción.

"Rastrear inferencia de agentes IA"

Actividad GPU, conexiones TCP, caché KV — sabe cuándo tus agentes piensan, están inactivos o sobrecargados. API lista para orquestadores de swarm.

Funcionando en 60 segundos

Tres comandos. Eso es todo.

1

Instalar

brew install asiai
2

Detectar

$ asiai detect ✔ ollama (11434) ✔ lmstudio (1234) ✔ mlx-lm (8080) → 3 motores encontrados
3

Benchmark

$ asiai bench -m qwen3.5 Engine tok/s TTFT lmstudio 71.2 42ms ollama 54.8 61ms mlx-lm 30.1 38ms

Descubrimientos reales

Números de benchmarks reales en Apple Silicon.

2.3x

MLX vs llama.cpp

MLX es 2,3x más rápido para arquitecturas MoE (Qwen3.5-35B-A3B) en Apple Silicon.

Flat

VRAM: 64k → 256k

La VRAM se mantiene constante de 64k a 256k con DeltaNet — no documentado en ningún otro lugar.

30 vs 71

Motor > Modelo

Mismo modelo, mismo Mac: 30 tok/s en un motor, 71 tok/s en otro. El motor importa más.

Motores soportados

Detección automática, sin configuración.

Engine Puerto por defecto API Formato VRAM
Ollama 11434 Nativa GGUF
LM Studio 1234 Compatible con OpenAI GGUF + MLX
mlx-lm 8080 Compatible con OpenAI MLX
llama.cpp 8080 Compatible con OpenAI GGUF
oMLX 8000 Compatible con OpenAI MLX
vllm-mlx 8000 Compatible con OpenAI MLX
Exo 52415 Compatible con OpenAI MLX

Qué medimos

8 métricas, metodología consistente, cada ejecución.

tok/s

Velocidad de generación (tokens/seg)

TTFT

Tiempo al primer token

Power (W)

Consumo GPU en vatios

tok/s/W

Eficiencia energética

Stability

Varianza entre ejecuciones

VRAM

Huella de memoria GPU

Thermal

Estado de throttling

Context

Escalado contexto largo

Empezar

Instalación en segundos. Sin dependencias.

Homebrew
brew tap druide67/tap brew install asiai
pip
pip install asiai

Si asiai te ayudó, una estrella ayuda a otros a encontrarlo