¿Cuál LLM? ¿Cuál motor?
¿Qué combo gana en tu Mac?Dale a tus agentes IA
visión sobre la inferencia

Name: asiai
Author: Jean-Marc Nahlovsky

Benchmark para elegir. Dashboard para monitorear. Historial para detectar problemas.La API REST de asiai permite a tus agentes IA monitorear, diagnosticar y optimizar la infraestructura LLM local de forma autónoma.

🧑 Humano Agente IA 🤖

Empezar Clasificación Ver en GitHub Guía de Agentes Referencia API Dale esta URL a tu IA

Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready

asiai bench

asiai web

GET /api/status ≤ 500ms

{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}

GET /api/snapshot Full state

{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

El problema de los LLM locales

¿Te suena?

Fragmentado

Ollama, LM Studio, mlx-lm — cada uno con su CLI, formatos y métricas. Sin terreno común.

A ciegas

Sin monitoreo VRAM en tiempo real, sin seguimiento de consumo, sin alertas térmicas. Vuelas a ciegas.

Manual

Benchmarking significa scripts curl, copiar números y comparar en hojas de cálculo.

Construido para power users de Apple Silicon

Todo lo que necesitas para benchmark, monitoreo y optimización de inferencia local.

Benchmarks cara a cara

Mismo modelo en Ollama vs LM Studio vs mlx-lm. Un comando, números reales.

7 motores, un CLI

Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Detección y configuración automática.

Observabilidad GPU

Utilización GPU en tiempo real, renderer, tiler y memoria — via IOReport pasivo. Gauges en vivo, sparklines, gráficos históricos. Ve tu GPU Apple Silicon como nunca.

Clasificación comunitaria

Comparte benchmarks anónimamente. Compara tu Mac con la comunidad. Mira lo que otros logran con el mismo chip.

Tarjeta benchmark

Un comando, una imagen compartible. Ejecuta asiai bench --card y obtén una tarjeta 1200x630 tema oscuro con modelo, chip, comparación de motores y ganador. Publícala en Reddit, X o Discord. El Speedtest de los LLMs locales.

API Agent-Ready

Construido para humanos. Listo para agentes IA. API REST con endpoints JSON, métricas Prometheus, árboles de decisión diagnósticos y señales de actividad de inferencia. Dale una URL a tu agente IA y déjalo auto-monitorearse.

¿Qué vas a descubrir?

Preguntas reales de r/LocalLLaMA, respondidas con un comando.

"¿Cuál motor es el más rápido?"

Comparación directa — la pregunta n°1 en r/LocalLLaMA.

"Monitorear un enjambre multi-agente"

LLMs ejecutándose 24/7 para agentes IA — monitorea VRAM, temperatura y rendimiento.

"Comparar eficiencia energética"

tok/s por vatio entre motores. Crítico para homelabs Mac Mini 24/7.

"Detectar regresiones tras actualizaciones"

¿La actualización de Ollama o macOS rompió tu rendimiento? Detección automática via SQLite.

"Probar soporte de contexto largo"

Benchmarks --context-size 64k. Sobrevive tu modelo a 256k de contexto?

"¿Mi Mac tiene throttling térmico?"

Detección de deriva térmica entre ejecuciones. Único en asiai.

"Benchmarks reproducibles"

Metodología MLPerf/SPEC. Warmup, mediana, decodificación greedy. Comparte con confianza.

"Diagnóstico en un comando"

asiai doctor diagnostica sistema, motores y base de datos con sugerencias de solución.

"Dashboard visual"

Dashboard web dark/light con gráficos en vivo, progreso SSE y controles de benchmark.

"Comparar LLMs cara a cara"

Mismo motor, diferentes modelos. ¿Qué cuantización gana?

"Monitoreo Prometheus + Grafana"

Expone /metrics, scrape con Prometheus, visualiza en Grafana. Observabilidad de nivel producción.

"Rastrear inferencia de agentes IA"

Actividad GPU, conexiones TCP, caché KV — sabe cuándo tus agentes piensan, están inactivos o sobrecargados. API lista para orquestadores de swarm.

Funcionando en 60 segundos

Tres comandos. Eso es todo.

Instalar

brew install asiai

Detectar

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motores encontrados

Benchmark

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

Descubrimientos reales

Números de benchmarks reales en Apple Silicon.

2.3x

MLX vs llama.cpp

MLX es 2,3x más rápido para arquitecturas MoE (Qwen3.5-35B-A3B) en Apple Silicon.

Flat

VRAM: 64k → 256k

La VRAM se mantiene constante de 64k a 256k con DeltaNet — no documentado en ningún otro lugar.

30 vs 71

Motor > Modelo

Mismo modelo, mismo Mac: 30 tok/s en un motor, 71 tok/s en otro. El motor importa más.

Motores soportados

Detección automática, sin configuración.

Engine	Puerto por defecto	API	Formato	VRAM
Ollama	`11434`	Nativa	GGUF	✔
LM Studio	`1234`	Compatible con OpenAI	GGUF + MLX	✔
mlx-lm	`8080`	Compatible con OpenAI	MLX	—
llama.cpp	`8080`	Compatible con OpenAI	GGUF	—
oMLX	`8000`	Compatible con OpenAI	MLX	—
vllm-mlx	`8000`	Compatible con OpenAI	MLX	—
Exo	`52415`	Compatible con OpenAI	MLX	—

Qué medimos

8 métricas, metodología consistente, cada ejecución.

tok/s

Velocidad de generación (tokens/seg)

TTFT

Tiempo al primer token

Power (W)

Consumo GPU en vatios

tok/s/W

Eficiencia energética

Stability

Varianza entre ejecuciones

VRAM

Huella de memoria GPU

Thermal

Estado de throttling

Context

Escalado contexto largo

Empezar

Instalación en segundos. Sin dependencias.

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub Documentación Metodología Apache 2.0 ❤ Sponsor

⭐ Si asiai te ayudó, una estrella ayuda a otros a encontrarlo

¿Cuál LLM? ¿Cuál motor?¿Qué combo gana en tu Mac?Dale a tus agentes IAvisión sobre la inferencia