¿Cuál LLM? ¿Cuál motor?
¿Qué combo gana en tu Mac?Dale a tus agentes IA
visión sobre la inferencia
Benchmark para elegir. Dashboard para monitorear. Historial para detectar problemas.La API REST de asiai permite a tus agentes IA monitorear, diagnosticar y optimizar la infraestructura LLM local de forma autónoma.
asiai bench
asiai web
{
"chip": "Apple M4 Pro",
"ram_gb": 64.0,
"memory_pressure": "normal",
"gpu_utilization_percent": 45.2,
"engines": {
"ollama": { "running": true, "models_loaded": 2 },
"lmstudio": { "running": true, "models_loaded": 1 }
}
}
{
"system": {
"chip": "Apple M4 Pro",
"gpu_cores": 20,
"gpu_utilization_percent": 45.2,
"gpu_renderer_percent": 38.1,
"thermal_state": "nominal"
},
"engines": [{
"name": "ollama",
"models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
}]
}
El problema de los LLM locales
¿Te suena?
Fragmentado
Ollama, LM Studio, mlx-lm — cada uno con su CLI, formatos y métricas. Sin terreno común.
A ciegas
Sin monitoreo VRAM en tiempo real, sin seguimiento de consumo, sin alertas térmicas. Vuelas a ciegas.
Manual
Benchmarking significa scripts curl, copiar números y comparar en hojas de cálculo.
Construido para power users de Apple Silicon
Todo lo que necesitas para benchmark, monitoreo y optimización de inferencia local.
Benchmarks cara a cara
Mismo modelo en Ollama vs LM Studio vs mlx-lm. Un comando, números reales.
7 motores, un CLI
Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Detección y configuración automática.
Observabilidad GPU
Utilización GPU en tiempo real, renderer, tiler y memoria — via IOReport pasivo. Gauges en vivo, sparklines, gráficos históricos. Ve tu GPU Apple Silicon como nunca.
Clasificación comunitaria
Comparte benchmarks anónimamente. Compara tu Mac con la comunidad. Mira lo que otros logran con el mismo chip.
Tarjeta benchmark
Un comando, una imagen compartible. Ejecuta asiai bench --card y obtén una tarjeta 1200x630 tema oscuro con modelo, chip, comparación de motores y ganador. Publícala en Reddit, X o Discord. El Speedtest de los LLMs locales.
API Agent-Ready
Construido para humanos. Listo para agentes IA. API REST con endpoints JSON, métricas Prometheus, árboles de decisión diagnósticos y señales de actividad de inferencia. Dale una URL a tu agente IA y déjalo auto-monitorearse.
¿Qué vas a descubrir?
Preguntas reales de r/LocalLLaMA, respondidas con un comando.
"¿Cuál motor es el más rápido?"
Comparación directa — la pregunta n°1 en r/LocalLLaMA.
"Monitorear un enjambre multi-agente"
LLMs ejecutándose 24/7 para agentes IA — monitorea VRAM, temperatura y rendimiento.
"Comparar eficiencia energética"
tok/s por vatio entre motores. Crítico para homelabs Mac Mini 24/7.
"Detectar regresiones tras actualizaciones"
¿La actualización de Ollama o macOS rompió tu rendimiento? Detección automática via SQLite.
"Probar soporte de contexto largo"
Benchmarks --context-size 64k. Sobrevive tu modelo a 256k de contexto?
"¿Mi Mac tiene throttling térmico?"
Detección de deriva térmica entre ejecuciones. Único en asiai.
"Benchmarks reproducibles"
Metodología MLPerf/SPEC. Warmup, mediana, decodificación greedy. Comparte con confianza.
"Diagnóstico en un comando"
asiai doctor diagnostica sistema, motores y base de datos con sugerencias de solución.
"Dashboard visual"
Dashboard web dark/light con gráficos en vivo, progreso SSE y controles de benchmark.
"Comparar LLMs cara a cara"
Mismo motor, diferentes modelos. ¿Qué cuantización gana?
"Monitoreo Prometheus + Grafana"
Expone /metrics, scrape con Prometheus, visualiza en Grafana. Observabilidad de nivel producción.
"Rastrear inferencia de agentes IA"
Actividad GPU, conexiones TCP, caché KV — sabe cuándo tus agentes piensan, están inactivos o sobrecargados. API lista para orquestadores de swarm.
Funcionando en 60 segundos
Tres comandos. Eso es todo.
Instalar
brew install asiai
Detectar
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motores encontrados
Benchmark
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Descubrimientos reales
Números de benchmarks reales en Apple Silicon.
MLX vs llama.cpp
MLX es 2,3x más rápido para arquitecturas MoE (Qwen3.5-35B-A3B) en Apple Silicon.
VRAM: 64k → 256k
La VRAM se mantiene constante de 64k a 256k con DeltaNet — no documentado en ningún otro lugar.
Motor > Modelo
Mismo modelo, mismo Mac: 30 tok/s en un motor, 71 tok/s en otro. El motor importa más.
Motores soportados
Detección automática, sin configuración.
| Engine | Puerto por defecto | API | Formato | VRAM |
|---|---|---|---|---|
| Ollama | 11434 |
Nativa | GGUF | ✔ |
| LM Studio | 1234 |
Compatible con OpenAI | GGUF + MLX | ✔ |
| mlx-lm | 8080 |
Compatible con OpenAI | MLX | — |
| llama.cpp | 8080 |
Compatible con OpenAI | GGUF | — |
| oMLX | 8000 |
Compatible con OpenAI | MLX | — |
| vllm-mlx | 8000 |
Compatible con OpenAI | MLX | — |
| Exo | 52415 |
Compatible con OpenAI | MLX | — |
Qué medimos
8 métricas, metodología consistente, cada ejecución.
tok/s
Velocidad de generación (tokens/seg)
TTFT
Tiempo al primer token
Power (W)
Consumo GPU en vatios
tok/s/W
Eficiencia energética
Stability
Varianza entre ejecuciones
VRAM
Huella de memoria GPU
Thermal
Estado de throttling
Context
Escalado contexto largo
Empezar
Instalación en segundos. Sin dependencias.
brew tap druide67/tap
brew install asiai
pip install asiai
⭐ Si asiai te ayudó, una estrella ayuda a otros a encontrarlo