Qual LLM? Qual motor?
Qual combo vence no seu Mac?Dê aos seus agentes IA
visão sobre a inferência
Benchmark para escolher. Dashboard para monitorar. Histórico para detectar problemas.A API REST do asiai permite que seus agentes IA monitorem, diagnostiquem e otimizem a infraestrutura LLM local de forma autônoma.
asiai bench
asiai web
{
"chip": "Apple M4 Pro",
"ram_gb": 64.0,
"memory_pressure": "normal",
"gpu_utilization_percent": 45.2,
"engines": {
"ollama": { "running": true, "models_loaded": 2 },
"lmstudio": { "running": true, "models_loaded": 1 }
}
}
{
"system": {
"chip": "Apple M4 Pro",
"gpu_cores": 20,
"gpu_utilization_percent": 45.2,
"gpu_renderer_percent": 38.1,
"thermal_state": "nominal"
},
"engines": [{
"name": "ollama",
"models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
}]
}
O problema dos LLMs locais
Parece familiar?
Fragmentado
Ollama, LM Studio, mlx-lm — cada um com seu CLI, formatos e métricas. Nenhum terreno comum.
Às cegas
Sem monitoramento VRAM em tempo real, sem rastreamento de energia, sem alertas térmicos. Você voa às cegas.
Manual
Benchmark significa scripts curl, copiar números e comparar em planilhas.
Feito para power users Apple Silicon
Tudo que você precisa para benchmark, monitoramento e otimização de inferência local.
Benchmarks frente a frente
Mesmo modelo no Ollama vs LM Studio vs mlx-lm. Um comando, números reais.
7 motores, um CLI
Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Detecção e configuração automáticas.
Observabilidade GPU
Utilização GPU em tempo real, renderer, tiler e memória — via IOReport passivo. Gauges ao vivo, sparklines, gráficos históricos. Veja sua GPU Apple Silicon como nunca.
Ranking comunitário
Compartilhe benchmarks anonimamente. Compare seu Mac com a comunidade. Veja o que outros alcançam no mesmo chip.
Cartão benchmark
Um comando, uma imagem compartilhável. Execute asiai bench --card e obtenha um cartão 1200x630 tema escuro com modelo, chip, comparação de motores e vencedor. Publique no Reddit, X ou Discord. O Speedtest dos LLMs locais.
API Agent-Ready
Feito para humanos. Pronto para agentes IA. API REST com endpoints JSON, métricas Prometheus, árvores de decisão diagnósticas e sinais de atividade de inferência. Dê uma URL ao seu agente IA e deixe-o se auto-monitorar.
O que você vai descobrir?
Perguntas reais do r/LocalLLaMA, respondidas com um comando.
"Qual motor é o mais rápido?"
Comparação direta — a pergunta n°1 no r/LocalLLaMA.
"Monitorar um enxame multi-agente"
LLMs rodando 24/7 para agentes IA — acompanhe VRAM, temperatura e desempenho.
"Comparar eficiência energética"
tok/s por watt entre motores. Crítico para homelabs Mac Mini 24/7.
"Detectar regressões após atualizações"
A atualização do Ollama ou macOS quebrou seu desempenho? Detecção automática via SQLite.
"Testar suporte a contexto longo"
Benchmarks --context-size 64k. Seu modelo sobrevive a 256k de contexto?
"Meu Mac está com throttling térmico?"
Detecção de deriva térmica entre execuções. Único no asiai.
"Benchmarks reprodutíveis"
Metodologia MLPerf/SPEC. Warmup, mediana, decodificação greedy. Compartilhe com confiança.
"Diagnóstico em um comando"
asiai doctor diagnostica sistema, motores e banco de dados com sugestões de correção.
"Dashboard visual"
Dashboard web dark/light com gráficos ao vivo, progresso SSE e controles de benchmark.
"Comparar LLMs frente a frente"
Mesmo motor, modelos diferentes. Qual quantização ganha?
"Monitoramento Prometheus + Grafana"
Exponha /metrics, scrape com Prometheus, visualize no Grafana. Observabilidade de nível produção.
"Rastrear inferência de agentes IA"
Atividade GPU, conexões TCP, cache KV — saiba quando seus agentes estão pensando, ociosos ou sobrecarregados. API pronta para orquestradores de swarm.
Funcionando em 60 segundos
Três comandos. Só isso.
Instalar
brew install asiai
Detectar
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motores encontrados
Benchmark
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
Descobertas reais
Números de benchmarks reais em Apple Silicon.
MLX vs llama.cpp
MLX é 2,3x mais rápido para arquiteturas MoE (Qwen3.5-35B-A3B) em Apple Silicon.
VRAM: 64k → 256k
A VRAM permanece constante de 64k a 256k de contexto com DeltaNet — não documentado em nenhum outro lugar.
Motor > Modelo
Mesmo modelo, mesmo Mac: 30 tok/s em um motor, 71 tok/s em outro. O motor importa mais.
Motores suportados
Detecção automática, zero configuração.
| Engine | Porta padrão | API | Formato | VRAM |
|---|---|---|---|---|
| Ollama | 11434 |
Nativa | GGUF | ✔ |
| LM Studio | 1234 |
Compatível com OpenAI | GGUF + MLX | ✔ |
| mlx-lm | 8080 |
Compatível com OpenAI | MLX | — |
| llama.cpp | 8080 |
Compatível com OpenAI | GGUF | — |
| oMLX | 8000 |
Compatível com OpenAI | MLX | — |
| vllm-mlx | 8000 |
Compatível com OpenAI | MLX | — |
| Exo | 52415 |
Compatível com OpenAI | MLX | — |
O que medimos
8 métricas, metodologia consistente, cada execução.
tok/s
Velocidade de geração (tokens/seg)
TTFT
Tempo ao primeiro token
Power (W)
Consumo GPU em watts
tok/s/W
Eficiência energética
Stability
Variância entre execuções
VRAM
Pegada de memória GPU
Thermal
Estado de throttling
Context
Escala contexto longo
Começar
Instalação em segundos. Zero dependências.
brew tap druide67/tap
brew install asiai
pip install asiai
⭐ Se o asiai te ajudou, uma estrela ajuda outros a encontrá-lo