Qual LLM? Qual motor?
Qual combo vence no seu Mac?Dê aos seus agentes IA
visão sobre a inferência

Name: asiai
Author: Jean-Marc Nahlovsky

Benchmark para escolher. Dashboard para monitorar. Histórico para detectar problemas.A API REST do asiai permite que seus agentes IA monitorem, diagnostiquem e otimizem a infraestrutura LLM local de forma autônoma.

🧑 Humano Agente IA 🤖

Começar Ranking Ver no GitHub Guia do Agente Referência API Dê esta URL à sua IA

Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready

asiai bench

asiai web

GET /api/status ≤ 500ms

{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}

GET /api/snapshot Full state

{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

O problema dos LLMs locais

Parece familiar?

Fragmentado

Ollama, LM Studio, mlx-lm — cada um com seu CLI, formatos e métricas. Nenhum terreno comum.

Às cegas

Sem monitoramento VRAM em tempo real, sem rastreamento de energia, sem alertas térmicos. Você voa às cegas.

Manual

Benchmark significa scripts curl, copiar números e comparar em planilhas.

Feito para power users Apple Silicon

Tudo que você precisa para benchmark, monitoramento e otimização de inferência local.

Benchmarks frente a frente

Mesmo modelo no Ollama vs LM Studio vs mlx-lm. Um comando, números reais.

7 motores, um CLI

Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. Detecção e configuração automáticas.

Observabilidade GPU

Utilização GPU em tempo real, renderer, tiler e memória — via IOReport passivo. Gauges ao vivo, sparklines, gráficos históricos. Veja sua GPU Apple Silicon como nunca.

Ranking comunitário

Compartilhe benchmarks anonimamente. Compare seu Mac com a comunidade. Veja o que outros alcançam no mesmo chip.

Cartão benchmark

Um comando, uma imagem compartilhável. Execute asiai bench --card e obtenha um cartão 1200x630 tema escuro com modelo, chip, comparação de motores e vencedor. Publique no Reddit, X ou Discord. O Speedtest dos LLMs locais.

API Agent-Ready

Feito para humanos. Pronto para agentes IA. API REST com endpoints JSON, métricas Prometheus, árvores de decisão diagnósticas e sinais de atividade de inferência. Dê uma URL ao seu agente IA e deixe-o se auto-monitorar.

O que você vai descobrir?

Perguntas reais do r/LocalLLaMA, respondidas com um comando.

"Qual motor é o mais rápido?"

Comparação direta — a pergunta n°1 no r/LocalLLaMA.

"Monitorar um enxame multi-agente"

LLMs rodando 24/7 para agentes IA — acompanhe VRAM, temperatura e desempenho.

"Comparar eficiência energética"

tok/s por watt entre motores. Crítico para homelabs Mac Mini 24/7.

"Detectar regressões após atualizações"

A atualização do Ollama ou macOS quebrou seu desempenho? Detecção automática via SQLite.

"Testar suporte a contexto longo"

Benchmarks --context-size 64k. Seu modelo sobrevive a 256k de contexto?

"Meu Mac está com throttling térmico?"

Detecção de deriva térmica entre execuções. Único no asiai.

"Benchmarks reprodutíveis"

Metodologia MLPerf/SPEC. Warmup, mediana, decodificação greedy. Compartilhe com confiança.

"Diagnóstico em um comando"

asiai doctor diagnostica sistema, motores e banco de dados com sugestões de correção.

"Dashboard visual"

Dashboard web dark/light com gráficos ao vivo, progresso SSE e controles de benchmark.

"Comparar LLMs frente a frente"

Mesmo motor, modelos diferentes. Qual quantização ganha?

"Monitoramento Prometheus + Grafana"

Exponha /metrics, scrape com Prometheus, visualize no Grafana. Observabilidade de nível produção.

"Rastrear inferência de agentes IA"

Atividade GPU, conexões TCP, cache KV — saiba quando seus agentes estão pensando, ociosos ou sobrecarregados. API pronta para orquestradores de swarm.

Funcionando em 60 segundos

Três comandos. Só isso.

Instalar

brew install asiai

Detectar

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3 motores encontrados

Benchmark

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

Descobertas reais

Números de benchmarks reais em Apple Silicon.

2.3x

MLX vs llama.cpp

MLX é 2,3x mais rápido para arquiteturas MoE (Qwen3.5-35B-A3B) em Apple Silicon.

Flat

VRAM: 64k → 256k

A VRAM permanece constante de 64k a 256k de contexto com DeltaNet — não documentado em nenhum outro lugar.

30 vs 71

Motor > Modelo

Mesmo modelo, mesmo Mac: 30 tok/s em um motor, 71 tok/s em outro. O motor importa mais.

Motores suportados

Detecção automática, zero configuração.

Engine	Porta padrão	API	Formato	VRAM
Ollama	`11434`	Nativa	GGUF	✔
LM Studio	`1234`	Compatível com OpenAI	GGUF + MLX	✔
mlx-lm	`8080`	Compatível com OpenAI	MLX	—
llama.cpp	`8080`	Compatível com OpenAI	GGUF	—
oMLX	`8000`	Compatível com OpenAI	MLX	—
vllm-mlx	`8000`	Compatível com OpenAI	MLX	—
Exo	`52415`	Compatível com OpenAI	MLX	—

O que medimos

8 métricas, metodologia consistente, cada execução.

tok/s

Velocidade de geração (tokens/seg)

TTFT

Tempo ao primeiro token

Power (W)

Consumo GPU em watts

tok/s/W

Eficiência energética

Stability

Variância entre execuções

VRAM

Pegada de memória GPU

Thermal

Estado de throttling

Context

Escala contexto longo

Começar

Instalação em segundos. Zero dependências.

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub Documentação Metodologia Apache 2.0 ❤ Sponsor

⭐ Se o asiai te ajudou, uma estrela ajuda outros a encontrá-lo

Qual LLM? Qual motor?Qual combo vence no seu Mac?Dê aos seus agentes IAvisão sobre a inferência