哪个LLM?哪个引擎?
哪种组合在你的Mac上最强?让你的AI智能体
洞察推理状态
跑分来选择。仪表盘来监控。历史记录来发现问题。asiai的REST API让你的AI智能体自主监控、诊断和优化本地LLM基础设施。
asiai bench
asiai web
{
"chip": "Apple M4 Pro",
"ram_gb": 64.0,
"memory_pressure": "normal",
"gpu_utilization_percent": 45.2,
"engines": {
"ollama": { "running": true, "models_loaded": 2 },
"lmstudio": { "running": true, "models_loaded": 1 }
}
}
{
"system": {
"chip": "Apple M4 Pro",
"gpu_cores": 20,
"gpu_utilization_percent": 45.2,
"gpu_renderer_percent": 38.1,
"thermal_state": "nominal"
},
"engines": [{
"name": "ollama",
"models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
}]
}
本地LLM的问题
听起来熟悉吗?
碎片化
Ollama、LM Studio、mlx-lm — 各有各的CLI、格式和指标。毫无统一标准。
盲目
没有实时VRAM监控,没有功耗追踪,没有温度告警。完全在盲飞。
手动
跑分意味着curl脚本、复制粘贴数字、用电子表格比较。
为Apple Silicon高级用户打造
跑分、监控、优化本地推理所需的一切。
一对一跑分对决
同一模型在Ollama vs LM Studio vs mlx-lm上对比。一条命令,真实数据。
7个引擎,一个CLI
Ollama、LM Studio、mlx-lm、llama.cpp、oMLX、vllm-mlx、Exo。自动检测,自动配置。
GPU可观测性
实时GPU利用率、渲染器、Tiler和内存 — 通过被动IOReport。实时仪表、迷你图、历史图表。以前所未有的方式观察Apple Silicon GPU。
社区排行榜
匿名分享基准测试。将你的Mac与社区比较。查看其他人在相同芯片上的表现。
跑分卡片
一条命令,一张可分享图片。运行asiai bench --card,获得1200x630深色主题卡片,含模型、芯片、引擎对比和赢家。发到Reddit、X或Discord。本地LLM的Speedtest。
智能体就绪API
为人类而建。为AI智能体而备。REST API提供JSON端点、Prometheus指标、诊断决策树和推理活动信号。给你的AI智能体一个URL,让它自我监控。
你会发现什么?
来自r/LocalLLaMA的真实问题,一条命令解答。
"哪个引擎最快?"
一对一对比 — r/LocalLLaMA上的头号问题。
"监控多智能体集群"
LLM全天候运行AI智能体 — 追踪VRAM、温度和性能。
"对比能效"
不同引擎间的tok/s每瓦特。对7x24小时Mac Mini家庭实验室至关重要。
"更新后检测回归"
Ollama或macOS更新导致性能下降?通过SQLite自动检测。
"测试长上下文支持"
--context-size 64k跑分。你的模型能扛住256k上下文吗?
"我的Mac是否在温度降频?"
跨跑分轮次的漂移检测。asiai独有功能。
"可复现的跑分"
MLPerf/SPEC方法论。预热、中位数、greedy解码。放心分享。
"一条命令健康检查"
asiai doctor诊断系统、引擎和数据库,并提供修复建议。
"可视化仪表盘"
深色/浅色Web仪表盘,实时图表、SSE进度、跑分控制。
"LLM一对一比较"
同一引擎,不同模型。哪种量化方案胜出?
"Prometheus + Grafana监控"
暴露/metrics,用Prometheus抓取,在Grafana中可视化。生产级可观测性。
"追踪AI智能体推理"
GPU活动、TCP连接、KV缓存 — 了解你的智能体何时在推理、空闲或过载。API可直接对接集群编排器。
60秒启动运行
三条命令,搞定。
安装
brew install asiai
检测
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 发现3个引擎
跑分
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
真实发现
Apple Silicon上真实跑分的数据。
MLX vs llama.cpp
在Apple Silicon上,MLX对MoE架构(Qwen3.5-35B-A3B)快2.3倍。
VRAM: 64k → 256k
使用DeltaNet时,VRAM从64k到256k上下文保持不变 — 其他地方从未记录。
引擎 > 模型
同一模型,同一Mac:一个引擎30 tok/s,另一个71 tok/s。引擎比模型更重要。
我们测量什么
8项指标,一致的方法论,每次运行。
tok/s
生成速度 (tokens/sec)
TTFT
首token延迟
Power (W)
GPU功耗(瓦特)
tok/s/W
能效
Stability
跨轮次方差
VRAM
GPU显存占用
Thermal
降频状态
Context
长上下文性能伸缩
开始使用
秒级安装。零依赖。
brew tap druide67/tap
brew install asiai
pip install asiai