asiai bench
asiai web
{
"chip": "Apple M4 Pro",
"ram_gb": 64.0,
"memory_pressure": "normal",
"gpu_utilization_percent": 45.2,
"engines": {
"ollama": { "running": true, "models_loaded": 2 },
"lmstudio": { "running": true, "models_loaded": 1 }
}
}
{
"system": {
"chip": "Apple M4 Pro",
"gpu_cores": 20,
"gpu_utilization_percent": 45.2,
"gpu_renderer_percent": 38.1,
"thermal_state": "nominal"
},
"engines": [{
"name": "ollama",
"models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
}]
}
ローカルLLMの課題
心当たりありませんか?
断片化
Ollama、LM Studio、mlx-lm — それぞれ独自のCLI、フォーマット、指標。共通基盤なし。
盲目
リアルタイムVRAM監視なし、電力追跡なし、温度アラートなし。完全に盲目飛行。
手動
ベンチマーク=curlスクリプト、数値のコピペ、スプレッドシートで比較。
Apple Siliconパワーユーザーのために設計
ローカル推論のベンチマーク、監視、最適化に必要なすべて。
ヘッドツーヘッド・ベンチマーク
同じモデルをOllama vs LM Studio vs mlx-lmで比較。コマンド一発、実測値。
7エンジン、1つのCLI
Ollama、LM Studio、mlx-lm、llama.cpp、oMLX、vllm-mlx、Exo。自動検出、自動設定。
GPUオブザーバビリティ
GPU使用率、レンダラー、タイラー、メモリをリアルタイム計測 — パッシブIOReportで。ライブゲージ、スパークライン、履歴チャート。Apple Silicon GPUをかつてない精度で可視化。
コミュニティリーダーボード
ベンチマークを匿名で共有。コミュニティとMacを比較。同じチップでの他のユーザーの結果を確認。
ベンチマークカード
コマンド1つで共有可能な画像。asiai bench --cardを実行すると、モデル、チップ、エンジン比較、勝者が入った1200x630ダークテーマカードが生成。Reddit、X、Discordで共有。ローカルLLMのSpeedtest。
エージェント対応API
人間のために構築。AIエージェント対応。JSONエンドポイント、Prometheusメトリクス、診断デシジョンツリー、推論アクティビティシグナルを備えたREST API。AIエージェントにURLを渡して自己監視させましょう。
何を発見できる?
r/LocalLLaMAからのリアルな疑問に、コマンド一発で回答。
"どのエンジンが最速?"
直接対決 — r/LocalLLaMAで最も多い質問。
"マルチエージェント群の監視"
AIエージェント用LLMを24時間稼働 — VRAM、温度、パフォーマンスを追跡。
"エネルギー効率を比較"
エンジン間のワットあたりtok/s。24時間稼働のMac Miniホームラボに不可欠。
"更新後のリグレッション検出"
OllamaやmacOSのアップデートでパフォーマンスが低下?SQLiteで自動検出。
"ロングコンテキスト対応をテスト"
--context-size 64kベンチマーク。あなたのモデルは256kコンテキストに耐えられる?
"Macがサーマルスロットリングしてる?"
ベンチマーク間のドリフト検出。asiai独自の機能。
"再現可能なベンチマーク"
MLPerf/SPEC準拠の方法論。ウォームアップ、中央値、greedy decoding。自信を持って共有。
"コマンド一発でヘルスチェック"
asiai doctorがシステム、エンジン、データベースを診断し修正案を提示。
"ビジュアルダッシュボード"
ダーク/ライト対応Webダッシュボード。ライブチャート、SSE進捗、ベンチマーク操作。
"LLMを直接対決で比較"
同じエンジン、異なるモデル。どの量子化が勝つ?
"Prometheus + Grafana監視"
/metricsを公開、Prometheusでスクレイプ、Grafanaで可視化。本番品質の可観測性。
"AIエージェント推論を追跡"
GPUアクティビティ、TCP接続、KVキャッシュ — エージェントが推論中か、アイドルか、過負荷かを把握。スウォームオーケストレーターに対応するAPI。
60秒で稼働開始
コマンド3つ。以上。
インストール
brew install asiai
検出
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3つのエンジンを検出
ベンチマーク
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
実際の発見
Apple Silicon上での実際のベンチマークデータ。
MLX vs llama.cpp
Apple SiliconでMoEアーキテクチャ(Qwen3.5-35B-A3B)にはMLXが2.3倍高速。
VRAM: 64k → 256k
DeltaNetでは64kから256kコンテキストでもVRAMが一定 — 他のどこにも文書化されていない。
エンジン > モデル
同じモデル、同じMac:一方のエンジンで30 tok/s、別のエンジンで71 tok/s。エンジンの方が重要。
何を測定するか
8つの指標、一貫した方法論、毎回。
tok/s
生成速度 (tokens/sec)
TTFT
最初のトークンまでの時間
Power (W)
GPU消費電力(ワット)
tok/s/W
エネルギー効率
Stability
実行間バラつき
VRAM
GPUメモリ使用量
Thermal
スロットリング状態
Context
ロングコンテキスト性能スケーリング
始めよう
秒速インストール。依存関係ゼロ。
brew tap druide67/tap
brew install asiai
pip install asiai