どのLLM？どのエンジン？
あなたのMacで最強の組み合わせは？AIエージェントに
推論の可視性を

Name: asiai
Author: Jean-Marc Nahlovsky

ベンチマークで選ぶ。ダッシュボードで監視。履歴で問題を発見。asiaiのREST APIにより、AIエージェントがローカルLLMインフラを自律的に監視・診断・最適化できます。

🧑 ヒューマン AIエージェント 🤖

始めるランキング GitHubで見るエージェントガイド APIリファレンスこのURLをAIに渡す

Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready

asiai bench

asiai web

GET /api/status ≤ 500ms

{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}

GET /api/snapshot Full state

{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

ローカルLLMの課題

心当たりありませんか？

断片化

Ollama、LM Studio、mlx-lm — それぞれ独自のCLI、フォーマット、指標。共通基盤なし。

盲目

リアルタイムVRAM監視なし、電力追跡なし、温度アラートなし。完全に盲目飛行。

手動

ベンチマーク＝curlスクリプト、数値のコピペ、スプレッドシートで比較。

Apple Siliconパワーユーザーのために設計

ローカル推論のベンチマーク、監視、最適化に必要なすべて。

ヘッドツーヘッド・ベンチマーク

同じモデルをOllama vs LM Studio vs mlx-lmで比較。コマンド一発、実測値。

7エンジン、1つのCLI

Ollama、LM Studio、mlx-lm、llama.cpp、oMLX、vllm-mlx、Exo。自動検出、自動設定。

GPUオブザーバビリティ

GPU使用率、レンダラー、タイラー、メモリをリアルタイム計測 — パッシブIOReportで。ライブゲージ、スパークライン、履歴チャート。Apple Silicon GPUをかつてない精度で可視化。

コミュニティリーダーボード

ベンチマークを匿名で共有。コミュニティとMacを比較。同じチップでの他のユーザーの結果を確認。

ベンチマークカード

コマンド1つで共有可能な画像。asiai bench --cardを実行すると、モデル、チップ、エンジン比較、勝者が入った1200x630ダークテーマカードが生成。Reddit、X、Discordで共有。ローカルLLMのSpeedtest。

エージェント対応API

人間のために構築。AIエージェント対応。JSONエンドポイント、Prometheusメトリクス、診断デシジョンツリー、推論アクティビティシグナルを備えたREST API。AIエージェントにURLを渡して自己監視させましょう。

何を発見できる？

r/LocalLLaMAからのリアルな疑問に、コマンド一発で回答。

"どのエンジンが最速？"

直接対決 — r/LocalLLaMAで最も多い質問。

"マルチエージェント群の監視"

AIエージェント用LLMを24時間稼働 — VRAM、温度、パフォーマンスを追跡。

"エネルギー効率を比較"

エンジン間のワットあたりtok/s。24時間稼働のMac Miniホームラボに不可欠。

"更新後のリグレッション検出"

OllamaやmacOSのアップデートでパフォーマンスが低下？SQLiteで自動検出。

"ロングコンテキスト対応をテスト"

--context-size 64kベンチマーク。あなたのモデルは256kコンテキストに耐えられる？

"Macがサーマルスロットリングしてる？"

ベンチマーク間のドリフト検出。asiai独自の機能。

"再現可能なベンチマーク"

MLPerf/SPEC準拠の方法論。ウォームアップ、中央値、greedy decoding。自信を持って共有。

"コマンド一発でヘルスチェック"

asiai doctorがシステム、エンジン、データベースを診断し修正案を提示。

"ビジュアルダッシュボード"

ダーク/ライト対応Webダッシュボード。ライブチャート、SSE進捗、ベンチマーク操作。

"LLMを直接対決で比較"

同じエンジン、異なるモデル。どの量子化が勝つ？

"Prometheus + Grafana監視"

/metricsを公開、Prometheusでスクレイプ、Grafanaで可視化。本番品質の可観測性。

"AIエージェント推論を追跡"

GPUアクティビティ、TCP接続、KVキャッシュ — エージェントが推論中か、アイドルか、過負荷かを把握。スウォームオーケストレーターに対応するAPI。

60秒で稼働開始

コマンド3つ。以上。

インストール

brew install asiai

検出

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 3つのエンジンを検出

ベンチマーク

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

実際の発見

Apple Silicon上での実際のベンチマークデータ。

2.3x

MLX vs llama.cpp

Apple SiliconでMoEアーキテクチャ（Qwen3.5-35B-A3B）にはMLXが2.3倍高速。

Flat

VRAM: 64k → 256k

DeltaNetでは64kから256kコンテキストでもVRAMが一定 — 他のどこにも文書化されていない。

30 vs 71

エンジン > モデル

同じモデル、同じMac：一方のエンジンで30 tok/s、別のエンジンで71 tok/s。エンジンの方が重要。

対応エンジン

自動検出、設定不要。

Engine	デフォルトポート	API	形式	VRAM
Ollama	`11434`	ネイティブ	GGUF	✔
LM Studio	`1234`	OpenAI互換	GGUF + MLX	✔
mlx-lm	`8080`	OpenAI互換	MLX	—
llama.cpp	`8080`	OpenAI互換	GGUF	—
oMLX	`8000`	OpenAI互換	MLX	—
vllm-mlx	`8000`	OpenAI互換	MLX	—
Exo	`52415`	OpenAI互換	MLX	—

何を測定するか

8つの指標、一貫した方法論、毎回。

tok/s

生成速度 (tokens/sec)

TTFT

最初のトークンまでの時間

Power (W)

GPU消費電力（ワット）

tok/s/W

エネルギー効率

Stability

実行間バラつき

VRAM

GPUメモリ使用量

Thermal

スロットリング状態

Context

ロングコンテキスト性能スケーリング

始めよう

秒速インストール。依存関係ゼロ。

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub ドキュメント方法論 Apache 2.0 ❤ Sponsor

⭐ asiai が役に立ったら、スターで他の人にも届けましょう

🌍 このページは機械翻訳です。正確でない場合があります。修正は GitHub Issue でお寄せください。

どのLLM？どのエンジン？あなたのMacで最強の組み合わせは？AIエージェントに推論の可視性を