asiai logo

どのLLM?どのエンジン?
あなたのMacで最強の組み合わせは?
AIエージェントに
推論の可視性を

ベンチマークで選ぶ。ダッシュボードで監視。履歴で問題を発見。asiaiのREST APIにより、AIエージェントがローカルLLMインフラを自律的に監視・診断・最適化できます。

🧑 ヒューマン AIエージェント 🤖
Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready
asiai CLI benchmark

asiai bench

asiai web dashboard

asiai web

GET /api/status ≤ 500ms
{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}
GET /api/snapshot Full state
{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

ローカルLLMの課題

心当たりありませんか?

断片化

Ollama、LM Studio、mlx-lm — それぞれ独自のCLI、フォーマット、指標。共通基盤なし。

盲目

リアルタイムVRAM監視なし、電力追跡なし、温度アラートなし。完全に盲目飛行。

手動

ベンチマーク=curlスクリプト、数値のコピペ、スプレッドシートで比較。

Apple Siliconパワーユーザーのために設計

ローカル推論のベンチマーク、監視、最適化に必要なすべて。

ヘッドツーヘッド・ベンチマーク

同じモデルをOllama vs LM Studio vs mlx-lmで比較。コマンド一発、実測値。

7エンジン、1つのCLI

Ollama、LM Studio、mlx-lm、llama.cpp、oMLX、vllm-mlx、Exo。自動検出、自動設定。

GPUオブザーバビリティ

GPU使用率、レンダラー、タイラー、メモリをリアルタイム計測 — パッシブIOReportで。ライブゲージ、スパークライン、履歴チャート。Apple Silicon GPUをかつてない精度で可視化。

コミュニティリーダーボード

ベンチマークを匿名で共有。コミュニティとMacを比較。同じチップでの他のユーザーの結果を確認。

ベンチマークカード

コマンド1つで共有可能な画像。asiai bench --cardを実行すると、モデル、チップ、エンジン比較、勝者が入った1200x630ダークテーマカードが生成。Reddit、X、Discordで共有。ローカルLLMのSpeedtest。

エージェント対応API

人間のために構築。AIエージェント対応。JSONエンドポイント、Prometheusメトリクス、診断デシジョンツリー、推論アクティビティシグナルを備えたREST API。AIエージェントにURLを渡して自己監視させましょう。

何を発見できる?

r/LocalLLaMAからのリアルな疑問に、コマンド一発で回答。

"どのエンジンが最速?"

直接対決 — r/LocalLLaMAで最も多い質問。

"マルチエージェント群の監視"

AIエージェント用LLMを24時間稼働 — VRAM、温度、パフォーマンスを追跡。

"エネルギー効率を比較"

エンジン間のワットあたりtok/s。24時間稼働のMac Miniホームラボに不可欠。

"更新後のリグレッション検出"

OllamaやmacOSのアップデートでパフォーマンスが低下?SQLiteで自動検出。

"ロングコンテキスト対応をテスト"

--context-size 64kベンチマーク。あなたのモデルは256kコンテキストに耐えられる?

"Macがサーマルスロットリングしてる?"

ベンチマーク間のドリフト検出。asiai独自の機能。

"再現可能なベンチマーク"

MLPerf/SPEC準拠の方法論。ウォームアップ、中央値、greedy decoding。自信を持って共有。

"コマンド一発でヘルスチェック"

asiai doctorがシステム、エンジン、データベースを診断し修正案を提示。

"ビジュアルダッシュボード"

ダーク/ライト対応Webダッシュボード。ライブチャート、SSE進捗、ベンチマーク操作。

"LLMを直接対決で比較"

同じエンジン、異なるモデル。どの量子化が勝つ?

"Prometheus + Grafana監視"

/metricsを公開、Prometheusでスクレイプ、Grafanaで可視化。本番品質の可観測性。

"AIエージェント推論を追跡"

GPUアクティビティ、TCP接続、KVキャッシュ — エージェントが推論中か、アイドルか、過負荷かを把握。スウォームオーケストレーターに対応するAPI。

60秒で稼働開始

コマンド3つ。以上。

1

インストール

brew install asiai
2

検出

$ asiai detect ✔ ollama (11434) ✔ lmstudio (1234) ✔ mlx-lm (8080) → 3つのエンジンを検出
3

ベンチマーク

$ asiai bench -m qwen3.5 Engine tok/s TTFT lmstudio 71.2 42ms ollama 54.8 61ms mlx-lm 30.1 38ms

実際の発見

Apple Silicon上での実際のベンチマークデータ。

2.3x

MLX vs llama.cpp

Apple SiliconでMoEアーキテクチャ(Qwen3.5-35B-A3B)にはMLXが2.3倍高速。

Flat

VRAM: 64k → 256k

DeltaNetでは64kから256kコンテキストでもVRAMが一定 — 他のどこにも文書化されていない。

30 vs 71

エンジン > モデル

同じモデル、同じMac:一方のエンジンで30 tok/s、別のエンジンで71 tok/s。エンジンの方が重要。

対応エンジン

自動検出、設定不要。

Engine デフォルトポート API 形式 VRAM
Ollama 11434 ネイティブ GGUF
LM Studio 1234 OpenAI互換 GGUF + MLX
mlx-lm 8080 OpenAI互換 MLX
llama.cpp 8080 OpenAI互換 GGUF
oMLX 8000 OpenAI互換 MLX
vllm-mlx 8000 OpenAI互換 MLX
Exo 52415 OpenAI互換 MLX

何を測定するか

8つの指標、一貫した方法論、毎回。

tok/s

生成速度 (tokens/sec)

TTFT

最初のトークンまでの時間

Power (W)

GPU消費電力(ワット)

tok/s/W

エネルギー効率

Stability

実行間バラつき

VRAM

GPUメモリ使用量

Thermal

スロットリング状態

Context

ロングコンテキスト性能スケーリング

始めよう

秒速インストール。依存関係ゼロ。

Homebrew
brew tap druide67/tap brew install asiai
pip
pip install asiai

asiai が役に立ったら、スターで他の人にも届けましょう

🌍 このページは機械翻訳です。正確でない場合があります。修正は GitHub Issue でお寄せください。