어떤 LLM? 어떤 엔진?
당신의 Mac에서 최강 조합은?AI 에이전트에게
추론 가시성을 부여하세요

Name: asiai
Author: Jean-Marc Nahlovsky

벤치마크로 선택하고. 대시보드로 모니터링하고. 이력으로 문제를 발견하세요.asiai의 REST API로 AI 에이전트가 로컬 LLM 인프라를 자율적으로 모니터링, 진단, 최적화할 수 있습니다.

🧑 사람 AI 에이전트 🤖

시작하기 리더보드 GitHub에서 보기 에이전트 가이드 API 레퍼런스 이 URL을 AI에게 전달하세요

Python 3.11+ Apache 2.0 Apple Silicon Agent-Ready

asiai bench

asiai web

GET /api/status ≤ 500ms

{
  "chip": "Apple M4 Pro",
  "ram_gb": 64.0,
  "memory_pressure": "normal",
  "gpu_utilization_percent": 45.2,
  "engines": {
    "ollama": { "running": true, "models_loaded": 2 },
    "lmstudio": { "running": true, "models_loaded": 1 }
  }
}

GET /api/snapshot Full state

{
  "system": {
    "chip": "Apple M4 Pro",
    "gpu_cores": 20,
    "gpu_utilization_percent": 45.2,
    "gpu_renderer_percent": 38.1,
    "thermal_state": "nominal"
  },
  "engines": [{
    "name": "ollama",
    "models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
  }]
}

로컬 LLM의 문제

익숙하지 않으세요?

파편화

Ollama, LM Studio, mlx-lm — 각각 다른 CLI, 형식, 지표. 공통 기반 없음.

맹목

실시간 VRAM 모니터링 없음, 전력 추적 없음, 온도 알림 없음. 눈을 감고 날고 있는 셈.

수동

벤치마크란 curl 스크립트, 숫자 복붙, 스프레드시트에서 비교하는 것.

Apple Silicon 파워유저를 위해 제작

로컬 추론의 벤치마크, 모니터링, 최적화에 필요한 모든 것.

1:1 벤치마크 대결

같은 모델을 Ollama vs LM Studio vs mlx-lm에서 비교. 명령어 하나, 실측 수치.

7개 엔진, 하나의 CLI

Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. 자동 감지, 자동 설정.

GPU 관측성

실시간 GPU 사용률, 렌더러, 타일러, 메모리 — 패시브 IOReport 방식. 라이브 게이지, 스파크라인, 히스토리 차트. Apple Silicon GPU를 전례 없는 수준으로 확인.

커뮤니티 리더보드

벤치마크를 익명으로 공유. 커뮤니티와 Mac 비교. 같은 칩에서 다른 사용자의 결과 확인.

벤치마크 카드

명령어 하나, 공유 가능한 이미지. asiai bench --card를 실행하면 모델, 칩, 엔진 비교, 우승자가 담긴 1200x630 다크 테마 카드 생성. Reddit, X, Discord에 게시. 로컬 LLM의 Speedtest.

에이전트 대응 API

사람을 위해 만들어졌습니다. AI 에이전트 대응. JSON 엔드포인트, Prometheus 메트릭, 진단 의사결정 트리, 추론 활동 신호를 갖춘 REST API. AI 에이전트에게 URL을 주고 자가 모니터링하게 하세요.

무엇을 발견하게 될까?

r/LocalLLaMA의 실제 질문, 명령어 하나로 해결.

"어떤 엔진이 가장 빠를까?"

1:1 비교 — r/LocalLLaMA에서 가장 많은 질문.

"멀티 에이전트 스웜 모니터링"

AI 에이전트용 LLM 24시간 가동 — VRAM, 온도, 성능 추적.

"에너지 효율 비교"

엔진 간 와트당 tok/s. 24시간 Mac Mini 홈랩에 필수.

"업데이트 후 회귀 감지"

Ollama 또는 macOS 업데이트로 성능이 떨어졌나요? SQLite로 자동 감지.

"긴 컨텍스트 지원 테스트"

--context-size 64k 벤치마크. 당신의 모델이 256k 컨텍스트를 견딜 수 있을까?

"내 Mac이 서멀 스로틀링 중인가?"

벤치마크 실행 간 드리프트 감지. asiai만의 고유 기능.

"재현 가능한 벤치마크"

MLPerf/SPEC 방법론. 워밍업, 중앙값, greedy decoding. 자신있게 공유.

"명령어 하나로 상태 점검"

asiai doctor가 시스템, 엔진, 데이터베이스를 진단하고 수정 제안.

"시각적 대시보드"

다크/라이트 웹 대시보드. 실시간 차트, SSE 진행률, 벤치마크 컨트롤.

"LLM 1:1 비교"

같은 엔진, 다른 모델. 어떤 양자화가 이길까?

"Prometheus + Grafana 모니터링"

/metrics 노출, Prometheus로 스크레이프, Grafana에서 시각화. 프로덕션 수준 관측성.

"AI 에이전트 추론 추적"

GPU 활동, TCP 연결, KV 캐시 — 에이전트가 추론 중인지, 유휴 상태인지, 과부하인지 파악. 스웜 오케스트레이터용 API 지원.

60초 만에 실행

명령어 세 개. 끝.

설치

brew install asiai

감지

$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 엔진 3개 발견

벤치마크

$ asiai bench -m qwen3.5
Engine     tok/s  TTFT
lmstudio   71.2   42ms
ollama     54.8   61ms
mlx-lm     30.1   38ms

실제 발견

Apple Silicon에서의 실제 벤치마크 수치.

2.3x

MLX vs llama.cpp

Apple Silicon에서 MoE 아키텍처(Qwen3.5-35B-A3B)에 MLX가 2.3배 빠름.

Flat

VRAM: 64k → 256k

DeltaNet 사용 시 64k에서 256k 컨텍스트까지 VRAM 일정 — 다른 곳에서는 문서화되지 않음.

30 vs 71

엔진 > 모델

같은 모델, 같은 Mac: 한 엔진에서 30 tok/s, 다른 엔진에서 71 tok/s. 엔진이 더 중요.

지원 엔진

자동 감지, 설정 불필요.

Engine	기본 포트	API	형식	VRAM
Ollama	`11434`	네이티브	GGUF	✔
LM Studio	`1234`	OpenAI 호환	GGUF + MLX	✔
mlx-lm	`8080`	OpenAI 호환	MLX	—
llama.cpp	`8080`	OpenAI 호환	GGUF	—
oMLX	`8000`	OpenAI 호환	MLX	—
vllm-mlx	`8000`	OpenAI 호환	MLX	—
Exo	`52415`	OpenAI 호환	MLX	—

측정 항목

8개 지표, 일관된 방법론, 매 실행마다.

tok/s

생성 속도 (tokens/sec)

TTFT

첫 토큰까지 시간

Power (W)

GPU 전력 소비 (와트)

tok/s/W

에너지 효율

Stability

실행 간 분산

VRAM

GPU 메모리 사용량

Thermal

스로틀링 상태

Context

긴 컨텍스트 성능 스케일링

시작하기

초 단위 설치. 의존성 제로.

Homebrew

brew tap druide67/tap
brew install asiai

pip

pip install asiai

GitHub 문서 방법론 Apache 2.0 ❤ Sponsor

⭐ asiai가 도움이 되었다면, 스타로 다른 사람들이 찾을 수 있게 해주세요

🌍 이 페이지는 기계 번역입니다. 정확하지 않을 수 있습니다. 수정 사항은 GitHub Issue로 제출해 주세요.

어떤 LLM? 어떤 엔진?당신의 Mac에서 최강 조합은?AI 에이전트에게추론 가시성을 부여하세요