어떤 LLM? 어떤 엔진?
당신의 Mac에서 최강 조합은?AI 에이전트에게
추론 가시성을 부여하세요
벤치마크로 선택하고. 대시보드로 모니터링하고. 이력으로 문제를 발견하세요.asiai의 REST API로 AI 에이전트가 로컬 LLM 인프라를 자율적으로 모니터링, 진단, 최적화할 수 있습니다.
asiai bench
asiai web
{
"chip": "Apple M4 Pro",
"ram_gb": 64.0,
"memory_pressure": "normal",
"gpu_utilization_percent": 45.2,
"engines": {
"ollama": { "running": true, "models_loaded": 2 },
"lmstudio": { "running": true, "models_loaded": 1 }
}
}
{
"system": {
"chip": "Apple M4 Pro",
"gpu_cores": 20,
"gpu_utilization_percent": 45.2,
"gpu_renderer_percent": 38.1,
"thermal_state": "nominal"
},
"engines": [{
"name": "ollama",
"models": [{ "name": "qwen3.5:latest", "size_params": "35B" }]
}]
}
로컬 LLM의 문제
익숙하지 않으세요?
파편화
Ollama, LM Studio, mlx-lm — 각각 다른 CLI, 형식, 지표. 공통 기반 없음.
맹목
실시간 VRAM 모니터링 없음, 전력 추적 없음, 온도 알림 없음. 눈을 감고 날고 있는 셈.
수동
벤치마크란 curl 스크립트, 숫자 복붙, 스프레드시트에서 비교하는 것.
Apple Silicon 파워유저를 위해 제작
로컬 추론의 벤치마크, 모니터링, 최적화에 필요한 모든 것.
1:1 벤치마크 대결
같은 모델을 Ollama vs LM Studio vs mlx-lm에서 비교. 명령어 하나, 실측 수치.
7개 엔진, 하나의 CLI
Ollama, LM Studio, mlx-lm, llama.cpp, oMLX, vllm-mlx, Exo. 자동 감지, 자동 설정.
GPU 관측성
실시간 GPU 사용률, 렌더러, 타일러, 메모리 — 패시브 IOReport 방식. 라이브 게이지, 스파크라인, 히스토리 차트. Apple Silicon GPU를 전례 없는 수준으로 확인.
커뮤니티 리더보드
벤치마크를 익명으로 공유. 커뮤니티와 Mac 비교. 같은 칩에서 다른 사용자의 결과 확인.
벤치마크 카드
명령어 하나, 공유 가능한 이미지. asiai bench --card를 실행하면 모델, 칩, 엔진 비교, 우승자가 담긴 1200x630 다크 테마 카드 생성. Reddit, X, Discord에 게시. 로컬 LLM의 Speedtest.
에이전트 대응 API
사람을 위해 만들어졌습니다. AI 에이전트 대응. JSON 엔드포인트, Prometheus 메트릭, 진단 의사결정 트리, 추론 활동 신호를 갖춘 REST API. AI 에이전트에게 URL을 주고 자가 모니터링하게 하세요.
무엇을 발견하게 될까?
r/LocalLLaMA의 실제 질문, 명령어 하나로 해결.
"어떤 엔진이 가장 빠를까?"
1:1 비교 — r/LocalLLaMA에서 가장 많은 질문.
"멀티 에이전트 스웜 모니터링"
AI 에이전트용 LLM 24시간 가동 — VRAM, 온도, 성능 추적.
"에너지 효율 비교"
엔진 간 와트당 tok/s. 24시간 Mac Mini 홈랩에 필수.
"업데이트 후 회귀 감지"
Ollama 또는 macOS 업데이트로 성능이 떨어졌나요? SQLite로 자동 감지.
"긴 컨텍스트 지원 테스트"
--context-size 64k 벤치마크. 당신의 모델이 256k 컨텍스트를 견딜 수 있을까?
"내 Mac이 서멀 스로틀링 중인가?"
벤치마크 실행 간 드리프트 감지. asiai만의 고유 기능.
"재현 가능한 벤치마크"
MLPerf/SPEC 방법론. 워밍업, 중앙값, greedy decoding. 자신있게 공유.
"명령어 하나로 상태 점검"
asiai doctor가 시스템, 엔진, 데이터베이스를 진단하고 수정 제안.
"시각적 대시보드"
다크/라이트 웹 대시보드. 실시간 차트, SSE 진행률, 벤치마크 컨트롤.
"LLM 1:1 비교"
같은 엔진, 다른 모델. 어떤 양자화가 이길까?
"Prometheus + Grafana 모니터링"
/metrics 노출, Prometheus로 스크레이프, Grafana에서 시각화. 프로덕션 수준 관측성.
"AI 에이전트 추론 추적"
GPU 활동, TCP 연결, KV 캐시 — 에이전트가 추론 중인지, 유휴 상태인지, 과부하인지 파악. 스웜 오케스트레이터용 API 지원.
60초 만에 실행
명령어 세 개. 끝.
설치
brew install asiai
감지
$ asiai detect
✔ ollama (11434)
✔ lmstudio (1234)
✔ mlx-lm (8080)
→ 엔진 3개 발견
벤치마크
$ asiai bench -m qwen3.5
Engine tok/s TTFT
lmstudio 71.2 42ms
ollama 54.8 61ms
mlx-lm 30.1 38ms
실제 발견
Apple Silicon에서의 실제 벤치마크 수치.
MLX vs llama.cpp
Apple Silicon에서 MoE 아키텍처(Qwen3.5-35B-A3B)에 MLX가 2.3배 빠름.
VRAM: 64k → 256k
DeltaNet 사용 시 64k에서 256k 컨텍스트까지 VRAM 일정 — 다른 곳에서는 문서화되지 않음.
엔진 > 모델
같은 모델, 같은 Mac: 한 엔진에서 30 tok/s, 다른 엔진에서 71 tok/s. 엔진이 더 중요.
측정 항목
8개 지표, 일관된 방법론, 매 실행마다.
tok/s
생성 속도 (tokens/sec)
TTFT
첫 토큰까지 시간
Power (W)
GPU 전력 소비 (와트)
tok/s/W
에너지 효율
Stability
실행 간 분산
VRAM
GPU 메모리 사용량
Thermal
스로틀링 상태
Context
긴 컨텍스트 성능 스케일링
시작하기
초 단위 설치. 의존성 제로.
brew tap druide67/tap
brew install asiai
pip install asiai