You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: README.ko.md
+6-6Lines changed: 6 additions & 6 deletions
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -28,26 +28,26 @@
28
28
```bash
29
29
pip install quantcpp
30
30
31
-
quantcpp pull phi-3.5-mini# HuggingFace에서 다운로드 (~2.4 GB)
32
-
quantcpp run phi-3.5-mini# 대화형 채팅
33
-
quantcpp serve phi-3.5-mini -p 8080 # OpenAI 호환 HTTP 서버 (SSE 스트리밍)
31
+
quantcpp pull qwen3# Qwen3-4B Q4_K_M 다운로드 (~2.5 GB)
32
+
quantcpp run qwen3 # 대화형 채팅
33
+
quantcpp serve qwen3 -p 8080# OpenAI 호환 HTTP 서버 (SSE 스트리밍)
34
34
quantcpp client "안녕"# 스트리밍 클라이언트 → :8080 서버
35
35
quantcpp list # 캐시된 모델 목록
36
36
```
37
37
38
-
추천 기본 모델: **Phi-3.5-mini** (3.8B params, vocab 32K). registry의 모든 모델 중 가장 작은 vocab(32K)이라 토큰당 `lm_head` matmul이 가장 빠릅니다 — 노트북에서 속도와 품질의 최적 조합입니다. 다른 별칭: `smollm2`, `smollm2:135m`, `llama3.2:1b`, `qwen3.5:0.8b`. `run`/`serve` 첫 실행 시 자동 다운로드.
38
+
추천 기본 모델: **Qwen3-4B** (4B params, MMLU 73, M3에서 4.5 tok/s). 최고 품질 AND 최고 속도 — Q4 NEON fused dot 경로로 Phi-3.5-mini보다 2.4배 빠릅니다. 다른 별칭: `phi3.5`, `smollm2`, `llama3.2:1b`. `run`/`serve` 첫 실행 시 자동 다운로드.
39
39
40
40
`serve`는 OpenAI 호환 `POST /v1/chat/completions` 엔드포인트를 8080 포트에 제공합니다 — 클라이언트가 `"stream": true`를 보내면 SSE 토큰 단위 스트리밍, 생략하면 단일 JSON 응답. 내장 `quantcpp client`는 두 모드 모두 지원 (기본: 스트리밍, `--no-stream`: 단일 응답).
quantcpp serve qwen3 -p 8080# OpenAI-compatible HTTP server (SSE streaming)
47
47
quantcpp client "Hi"# streaming client → server on :8080
48
48
quantcpp list # show cached models
49
49
```
50
50
51
-
Recommended default: **Phi-3.5-mini** (3.8B params, vocab 32K). The 32K vocab is the smallest in the registry, which makes the per-token `lm_head` matmul the fastest of any model we ship — Phi-3.5-mini is the best speed/quality combo on a laptop. Other aliases: `smollm2`, `smollm2:135m`, `llama3.2:1b`, `qwen3.5:0.8b`. Auto-pulls on first `run` / `serve`.
51
+
Recommended default: **Qwen3-4B** (4B params, MMLU 73, 4.5 tok/s on M3). Best speed AND quality — the Q4 NEON fused dot path makes it 2.4x faster than Phi-3.5-mini despite a larger vocab. Other aliases: `phi3.5`, `smollm2`, `llama3.2:1b`. Auto-pulls on first `run` / `serve`.
52
52
53
53
The `serve` subcommand exposes `POST /v1/chat/completions` (OpenAI-compatible) on port 8080 — clients pass `"stream": true` for SSE streaming, or omit it for a single JSON response. Built-in `quantcpp client` supports both modes (default: streaming, `--no-stream` for single response).
0 commit comments