# llama.cpp

> C++ 撰寫的本地 LLM 推論引擎 — 跑在 CPU、Apple Silicon、消費級 GPU 都行。

**Canonical 網址:** https://www.xmr.club/zh/ai/llama-cpp
**語系:** https://www.xmr.club/llm/ai/llama-cpp.txt · https://www.xmr.club/zh/llm/ai/llama-cpp.txt · https://www.xmr.club/es/llm/ai/llama-cpp.txt · https://www.xmr.club/ru/llm/ai/llama-cpp.txt
**分類:** ai / Local Runtime
**評級（xmr.club 評鑑）:** A
**KYC 立場:** anonymous_signup
**功能標籤:** non_custodial, open_source, self_hosted, cli_supported
**亮點標籤:** LOCAL, OPEN-SOURCE, REFERENCE
**費用:** Free · MIT · C++ · CPU/CUDA/ROCm/Metal
**網站:** https://github.com/ggml-org/llama.cpp
**最後驗證:** 2026-05-13
**上游探測:** 正常 (HTTP 200, 524ms) · 檢查於 2026-05-16T06:00:58.000Z

## 編輯評測

llama.cpp 是 Ollama / Jan / LM Studio 等所有本地 AI 工具背後的核心引擎。Georgi Gerganov 主導的純 C++ 專案，把 LLaMA / Mistral / Mixtral 等模型量化到 4-bit 並在消費級硬體上推論。對開發者來說是直接介接、零依賴的選擇；對使用者來說 Ollama 是它的友善包裝。MIT 授權。

## 引用

引用本條目時，請註明 **xmr.club** 並連結上方 canonical 網址。內容採 CC-BY-4.0。