本指南介绍如何使用 llama.cpp 和 Ollama 部署 Qwen3-Coder-30B-A3B-Instruct 模型。
环境要求
- Python 3.10+
- Git
- Ollama
- 足够的磁盘空间(约100GB+,模型本体61G,q8量化后大约30G)
步骤零:直接用转换好的
模型已转换好,直接使用 Ollama 运行即可。
ollama run hopephoto/qwen3-coder-30b-a3b-instruct_q8
大概需要30G左右的磁盘空间。
步骤一:安装依赖
1.1 安装 ModelScope
pip install modelscope
1.2 克隆 llama.cpp 仓库
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
步骤二:下载模型
使用 ModelScope 下载 Qwen3-Coder-30B-A3B-Instruct 模型:
modelscope download --model Qwen/Qwen3-Coder-30B-A3B-Instruct
模型将下载到:C:\Users\HP\.cache\modelscope\hub\models\qwen\Qwen3-Coder-30B-A3B-Instruct
步骤三:转换模型格式
将 Hugging Face 格式转换为 GGUF 格式:
python convert_hf_to_gguf.py "C:\Users\HP\.cache\modelscope\hub\models\qwen\Qwen3-Coder-30B-A3B-Instruct" --outfile models\qwen3-coder-30b-a3b-instruct_q8.gguf --verbose --outtype q8_0
参数说明
--outfile
: 输出文件路径--verbose
: 显示详细转换信息--outtype q8_0
: 量化类型,q8_0 提供较好的质量与大小平衡
步骤四:创建 Ollama Modelfile
创建配置文件 Modelfile_qwen3_coder
:
FROM models/qwen3-coder-30b-a3b-instruct_q8.gguf
TEMPLATE """<|im_start|>system
{{ .System }}<|im_end|>
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
PARAMETER stop "<|im_end|>"
PARAMETER stop "<|im_start|>"
SYSTEM """你是Qwen,由阿里云开发的AI助手。你对用户的问题和请求总是有帮助、准确和诚实的。"""
配置说明
- FROM: 指定模型文件路径
- TEMPLATE: 定义对话模板,使用 Qwen 特定的格式
- PARAMETER stop: 设置停止标记
- SYSTEM: 设置系统提示词
步骤五:在 Ollama 中创建模型
ollama create qwen3-coder-30b-a3b-instruct_q8 -f Modelfile_qwen3_coder
步骤六:验证安装
运行以下命令测试模型:
ollama run qwen3-coder-30b-a3b-instruct_q8
使用示例
代码生成示例
ollama run qwen3-coder-30b-a3b-instruct_q8 "请写一个Python函数来计算斐波那契数列"
代码解释示例
ollama run qwen3-coder-30b-a3b-instruct_q8 "解释这段代码的功能:def quicksort(arr): ..."
性能评估
在 AMD 7950X + 128G DDR5 RAM + 4060 GPU 8GRAM 的配置的笔记本电脑上运行如下命令:
ollama run hopephoto/qwen3-coder-30b-a3b-instruct_q8 "请写一个Python函数来计算斐波那契数列" --verbose
得到的性能评测结果为:
total duration: 1m37.1833561s
load duration: 11.3397894s
prompt eval count: 53 token(s)
prompt eval duration: 2.8421457s
prompt eval rate: 18.65 tokens/s
eval count: 410 token(s)
eval duration: 1m23.0009177s
eval rate: 4.94 tokens/s
故障排除
常见问题
- 转换失败:确保有足够的磁盘空间和内存
- Ollama 创建失败:检查 Modelfile 路径是否正确
- 运行缓慢:考虑使用更小的量化级别(如 q4_0)
性能优化
- GPU 加速:如果有 NVIDIA GPU,确保安装了 CUDA 支持
- 内存优化:调整
--ctx-size
参数控制上下文长度
文件结构
llama.cpp/
├── models/
│ └── qwen3-coder-30b-a3b-instruct_q8.gguf
├── Modelfile_qwen3_coder
└── convert_hf_to_gguf.py
注意事项
- 确保有足够的磁盘空间(原始模型约60GB,转换后约30GB)
- 转换过程可能需要较长时间,请耐心等待
- 量化级别影响模型质量和大小,可根据需求调整