小模型谁更强?gemma3:270m还是qwen3:0.6b?借助OllamaModelTester进行批量测试!

谷歌最近刚发了gemma3:0.27b,也就是gemma3:270m的版本,这个可是比qwen3:0.6b还要轻量级很多。 这个版本的在线测评倒是不少了,但正如之前咱们谈论过的,在线的那些测试更多是学术研究意义上的标准化测试,和咱们实际使用还是有一点区别。考虑到这些小规模参数的模型能在几乎绝大部分当前主流性能的移动设备上运行,咱们有必要关注一下这些小模型在具体任务上的性能表现。

本次我们用的都是参数不超过 3B 的模型上。主要原因有两个:一是更大参数的模型运行速度往往提不起来。比如 gpt-oss:20B,虽然在我的笔记本上也能跑,但也就 10 tokens/s 左右的速度,勉强能用,但体验远不如在线模型流畅。 另一方面,4b这个参数规模以前的“守门员”现在应该是换人了,3.8b的phi系列现在不太行了,目前看来没办法和4b的qwen3-4b-2507系列相比了,更大规模参数的甚至也未必比qwen3-4b-2507强太多,所以用3b以内的比较,应该就够了。

所以本次测试我们只使用了3B以下的模型。 这些模型使用8G显存的4060笔记本电脑跑,8G显存基本足够,而且4060笔记本版本也大概足够跑得飞快。 利用之前设计的本地任务测试工具来测测,看看不同场景下到底谁厉害一些。

具体选用的模型如下表所示:

表1-模型参数规模对比
模型名称 参数规模(近似)
deepseek-r1:1.5b 1.5B
gemma3:1b 1.0B
gemma3:270m 270M
qwen3:0.6b 0.6B
qwen3:1.7b 1.7B
llama3.2:1b 1.0B
llama3.2:3b 3.0B
qwen2.5:0.5b 0.5B
qwen2.5:1.5b 1.5B
qwen2.5:3b 3.0B
gemma2:2b 2.0B
qwen2.5-coder:3b 3.0B
qwen2.5-coder:0.5b 0.5B
qwen2.5-coder:1.5b 1.5B
qwen:0.5b 0.5B
qwen:1.8b 1.8B

说明: - 参数规模中的 B 表示十亿(Billion),M 表示百万(Million)。 - 部分模型如 qwen2.5-coder 是代码专用模型,适合编程任务。 - 像 gemma3:270m 和多个 0.5b 模型属于极轻量级,可在移动端或低配设备高效运行。

所选的模型中,参数规模最大的是llama3.2:3b、qwen2.5:3b和qwen2.5-coder:3b,参数规模最小的是gemma3:270m,古老的qwen初代零号机以及gemma2:2b也被拉出来了。

使用Ollama获取要用的模型

首先是使用ollama的命令来拉取模型:

ollama pull deepseek-r1:1.5b
ollama pull gemma3:1b
ollama pull gemma3:270m
ollama pull qwen3:0.6b
ollama pull qwen3:1.7b
ollama pull llama3.2:1b
ollama pull llama3.2:3b
ollama pull qwen2.5:0.5b
ollama pull qwen2.5:1.5b
ollama pull qwen2.5:3b
ollama pull gemma2:2b
ollama pull qwen2.5-coder:3b
ollama pull qwen2.5-coder:0.5b
ollama pull qwen2.5-coder:1.5b
ollama pull qwen:0.5b
ollama pull qwen:1.8b

运行 OllamaModelTester

可以获取代码,然后安装依赖包,然后运行:

git clone https://github.com/EasyCam/OllamaModelTester.git
cd OllamaModelTester
pip install -r requirements.txt
cd ollamamodeltester
briefcase dev

也可以下载安装包来安装: 网盘链接: https://pan.baidu.com/s/1imh6uF3lFGSz17KJopF5Ww?pwd=CUGB 提取码: CUGB

界面比较粗糙简陋,大家自行探索以下基本都能运行起来。

结果对比

测试大概效果如下图所示,无论是qwen3:0.6b还是gemma3:270m,自评分都不是最高的,用响应速度(tokens/s)除以模型参数规模(换算到m)来对比,也都不是最快的。 具体对比gemma3:270m和llama3.2:1b,无论是自评分还是速度,看来都逊色于后者,这和IFEval测试中的结果倒是很相似。

自评分环节,就是对自己生成的内容自己给个评分,其实这也可能会评了个寂寞,不过这里体现出gemma家族对自己信心很高,比llama要更有信心。

按照tokens/s进行整体性能排名,llama3.2和qwen2.5系列整体差不多,基本都是第一梯队,而gemma家族很靠后了。

很明显,qwen2.5-coder系列由于是代码强化大模型,在代码解释和自然语言转代码的场景得分都是最高的,甚至qwen2.5的普通版本在这些场景的分页显著高于其他模型,甚至是规模接近的qwen3模型。

将tokens/s除以模型参数规模(换算到m),得到的分数如下图所示,很明显,还是qwen2.5:0.5b的得分最高,然后是qwen2.5-coder:0.5b,以及llama3.2:1b。而gemma家族在这个环节基本都不太亮眼。

不过呢,毕竟这里用的是模型自评分,可能会给自己虚高的分数,而且有的模型有推理思维链,可能会影响速度。

上述测试数据结果在 https://raw.githubusercontent.com/EasyCam/OllamaModelTester/refs/heads/main/results/ollama_test_results_20250816_112335.csv

具体结论见仁见智了,标题虽然说了“对比”,但其实我这也就是用简单的案例做个测试,不一定有什么代表性,大家自行测试吧。

Category: LLM
Category
Tagcloud
GIS Memory RaspberryPi QEMU OpenCL DIY Programming Science Telescope Translate Qwen3 Game Code Generation Story Poem 耳机 Python Virtualization Shit Lesson Camera Microscope Photography Conda FuckChunWan Mac Data Radio Mount&Blade Communicate Tool Translation Scholar Discuss Pyenv Virtual Machine HBase macOS 蓝牙 CUDA Ollama Disease NAS Lens University ChromeBook Kivy Hadoop Raspbian MayaVi AI VTK VirtualBox Learning Cursor n8n Hardware FuckZhihu VisPy Hate Moon Download RTL-SDR Book Chat Hack 音频 Hackintosh Junck Windows11 SandBox Library Photo GeoPython QGIS PyOpenCL Linux PHD Geology QT GlumPy Software Windows IDE Video GPT-OSS FckZhiHu Xcode Visualization Server Life