之前写了三个小工具:
Chou 用来对PDF文件根据文章内容来重命名成作者-时代-标题的形式。
NuoYi用来将某个文件夹下面的pdf批量转换成markdown文档。
Gangdan用来基于markdown文档构建知识库进行问答和综述。
今天就来联合使用一下,作为一个案例。
安装
系统里面需要已经有Python,最好用3.12版本的,具体的python的安装过程可以参考之前的教程
pip install chou nuoyi gangdan
先进行重命名
假如pdf源文件夹路径在C:\Users\frede\Desktop\Source这个路径下,在命令行里面,cd过去:
# 这是进入到目标路径,你到时候要改成你的路径
cd C:\Users\frede\Desktop\Source
# 对当前目录下的pdf文件进行重命名,输入 yes 回车,就执行了
chou --dir ./ --execute
完成重命名后的效果如下图所示:

然后转成markdown
# 设置镜像,下载模型更快更稳定
export HF_ENDPOINT= https://hf-mirror.com
# 然后等待一会出现成功提示就可以了
# 然后对当前目录正常运行 NuoYi 来对当前目录 ./ 下所有内容进行转换
nuoyi ./ --batch
# 第一次运行会下载模型,大概几个g,等会就好了
完成转换之后效果如下所示,图片、公式、表格,不一定很完美,不过对付着能用。



最后用来构建知识库
$ gangdan
[ChromaDB] Initialized successfully: ~\.gangdan\chroma
╔═══════════════════════════════════════════════════════════╗
║ GangDan - Offline Dev Assistant ║
║ ║
║ Open in browser: http://0.0.0.0:5000 ║
╚═══════════════════════════════════════════════════════════╝
* Serving Flask app 'gangdan.app'
* Debug mode: off
WARNING: This is a development server. Do not use it in a production deployment. Use a production WSGI server instead.
* Running on all addresses (0.0.0.0)
* Running on http://127.0.0.1:5000
* Running on http://192.168.31.64:5000
起来之后就从 http://127.0.0.1:5000 来访问,先设置好要用的模型。 我的机器配置低,只有一个1050 4G的笔记本显卡,所以就用qwen3-4b了。

然后将刚才的markdown文件上传并建立知识库。

如果知识库的内容你很熟悉,也很全面,可以考虑开启严格模式,就确保只用知识库内的东西来生成回答,不过文章比较少的话不建议这么弄。

选好了知识库就可以对话了。

每个回答都会标记上对应的文献出处,直接拿去在文章中引用也挺方便的。
CycleUser