完全离线本地运行的参考文献重命名、格式转换、知识库构建与问答工作流-Chou+NuoYi+Gangdan 三个工具联合使用

之前写了三个小工具:

Chou 用来对PDF文件根据文章内容来重命名成作者-时代-标题的形式。

NuoYi用来将某个文件夹下面的pdf批量转换成markdown文档。

Gangdan用来基于markdown文档构建知识库进行问答和综述。

今天就来联合使用一下,作为一个案例。

安装

系统里面需要已经有Python,最好用3.12版本的,具体的python的安装过程可以参考之前的教程

pip install chou nuoyi gangdan

先进行重命名

假如pdf源文件夹路径在C:\Users\frede\Desktop\Source这个路径下,在命令行里面,cd过去:

# 这是进入到目标路径,你到时候要改成你的路径
cd C:\Users\frede\Desktop\Source 

# 对当前目录下的pdf文件进行重命名,输入 yes 回车,就执行了
chou --dir ./  --execute

完成重命名后的效果如下图所示: 重命名后

然后转成markdown

# 设置镜像,下载模型更快更稳定
export HF_ENDPOINT= https://hf-mirror.com

# 然后等待一会出现成功提示就可以了

# 然后对当前目录正常运行 NuoYi 来对当前目录 ./ 下所有内容进行转换
nuoyi ./ --batch
# 第一次运行会下载模型,大概几个g,等会就好了

完成转换之后效果如下所示,图片、公式、表格,不一定很完美,不过对付着能用。

图片

公式

表格

最后用来构建知识库

$ gangdan
[ChromaDB] Initialized successfully: ~\.gangdan\chroma

╔═══════════════════════════════════════════════════════════╗
║  GangDan - Offline Dev Assistant                          ║
║                                                           ║
║  Open in browser: http://0.0.0.0:5000                      ║
╚═══════════════════════════════════════════════════════════╝

 * Serving Flask app 'gangdan.app'
 * Debug mode: off
WARNING: This is a development server. Do not use it in a production deployment. Use a production WSGI server instead.
 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:5000
 * Running on http://192.168.31.64:5000

起来之后就从 http://127.0.0.1:5000 来访问,先设置好要用的模型。 我的机器配置低,只有一个1050 4G的笔记本显卡,所以就用qwen3-4b了。

模型设置

然后将刚才的markdown文件上传并建立知识库。

上传建立知识库

如果知识库的内容你很熟悉,也很全面,可以考虑开启严格模式,就确保只用知识库内的东西来生成回答,不过文章比较少的话不建议这么弄。

严格模式

选好了知识库就可以对话了。

开始问答

每个回答都会标记上对应的文献出处,直接拿去在文章中引用也挺方便的。

Category
Tagcloud
Python Lens Simulation Mount&Blade GPT-OSS Learning Code Algorithm Data OSX-KVM Life Qwen3 Ubuntu Game Communicate NixOS n8n Pyenv ChromeBook Optimization Scholar 蓝牙 Linux Muon Data Science Cellular Automata FckZhiHu QEMU Cursor AdamW Remote LlamaFactory Hackintosh 耳机 Programming PHD GIS Shit Visualization Prompt Microscope Windows11 Hardware TUNA Hadoop Photography AI,Data Science Virtualization CUDA RTL-SDR Geology Turing HBase Poem Virtual Machine Ollama Photo Agent Mathematical Modeling AIGC Discuss FuckZhihu ML GlumPy Camera Math Tools Tape Radio VirtualMachine LTFS PVE Nvidia Complexity SandBox 音频 Junck C SKill Computability LLM History Memory Story Tool Translate Code Generation Book Science Hack FuckChunWan AI LTO University QGIS Mac Kivy OpenWebUI Windows VM