完全离线本地运行的参考文献重命名、格式转换、知识库构建与问答工作流-Chou+NuoYi+Gangdan 三个工具联合使用

之前写了三个小工具:

Chou 用来对PDF文件根据文章内容来重命名成作者-时代-标题的形式。

NuoYi用来将某个文件夹下面的pdf批量转换成markdown文档。

Gangdan用来基于markdown文档构建知识库进行问答和综述。

今天就来联合使用一下,作为一个案例。

安装

系统里面需要已经有Python,最好用3.12版本的,具体的python的安装过程可以参考之前的教程

pip install chou nuoyi gangdan

先进行重命名

假如pdf源文件夹路径在C:\Users\frede\Desktop\Source这个路径下,在命令行里面,cd过去:

# 这是进入到目标路径,你到时候要改成你的路径
cd C:\Users\frede\Desktop\Source 

# 对当前目录下的pdf文件进行重命名,输入 yes 回车,就执行了
chou --dir ./  --execute

完成重命名后的效果如下图所示: 重命名后

然后转成markdown

# 设置镜像,下载模型更快更稳定
export HF_ENDPOINT= https://hf-mirror.com

# 然后等待一会出现成功提示就可以了

# 然后对当前目录正常运行 NuoYi 来对当前目录 ./ 下所有内容进行转换
nuoyi ./ --batch
# 第一次运行会下载模型,大概几个g,等会就好了

完成转换之后效果如下所示,图片、公式、表格,不一定很完美,不过对付着能用。

图片

公式

表格

最后用来构建知识库

$ gangdan
[ChromaDB] Initialized successfully: ~\.gangdan\chroma

╔═══════════════════════════════════════════════════════════╗
║  GangDan - Offline Dev Assistant                          ║
║                                                           ║
║  Open in browser: http://0.0.0.0:5000                      ║
╚═══════════════════════════════════════════════════════════╝

 * Serving Flask app 'gangdan.app'
 * Debug mode: off
WARNING: This is a development server. Do not use it in a production deployment. Use a production WSGI server instead.
 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:5000
 * Running on http://192.168.31.64:5000

起来之后就从 http://127.0.0.1:5000 来访问,先设置好要用的模型。 我的机器配置低,只有一个1050 4G的笔记本显卡,所以就用qwen3-4b了。

模型设置

然后将刚才的markdown文件上传并建立知识库。

上传建立知识库

如果知识库的内容你很熟悉,也很全面,可以考虑开启严格模式,就确保只用知识库内的东西来生成回答,不过文章比较少的话不建议这么弄。

严格模式

选好了知识库就可以对话了。

开始问答

每个回答都会标记上对应的文献出处,直接拿去在文章中引用也挺方便的。

Category
Tagcloud
Memory FckZhiHu ML Virtualization Visualization AIGC C Camera Translate Radio Mac University Pyenv QEMU Prompt Ventoy NixOS Nvidia TUNA Agent GIS Geology Muon Remote Hack Data Science SKill Linux Tool PHD Programming Lens PVE RTL-SDR Photo QGIS Turing Simulation Ollama Game Learning Computability Python AdamW Code Generation Mount&Blade CUDA Complexity OSX-KVM LlamaFactory Hackintosh Data Photography Book Hardware Algorithm GlumPy 蓝牙 History GPT-OSS LLM Life Discuss HBase Qwen3 Communicate AMD Virtual Machine Ubuntu LTO VirtualMachine Junck AI Microscope Science AI,Data Science OpenWebUI Math VM SandBox Cellular Automata Poem RX590 Windows 耳机 Story Kivy Windows11 Hadoop Tape LTFS Code Mathematical Modeling n8n Optimization ChromeBook Scholar 音频 Cursor Tools