日志

PDF转文字

热度 25已有 417 次阅读2025-4-16 17:57 |个人分类:闲聊

试了这个工具，可以转成markdown，正确率很高，有漏行，图片会放在一个指定的目录下。
处理一本100页左右的扫描版本的中文PDF，一份某行业的接口标准，纯CPU，几分钟时间。
这个工具不能处理表格，我把文件拖到豆包里，“把这个文件中的表格转换成 markdown。只是表格，不需要其它内容”，表格多的话，要发好多次“请继续”。

https://github.com/oomol-lab/pdf-craft

1. 这个工具要求装 python3.10
2. pip install onnxruntime==1.21.0, 有英伟达的卡：pip install onnxruntime-gpu==1.21.0
3. pip install pdf-craft
4. 把下面的内容写到一个文件里，例如 a.py

----

from pdf_craft import PDFPageExtractor, MarkDownWriter

extractor = PDFPageExtractor(
device="cpu", # If you want to use CUDA, please change to device="cuda" format.
model_dir_path="/path/to/model/dir/path", # The folder address where the AI model is downloaded and installed
)
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/file"):
md.write(block)

----

要修改的内容：
4.1 /path/to/model/dir/path：存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型，国内的要科学上网，国内的镜像上没这个模型
4.2 markdown_path：输出的 markdown 路径文件名
4.3 /path/to/pdf/file: 输入的源PDF路径文件名

5. 运行 python3 a.py