注册 登录
爱吱声 返回首页

heinsect的个人空间 http://aswetalk.net/bbs/?299 [收藏] [复制] [分享] [RSS]

日志

PDF转文字

热度 21已有 236 次阅读2025-4-16 17:57 |个人分类:闲聊

试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。

https://github.com/oomol-lab/pdf-craft

1. 这个工具要求装 python3.10
2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
3. pip install pdf-craft
4. 把下面的内容写到一个文件里,例如 a.py

----
from pdf_craft import PDFPageExtractor, MarkDownWriter

extractor = PDFPageExtractor(
  device="cpu", # If you want to use CUDA, please change to device="cuda" format.
  model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
)
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
  for block in extractor.extract(pdf="/path/to/pdf/file"):
    md.write(block)
----

要修改的内容:
4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
4.2 markdown_path:输出的 markdown 路径文件名
4.3 /path/to/pdf/file: 输入的源PDF路径文件名

5. 运行 python3 a.py

膜拜

鸡蛋
17

鲜花
1

路过

雷人
1

开心
1

感动

难过

刚表态过的朋友 (20 人)

发表评论 评论 (4 个评论)

回复 indy 2025-4-16 20:30
是不是可以做个简单网页具备这个功能?用户只需要上传文件和指定输出目录
回复 晨枫 2025-4-16 23:10
看到“科学上网”就像笑,中国人民的语言智慧真是了不起。
回复 伯威 2025-4-17 10:19
PDF要提取表格的话,还是找豆包,对吗? 这个好像是个痛点,在别处也看到过。
回复 马鹿 2025-4-17 21:00
如indy 建议的, 你做个网站直接把这个python的活干了?

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2025-4-19 15:24 , Processed in 0.030859 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部