爱吱声

标题: 利用 Deepseek 抓取PDF的文字并矫正。 [打印本页]

作者: nanimarcus 时间: 2025-2-2 03:35
标题: 利用 Deepseek 抓取PDF的文字并矫正。
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑

把PDF上传，然后让他抓取文字，并修改可能的错误。
然后deepseek完美的完成了任务。
段落清楚，列清楚，页眉页脚全部去掉。
我要疯掉了！
赶紧把自己那些成年老书给搬出来，deepseek，这是党和人民考验你的时候了！
====
中文也很完美。
经验值，每次十页比较稳定。
现在我这里API还不能用，等恢复了，全自动了。
====
第二次疯掉了！
我上传英文文件后，让他抓取文字，矫正，然让他按页划分，前面放英文，后面放中文，结果仍然完美。
====
现在我让他从PDF抓取文字，矫正后，按段落翻译，可以一次翻译多个段落，每次翻译不超过一个固定数目，结果仍然完美。
但是任务多了后，每次翻译的页面数是减少的。
好吧，我五体投地，继续探索。
====
为了防止中间结束，可以告诉他必须所有页面全部处理完就可以了，我现在是应该佩服我自己呢还是应该佩服 deepseek 呢，抑或都佩服。
====
好吧，有些东西是不给翻译的，哈哈。

Sorry, that's beyond my current scope. Let’s talk about something else.
====
然后我的英文命令也让deepseek 帮我修改，呵呵。
====
日语的文本他也可以处理，过程一模一样的。问题也是一模一样的，假名太多，汉字很少，我不懂日语，翻出来都不知道对不对。
====
时间段的话，北京时间的下午和晚上用比较好。
后半夜和早上，美国人上班了，要么在用，要么在黑客攻击。
====
用千问吧，非常稳定，非常强大。
https://chat.qwenlm.ai/
====
Deepseek，API 看上去可用了，但是不给充钱。

作者: 马鹿 时间: 2025-2-2 03:53
这功能很赞呀

作者: nanimarcus 时间: 2025-2-2 03:56

马鹿发表于 2025-2-2 03:53
. n+ r9 B0 e, i5 P这功能很赞呀

简直太赞了，我现在正在思考还有什么工作需要 deepseek 干的，现在的上限是我的上限，不是 deepseek 的上限。

作者: indy 时间: 2025-2-2 04:13
有没有上传整本书试试

作者: nanimarcus 时间: 2025-2-2 04:27

indy 发表于 2025-2-2 04:13
8 f+ e% M) p6 d! r e: i有没有上传整本书试试

目前看来，差不多十页左右就停止了，看看还有什么诀窍不。

作者: 马鹿 时间: 2025-2-2 04:41
本帖最后由马鹿于 2025-2-1 15:43 编辑

以后让deepseek 读出土的竹简

还有把古文翻译成现代白话

以后不认识的字不查字典了，直接问deepseek

作者: 方恨少 时间: 2025-2-3 01:23
请教是如何实现的？

我在网页版和手机版都尝试了，都不行，网页版上传PDF文件始终不成功，手机版上传之后，发出指令提取文件中文字，始终是文件解析中。直接在DS里问如何上传PDF文件，并提取文件中文字，照做其实是一样的。

作者: nanimarcus 时间: 2025-2-3 03:06

方恨少发表于 2025-2-3 01:231 V5 K, i/ g5 n7 r
请教是如何实现的？
" D- U8 [; _) B! V! u5 x( S0 Z/ D1 I! O+ o; m
我在网页版和手机版都尝试了，都不行，网页版上传PDF文件始终不成功，手机版上传之后 ...

我现在也上载不了了，"upload failed"，几个小时前还好好的，应该是服务又受攻击所以功能收缩了。
文字之类的没问题。估计deepseek现在暂时只保证主要功能。
美国人就这样，打不过就耍流氓，估计要等一段时间才能完全恢复。

作者: nanimarcus 时间: 2025-2-5 00:15

方恨少发表于 2025-2-3 01:238 Y6 j2 k+ B/ A* b% Y4 @
请教是如何实现的？
) c2 x" t; U* T# X, B' h
1 U6 k- u! }( C5 F1 O我在网页版和手机版都尝试了，都不行，网页版上传PDF文件始终不成功，手机版上传之后 ...

https://chat.qwenlm.ai/
试一下千问，估计美国人没有攻击他，所以资源敞开用。
很稳定，质量不错，好像最多一次处理15页。
我直接拿deepseek的指令用，没有区别。

作者: heinsect 时间: 2025-4-16 17:01
试了这个工具，可以转成markdown，正确率很高，有漏行，图片会放在一个指定的目录下。
处理一本100页左右的扫描版本的中文PDF，一份某行业的接口标准，纯CPU，几分钟时间。
这个工具不能处理表格，我把文件拖到豆包里，“把这个文件中的表格转换成 markdown。只是表格，不需要其它内容”，表格多的话，要发好多次“请继续”。

https://github.com/oomol-lab/pdf-craft

1. 这个工具要求装 python3.10
2. pip install onnxruntime==1.21.0, 有英伟达的卡：pip install onnxruntime-gpu==1.21.0
3. pip install pdf-craft
4. 把下面的内容写到一个文件里，例如 a.py

from pdf_craft import PDFPageExtractor, MarkDownWriter
r7 F/ Q ?6 P: n9 N8 i; G. p* Z
. S, I) R/ O* c. j0 R
extractor = PDFPageExtractor(% G9 ?% g) L- F% f. z; e
device="cpu", # If you want to use CUDA, please change to device="cuda" format.
0 e; x( f- W" P c" J& ~5 ?
model_dir_path="/path/to/model/dir/path", # The folder address where the AI model is downloaded and installed
8 [: s. Z) w+ ]+ t
)
K, s$ D! C% b& {! U' h) p
with MarkDownWriter(markdown_path, "images", "utf-8") as md:: W9 E, o( w+ K) b: `3 Y
for block in extractor.extract(pdf="/path/to/pdf/file"): Z* y" m$ u9 o4 C" Q! ^( S' l' m
md.write(block)

复制代码

要修改的内容：
4.1 /path/to/model/dir/path：存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型，国内的要科学上网，国内的镜像上没这个模型
4.2 markdown_path：输出的 markdown 路径文件名
4.3 /path/to/pdf/file: 输入的源PDF路径文件名

5. 运行 python3 a.py

作者: nanimarcus 时间: 2025-4-16 19:47
本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑

目前为止PDF转纯文字的最佳办法。
先写个小程序，把PDF按章节切成小的PDF。
然后，把PDF一个个传到deepseek，让她抓取，除错，输出。
效果非常好。

deepseek，qwen，chatgpt 三个，deepseek是最好的。

deepseek 把页脚页眉页号全给去除干净了，跨页的段落也给你修好了。
而且deepseek不会加戏，chatgpt有时候会想当然的加上没有的文字，让句子看上去想那么回事。
我曾经修一个历史文章，chatgpt给我活活加了三段，真是文豪。

API到目前为止，差强人意，不如网页版本修得干净。

deepseek可以同时开四个。

作者: 三力思 时间: 2025-4-17 12:26
本帖最后由三力思于 2025-4-17 12:27 编辑

让Deepseek给你开发本地架构的抓取PDF软件，并负责上传，下载。 AI监工AI。 LOL

作者: nanimarcus 时间: 2025-4-17 16:33

三力思发表于 2025-4-17 12:26
* F6 V, T7 Z1 R' a5 `3 L4 R1 y让Deepseek给你开发本地架构的抓取PDF软件，并负责上传，下载。 AI监工AI。 LOL ...

细说一下，听上去很不错，多谢。

作者: 三力思 时间: 2025-4-17 21:22

nanimarcus 发表于 2025-4-17 16:33/ f, q* S1 R& D8 c' j8 i
细说一下，听上去很不错，多谢。

直接问DS，“用C#，JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”

作者: nanimarcus 时间: 2025-4-17 21:55
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑

已经搞定.

首先 PDF 本身已经OCR了，Adobe Acrobat Pro中自带这个功能。

1, python + pypdf 按章节拆分小的PDF

2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile

得到text file

3, python 读取整个outputfile，丢给deepseek 矫正。

模型是 deepseek-chat

max_tokens 最大是 8192，别的不用改。

参考：
https://api-docs.deepseek.com/api/create-chat-completion

4，费用：

实测：

296K 字母，用了 9 美分。

英文字母到 token 用量大约 1/3

tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899

32899 个字母花费 11782 tokens，包含输入输出的 tokens

价钱，非常非常便宜了。

参考如下可以计算，懒得算了。

https://api-docs.deepseek.com/quick_start/pricing

1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
1M TOKENS INPUT (CACHE MISS)    $0.27 $0.55
1M TOKENS OUTPUT(5)       $1.10 $2.19

5, Balance

可以在程序里调用，知道每次运行结束后，balance还剩多少。
参考：
https://api-docs.deepseek.com/api/get-user-balance

6, Models

目前就两个
# deepseek-chat
# deepseek-reasoner

参考：
https://api-docs.deepseek.com/api/list-models

7, 问题

deepseek 会将前后两段合成一段。
特别是那种大量的对话的段落，deepseek会给你合成一大段。

8, 钱说了算。

deepseek 如果是免费的网页版，有时候会出现超出范围的提示，不干了。
但是API就不会出现这种情况，毕竟我们给钱了。
chatgpt也是这样的。

欢迎光临爱吱声 (http://aswetalk.net/bbs/)