设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3123|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 3 B& w) @! d# c0 r2 r
6 |+ H8 T& Y8 N( w/ y7 F' I
把PDF上传,然后让他抓取文字,并修改可能的错误。
" t6 A  w: B3 f; r然后deepseek完美的完成了任务。2 c; _: Q9 J1 t# Q+ U+ n: J
段落清楚,列清楚,页眉页脚全部去掉。
# W: D1 ?  r+ w) `我要疯掉了!
0 C% [4 h) u; x5 R  D9 P赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
$ X9 S7 R3 i7 T! l3 `+ L/ @====
" u9 W9 |- F. p3 q5 \中文也很完美。4 Z" _  Q% L; D" k+ N$ ^* B
经验值,每次十页比较稳定。& U+ \4 o2 J. ?- j
现在我这里API还不能用,等恢复了,全自动了。
. u7 l$ b' n% I6 B$ H====( v: Z  V! d% s$ Z+ X0 q
第二次疯掉了!7 a) F) W8 Y2 |" y- J& T
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。. b! o' H( C7 F3 t; T4 q% @+ c2 C9 }
====
" Z- {4 ~, A9 l0 o现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
. V3 c. J. P' O- B但是任务多了后,每次翻译的页面数是减少的。6 v, J/ _+ y3 y1 |
好吧,我五体投地,继续探索。
7 ~8 t6 @; N8 T6 ?8 M% l====( r3 d0 {3 u$ l" ~" w* |
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
1 @& b2 M5 `0 s) V====' P# ~! B% ^+ |
好吧,有些东西是不给翻译的,哈哈。8 k- Z! W( I6 N% `9 i3 d
, b1 Z0 O6 m- M6 @
Sorry, that's beyond my current scope. Let’s talk about something else.
) Q. s+ E' d" ?0 g# ]====
/ X- s3 [8 d9 {然后我的英文命令也让deepseek 帮我修改,呵呵。6 W! V0 n% [' I$ b1 L6 G4 |7 Z
====
1 e# t1 m! z$ Z7 Y' T8 g日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
* ^8 H, v# ^) ?1 N  Q2 `====
6 j1 P7 |! }4 [* H, b6 q时间段的话,北京时间的下午和晚上用比较好。
/ h/ j) [- z  ?+ \后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。. Z9 h: |3 A7 k7 W, D2 j6 s
====
; G( _5 u, y* v7 P用千问吧,非常稳定,非常强大。2 S( X. R: r2 F/ o8 _
https://chat.qwenlm.ai/2 I5 o( \, o& ]# }7 _* h: G
====
1 v) j$ ~+ d) a3 J% [: `Deepseek,API 看上去可用了,但是不给充钱。
& `9 h# t6 V& @! C5 ?! t
6 N: X6 h4 U2 T. j7 O) I
9 u( K3 I5 D1 Y4 @* k  d9 F+ z/ \* H1 P' f$ j  H! T6 Y

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3796 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ; g$ U' l4 i1 l5 ]& N9 v* W" V这功能很赞呀
    * E# o6 {. |8 J% y' d
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    % i6 A! D9 }% |% Z/ J" \- _& C' q有没有上传整本书试试

    ! z2 ~% t, q; k" V8 S目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3796 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 3 ]$ E0 C5 m5 v6 e8 Z8 W
    ; _  b3 x9 U% h1 A4 x; o, n
    以后让deepseek 读出土的竹简
    1 I7 U. [1 K! }( Z; ?: _
      u5 l6 {  [5 d还有把古文翻译成现代白话
    ) N- w) `" Q8 u( I& Q& `3 _3 P: U% L2 F/ w
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    11 小时前
  • 签到天数: 2956 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    : {/ ]1 k6 f2 ]6 _7 C2 e
    ) Z6 Q6 P9 R" Y: g8 J3 h, U* A6 w我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    6 w% q% N% o, F请教是如何实现的?& @) S6 D# L4 i
    " q0 W  H+ G0 o2 O/ E  x3 M
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    9 R0 m8 q: }8 \5 m, q; M. U  B
    / T2 a. B7 {' i, w% O
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    % j* ^, h2 t* G2 v文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ) y( }1 ^: `* I4 n, k3 r美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。# [4 F3 R& Y& x- c$ h4 y+ F

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    * \3 X( ^. F0 x4 `. H8 j9 n请教是如何实现的?
    # Y' ~+ i; ?: ~" y4 Y: k/ J# r% q! m
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    7 l1 g8 @: b' U1 Y5 c2 v
    https://chat.qwenlm.ai/
    ' [/ ^$ z' h4 B5 F5 G  r试一下千问,估计美国人没有攻击他,所以资源敞开用。/ H2 F4 A. k- S" g
    很稳定,质量不错,好像最多一次处理15页。" o$ t" z* R! ?6 l- p& E
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3066 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    # _& ~! r9 S( K' h  p处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。- @# L$ m. {7 A2 Z; m$ P6 ]& o
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    $ [' o0 u* j2 P0 u: L  m
    : ^6 u3 t4 ~) H. xhttps://github.com/oomol-lab/pdf-craft1 `3 g) p, c9 {# E: h7 l

    3 U& ~/ F. W( i6 x! v1 T/ a1. 这个工具要求装 python3.10
    3 a, u: o, B+ [0 {2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.09 q+ p1 y# L; J: v
    3. pip install pdf-craft* W5 r$ t  W' B$ ~7 {- i+ O& h
    4. 把下面的内容写到一个文件里,例如 a.py
    - Y* K- ]- n: I' @
    8 b; J/ ?0 a! V$ i! \% C" q
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter$ u# _/ w' x3 R+ S- i& o! Z  y

    2. 1 m4 o# a9 z/ U- o0 m4 Q
    3. extractor = PDFPageExtractor($ E* x7 u% i' D5 |: ~( n4 O
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.- A0 L3 f4 ]! S' d* t
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      7 ?# l* C% a: H% l! ?
    6. )
        p# u0 _( ^9 b2 y
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:8 Q/ [: k$ h$ _( p  l  u
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      ; d6 v! N5 _/ d5 z8 m
    9.     md.write(block)
    复制代码
    ) U* O( o5 X$ z( ]1 K+ H( I
    & O2 Z$ I: J- d) ]+ h2 @; O7 v
    要修改的内容:
    - k* w4 O4 h& w( h' O# S# t4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型3 k, Y3 x" K# d9 w
    4.2 markdown_path:输出的 markdown 路径文件名* R* ]6 c7 b7 v$ G( R" B
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名7 c) `3 }& E) c0 P4 N
    6 i0 e5 k2 ?: j7 _! v5 [  E6 F2 u
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 2 ^. F; i- V1 h, `2 d2 K

    : U4 V  I& V7 F# ]' G; `* R目前为止PDF转纯文字的最佳办法。
      T  N5 s% U9 _" _2 j) v: Q先写个小程序,把PDF按章节切成小的PDF。
    ! I0 C7 b- r9 \  k$ ]) s然后,把PDF一个个传到deepseek,让她抓取,除错,输出。7 I$ h3 g) K8 U
    效果非常好。1 {4 B( g9 a, Y/ v. R4 |: F! N
    . }0 b8 g) h0 \5 _/ N$ {
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    - {; i1 @, n. K/ b; N
    ' s8 K' h2 V9 V2 k- d/ pdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    9 H- i$ b3 }, A: v( _! V$ T% a而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。  V0 I, ^4 h$ ^3 p2 A8 p& p. y
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。" k( X( o) _1 k# y: y  C2 j

    + C- Z0 S# k, g+ Q! {% |: uAPI到目前为止,差强人意,不如网页版本修得干净。
    ) Z& K% \  Z% j2 b& ?0 N2 L$ m$ @( Y
    deepseek可以同时开四个。+ }: N) {4 z2 f% X; D& w! s3 i

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    * W" [$ o  D2 L( X/ z" S
    * j! G; c4 @2 }; F5 |- H8 a2 L让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    2 H  m* v- y3 p4 T让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    : p, ~7 f# r. z- u, l" c+ [4 P细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:334 V. C+ I9 a' d; [
    细说一下,听上去很不错,多谢。

      M3 ~, I0 [2 z1 r0 v直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ' |% a- T1 C: ]0 L/ o3 n# y& }

    ( L2 M$ w- Y, h1 U已经搞定.2 R# J+ ~5 j( G5 r5 C' m; M
    5 f7 |5 V" `. f+ _1 m9 [
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    4 G5 m& j7 q% K+ I+ h3 X5 T, z
    , t/ R; \3 u* g* U: b1, python + pypdf 按章节拆分小的PDF' i) Y4 a/ F! N; P

    ; e+ R% p2 C- v7 h# \* D2 D2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile# N9 a/ {$ ~. m2 u9 Z# m" _
    ; f) {1 G' J0 e& ^' S
    得到text file! D' W) |5 b- R+ R( O3 M# L3 }
    5 q% T# B9 a+ s0 k
    3, python 读取整个outputfile,丢给deepseek 矫正。8 L" Z1 b( j8 K# l4 [9 N7 H

    ! J- V, b3 K3 _7 t6 V. G模型是 deepseek-chat$ t) v7 V1 H# r* A* B1 _
    7 ^) q- r3 p' D9 ^2 C6 o6 `
    max_tokens 最大是 8192,别的不用改。$ Q0 s' o! [5 K, ?" \- @0 t
    ! R' y/ P! F$ W' I+ z
    参考:+ z. C# r  M9 v" l
    https://api-docs.deepseek.com/api/create-chat-completion* y% _% B9 N9 _3 F
    8 F2 d+ o0 f0 q7 @( G" |4 H
    4,费用:3 @9 _+ l2 \  V' _. _. V

    ' H# \1 B) L1 H$ T- z2 ~实测:0 i# N, h9 V6 |5 g6 k( T; }

    2 y7 i2 Y5 a% ?  z( L296K 字母,用了 9 美分。1 F9 M( B( W9 y$ E% \- u& e

    8 @4 Y5 R: h3 F英文字母 到 token 用量大约 1/34 r2 t4 ~1 U$ C" `- K

    0 x6 v# a% ~( b& L/ @" o& N3 [0 @tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328996 R# Q1 @+ w: Y' w/ h( U9 }

    ( {  V5 P0 n7 g: z! q32899 个字母花费 11782 tokens,包含输入输出的 tokens! t6 ~: O( x& @7 b3 K- v
    6 \, Q- L% S9 u9 v% S8 v
    价钱,非常非常便宜了。& R  a3 l6 {5 c6 B
    0 h* u- z$ Z, |+ C
    参考如下可以计算,懒得算了。- E2 n. M% _8 A+ w. ^

    0 n' }' R& j0 [  S4 ihttps://api-docs.deepseek.com/quick_start/pricing" X2 P4 Z+ _. D6 [2 V
    1 z9 s# ^! i  w- g1 v' S0 C' j
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ) I4 ~2 D! N8 I9 _1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    # u; j/ y5 y" I6 ^2 [  |. I! O1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    & n' }# f  @: z/ `3 ^' K! m6 z. U! w$ e8 a5 k. o2 x
    5, Balance
    4 w( G, H1 i0 w) l2 r7 w  Q8 A: U) N7 y4 H
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    ( U. C, e& O1 v% K参考:- H6 a8 y2 B' m% N
    https://api-docs.deepseek.com/api/get-user-balance+ y9 A' h0 y% M/ h# e5 U
    4 g% A( M2 O- m  M* F6 j! c: \/ x* V
    6, Models
    ! y* p& s$ b  E! z' x
    9 f3 g4 {' z$ J" Y# V' M) f目前就两个: }6 c. m+ w8 G& I/ C
    # deepseek-chat
    2 p5 P4 f$ t4 d- ^+ I/ i# deepseek-reasoner* [1 H% ]. P. r3 d& O4 g" B
    ; ~$ h/ f5 L& @
    参考:# C2 u3 O& K  f( j3 s  c
    https://api-docs.deepseek.com/api/list-models
    4 J" c( x/ c8 g# W! R- D
    ( W% q% J8 d' H$ Z4 D& m* d7 U  g6 `$ E# P+ U0 l
    7, 问题5 H3 m7 r3 P* Z" P+ K
    5 C) ?# T1 z6 a9 D: N% I& e
    deepseek 会将前后两段合成一段。
    9 c- B& M- n5 H特别是那种大量的对话的段落,deepseek会给你合成一大段。
    3 r0 Q* j# a0 G+ U- m, `7 l
    3 t# r6 I* q- L4 D: s0 S2 i8, 钱说了算。6 q* B' k9 ^1 X2 D- v( z  C4 s
    " J* \3 Z! ~3 d( S
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 L1 z  u3 ^8 O$ S& C) v3 i+ H
    但是API就不会出现这种情况,毕竟我们给钱了。
    9 K, H* \9 W* q, Gchatgpt也是这样的。, n* {7 E2 ~. H" W
    9 w6 F; s* Z6 L  O# F; V
    1 F& m5 `! r* v  x- Z. z8 W& d

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-26 11:45 , Processed in 0.084446 second(s), 27 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表