设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1140|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
! r6 d  U/ f1 {9 `/ ?* w2 K( P3 o! p3 V  o
把PDF上传,然后让他抓取文字,并修改可能的错误。4 r  Q2 H; T# B
然后deepseek完美的完成了任务。
; k4 k, ]/ x5 {: @  z段落清楚,列清楚,页眉页脚全部去掉。4 ]: o4 ?* W9 D& `& U3 Z9 q  L
我要疯掉了!
6 e& O1 c. U/ I" S" f赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
& `& B9 @. ?- G* C====" M1 L# a9 B# R3 ?
中文也很完美。
( y- C' J! z) d# }+ }) r# i/ ]& H' q经验值,每次十页比较稳定。
& |7 L6 y. k: K现在我这里API还不能用,等恢复了,全自动了。0 K, I# w) E( n; V
====& N7 ?- e7 T: }+ t7 |$ d
第二次疯掉了!4 s* V) f$ W. U% V4 {, z  z
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
  V/ K0 _& _* p4 \% u====
9 i; z) m  ^* W9 P) P) s现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
0 ~6 k  `) ~7 r3 g9 d- Y8 B. o  G但是任务多了后,每次翻译的页面数是减少的。; x0 n2 c9 x4 z
好吧,我五体投地,继续探索。$ T3 O9 r' i7 v! \
====5 Z7 V7 |4 G& ?( ~2 p2 l9 E
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。. I& @( B1 t& m6 p8 L
====$ s; z) P" K1 N) U/ j6 _$ g. X( [
好吧,有些东西是不给翻译的,哈哈。
# K7 i2 d% w0 V! O
  u! C4 v# ^# \  Q& A' \Sorry, that's beyond my current scope. Let’s talk about something else., Z- D# v/ C% g1 ~- t. _8 K5 r
====; R3 W6 a0 L; h/ Q1 r7 T, y: n9 Z1 }
然后我的英文命令也让deepseek 帮我修改,呵呵。
1 K" |$ x& E5 E( z9 W====* t. j( }) d* Q0 M5 T
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。& e8 h  c8 o, Z+ d
====7 T7 i9 Z1 X' x
时间段的话,北京时间的下午和晚上用比较好。
. a7 d. L. F4 f后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
, U6 f9 l9 H/ s; s$ l. z====
% _1 J. V& M" Y6 p4 H' Q, f1 D用千问吧,非常稳定,非常强大。7 }9 |- Q( Z& m8 ?! ~8 z) ]
https://chat.qwenlm.ai/% ~% l; W: l" p5 `3 B
====
2 t. x5 V; R' K7 y8 }0 fDeepseek,API 看上去可用了,但是不给充钱。
4 u' C- P( p& @) k- P& c) A6 l1 B. j( i9 W5 p* {. z0 w

! \9 _7 h! N/ c8 q- i. }! k) l+ j/ {

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    13 分钟前
  • 签到天数: 3445 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53( y: n# _9 I& z7 G. r& G7 U* l, x
    这功能很赞呀
    : R6 W$ P/ W* \5 q0 P
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13$ k& |  i* L, I" Y$ I, ]
    有没有上传整本书试试

    ! c; T* V6 v( P" w! T' ~, u, B' W目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 分钟前
  • 签到天数: 3445 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 * T- O  L4 z6 i' Q9 M

    # P- I2 v1 c5 n' z# d8 s' M" {以后让deepseek 读出土的竹简
    . @) Z6 V9 g- ~, h- {
    ! c( b5 M% o+ O还有把古文翻译成现代白话
    , s1 X9 p2 K  u9 p5 Y; W5 B' e
    2 n- t9 z% a6 q. x以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 00:12
  • 签到天数: 2597 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    + s1 n/ b% \8 o3 z1 U' z
    5 h( B- G  X' y6 d6 S* v我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    % l$ T2 I. d5 G7 X2 L请教是如何实现的?! [3 }; \; I3 _8 Y- m
    % K8 N3 V( ?( N6 S
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    : ^6 H( n% n$ w
    2 S" r" X; V7 C# l4 E' r我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。) s3 s0 }. ?) U
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。- Z1 n, c4 T: G. n- d
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。$ c. R: F" I. l8 c

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    % l8 e0 Y8 x# v请教是如何实现的?
    ! m) Y$ O1 k+ ]$ W$ e" n4 V' c7 Z& m& t* q
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    2 Y& K+ w4 a$ Q0 P: C
    https://chat.qwenlm.ai/
    # C; J8 m( l' @  B* S试一下千问,估计美国人没有攻击他,所以资源敞开用。( H4 z1 u" f/ G. e5 f$ W
    很稳定,质量不错,好像最多一次处理15页。
    ) o1 z9 l3 N+ ]% |, N" W; f3 J1 `  i) [# |我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    昨天 01:00
  • 签到天数: 2737 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    / d# }2 N& g3 k# n% i, `处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    2 a+ c* l# i! A/ [这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。. A; a% S( D+ a5 t2 |$ h

    0 ~2 j6 Q) @7 x6 f8 Q/ }https://github.com/oomol-lab/pdf-craft
    2 e, T: [/ w# l& H" C; O
    1 M! d- O' P; d7 e, i& T1. 这个工具要求装 python3.10: R7 \8 o' V9 D' Z4 J' R' `$ d7 }
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    ) ]- Y  q+ q7 ]" j" H3. pip install pdf-craft
    + z4 e3 o, z7 @- M4. 把下面的内容写到一个文件里,例如 a.py0 {3 z9 U9 d& z4 k6 i

    + X, N" M4 J7 e. o- ]
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      + r; Q. ^) P# W6 a% F$ U5 g9 j

    2. 8 |6 |7 `' q; w4 H0 J
    3. extractor = PDFPageExtractor(7 e" q4 ?9 ~- s9 }. x
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ) R, G1 Q9 s) \  E  y" Y4 T
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ( T: O, z7 p; _! N
    6. )1 ^2 [2 w8 h; I0 y1 e
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      . `  f% S0 A( s3 X
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):  o0 ~+ r) g# ], X2 @. t4 x
    9.     md.write(block)
    复制代码

    1 u) k% N6 m, D( B2 d+ t% Q
    & B% O0 J8 z; \' {. \4 o要修改的内容:
    ! C' Q; Z7 F( g( e4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    % d: T" O& r- O' j4 z4.2 markdown_path:输出的 markdown 路径文件名
    7 x: `' ^# B6 r; @" E7 ^4.3 /path/to/pdf/file: 输入的源PDF路径文件名# A3 S- m0 l$ q/ B

    ) c  ]  S) D. t1 W7 o5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 : E& _$ k5 }2 w: X/ T' i2 N

    4 W9 T( @" s3 b+ r$ b目前为止PDF转纯文字的最佳办法。! P0 y8 A5 o5 Y% `
    先写个小程序,把PDF按章节切成小的PDF。" \2 d3 m8 Z- V
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    6 G0 l( l; f0 h, O+ y/ z2 \; l效果非常好。# w  {0 T% t7 }4 O1 ~, Y
    , Y, m5 J( i" Z
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
      I9 a' ^+ F- h
    * e) P5 I5 N# W8 edeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。1 u7 A0 M$ l9 t3 R
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    : K. z8 E& o) [我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。3 Z7 q; v* }; k
    ; n6 u# N3 P5 ?2 V& O) e
    API到目前为止,差强人意,不如网页版本修得干净。
    / a# e; J( y$ E
    . V- i) G8 E* r" @5 v. D; f8 c/ N/ hdeepseek可以同时开四个。4 m+ h2 [$ W$ p+ i" }

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    & A8 m0 S, i' W  I
    ! P+ D' d1 [: C" M让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    7 d% _' ^9 g( O. U( D5 ?9 j让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    * w& b+ j( J* m! e细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    9 E, W6 c. t" g7 ^* P" B细说一下,听上去很不错,多谢。

    1 F% B3 O& t* p" _( n1 D直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    4 b% W( I2 j4 x6 N' p$ H) I8 o. J$ w+ s. W1 z9 X: d- `, ~
    已经搞定.
    & f1 |/ k! G& q' b9 X3 a0 _
    ; f) _  N/ ?/ j/ q+ A- E6 t首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    ; ?8 C' V6 r; t  T- [3 D2 d  U) Y3 E+ ]
    1, python + pypdf 按章节拆分小的PDF' W% P' J/ Z0 E1 e& [- Y

    1 L% B5 d$ g  [2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ( V5 J, c, F$ H2 W
    - R  G, F2 j/ J& }得到text file8 |" j5 ]- [4 k4 _# p- p  X
    * j1 u  ?0 U8 ?+ V* e1 y
    3, python 读取整个outputfile,丢给deepseek 矫正。/ Y7 r# d7 o2 p( F( O) y: r7 q
    ; m- d! V2 B' q5 {" n2 k
    模型是 deepseek-chat
    & W! W- N6 w  c
    . o' |& B, X9 ^3 g+ o  Amax_tokens 最大是 8192,别的不用改。
    0 j3 P6 d- C# n! p# m7 S# d# W  O- ]2 r0 t: t+ S3 ?
    参考:( ~2 l* L. s( `# {$ V; R
    https://api-docs.deepseek.com/api/create-chat-completion
    - }8 t: w6 S, e9 h: h
    5 V! R) ^! O0 C1 `( s2 W- h$ K4,费用:' M& v" ~  o. {
    * w) B: ]; ~5 n8 M4 P- r: C
    实测:2 y1 c8 O% ~9 i+ u0 m

    5 |3 v& J  M" t( [/ ]# {% |$ ^" U296K 字母,用了 9 美分。* C* `/ P! ^6 {7 _: U
    3 ^: {7 k! g* {0 }; o
    英文字母 到 token 用量大约 1/3
    * ]3 Z, F3 |* A. b" R9 _" h
    ( c; l$ [, b5 a4 W2 V" w. e8 i# O2 C" @tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    , ?4 V; ^  B0 }+ I
    1 g: m# X+ {* x; p* x32899 个字母花费 11782 tokens,包含输入输出的 tokens4 Z: w; }1 @8 J" B5 \  |/ X
    ) b, E1 W/ W9 }/ E- b3 Q9 @8 B
    价钱,非常非常便宜了。
    $ j5 v1 l4 D* M; N$ w; }3 ~" C% Y+ r% H1 w/ J) ^' G: `! Y
    参考如下可以计算,懒得算了。
    0 l7 G7 u3 c1 T8 f; i& d- e
    . `" k0 T, h5 k3 J& Nhttps://api-docs.deepseek.com/quick_start/pricing
    5 K# n8 C8 }, j6 [; F& d9 \, [% {2 J2 B7 u/ V; c5 d* ~( e
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    2 D( v3 t4 f8 n( m+ Z' C0 I1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55, j' h% l$ j1 q) J; l
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19) |/ T2 A; |; L+ \7 [! Y

    5 a& S  V# ^" s) c7 T5, Balance+ D6 r0 D, R2 V. A
    / c, B" l  s/ c, w6 A
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    ( X5 x7 o4 h# g' a, N/ v; s参考:( E1 l) C" `* a
    https://api-docs.deepseek.com/api/get-user-balance, o/ a5 ?; Y. J0 x4 ]

    % g& m7 a0 V2 O5 c( k3 X" V6, Models8 e5 _4 p; W" c- F5 t4 A/ ?6 D& a
    0 Q. r. D4 A2 r, `; M5 P- m! x
    目前就两个
    ! L. h7 E/ _! e: i8 v$ K) E# deepseek-chat
    2 A$ u0 F1 z6 P! ]) i: R# deepseek-reasoner! N" t, }4 f5 Z. b: W
    # z1 y* y" `8 _% b: M
    参考:! I# f/ V6 {( I1 t
    https://api-docs.deepseek.com/api/list-models
    $ b& ~) d& K5 E: K8 R: e2 v  n% m: \5 ?) o
    ; v, G2 q. {% c
    7, 问题
    3 u6 H  r3 B- z: P( |# I% {5 R2 @- t; r' s+ `8 D, C) s6 f
    deepseek 会将前后两段合成一段。
    . C6 [, o; i/ D- D, d特别是那种大量的对话的段落,deepseek会给你合成一大段。8 ^$ g8 M. p4 P% Y2 w0 h

    & v4 X- J: g/ l* l8, 钱说了算。
    9 ?' z$ H1 P- y& z& O
    $ l( |: L+ b. zdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    ( ^6 x+ A3 v& F. o- s但是API就不会出现这种情况,毕竟我们给钱了。* @/ Z. _; I$ g
    chatgpt也是这样的。
    / M3 k" q- v6 v; ]4 X! o, r! g$ Z0 q
    . P0 s8 J" h' P# h( K" X( l/ z

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-5-10 00:13 , Processed in 0.072496 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表