设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2406|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
* D# k5 o" B6 {4 o% N
& X9 X9 _5 Y4 M* v6 Q3 b把PDF上传,然后让他抓取文字,并修改可能的错误。
; ]! @+ Q! q9 D; \; N" z( k- T  l然后deepseek完美的完成了任务。" m6 x5 k( p% N
段落清楚,列清楚,页眉页脚全部去掉。  {) u, o) y& P5 p
我要疯掉了!4 b1 q2 A5 q1 C/ J/ C& {" e3 q
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!- Y* z/ ~3 x* q2 [  U$ d
====, q2 V2 G6 {+ d2 }: m" ^
中文也很完美。2 C/ A# h" s8 j
经验值,每次十页比较稳定。+ W. \0 J0 ~" }/ P9 |
现在我这里API还不能用,等恢复了,全自动了。
1 ?- C( g3 b2 d, R====0 R# i# f1 {5 U, S4 r. n2 |2 w
第二次疯掉了!7 g: H$ i4 K: I) Y* L  E
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。- F1 Y. f) F4 i* P  ^. x
====
& e$ O0 c1 P  `1 z7 K现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
$ T5 W2 x5 _) {8 {但是任务多了后,每次翻译的页面数是减少的。
2 O/ m: N- N1 E  F3 m$ Q好吧,我五体投地,继续探索。+ }1 I8 c+ v( ^5 K6 T, v* ~# K0 R
====
9 |6 P- Z  w9 }& \  G为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
) C7 {6 N) U, }% z/ o6 S/ E: I====* F+ K4 O9 N' n" I
好吧,有些东西是不给翻译的,哈哈。1 ~+ I6 Q8 a0 z2 E  B( w
$ @( Q: L1 r& x5 R8 n7 J
Sorry, that's beyond my current scope. Let’s talk about something else.. p5 O% Y& ~6 C6 Q# s) P5 x
====# b+ v' w6 l" \/ l8 L! [
然后我的英文命令也让deepseek 帮我修改,呵呵。% P5 y" P' X7 S: _; i- d$ }
====; S) T9 i  M, K
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
, A6 B/ |* `7 j5 C$ F2 C====2 [3 H% o- E( a: T+ K5 `* s
时间段的话,北京时间的下午和晚上用比较好。$ t1 _$ Q6 T5 e- ?8 T+ M
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
6 p/ Q; C9 a3 ^. x( q# C1 o====
! d' u% q9 H2 w, a+ }0 I用千问吧,非常稳定,非常强大。
" E* |2 W* h- z9 h4 k  k' xhttps://chat.qwenlm.ai/
4 k; W* h0 N8 W====! c! z; t/ m) [7 a
Deepseek,API 看上去可用了,但是不给充钱。' p# R, A$ K  }7 `* V* S
/ K" H! g' w3 B, v6 t2 A

* H& {( }! u9 O6 |. M5 {' W0 J9 ^+ C" a9 |0 G+ l( l8 q

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3636 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    & ~2 `+ v9 o' w. C7 Q这功能很赞呀
    & b2 h, k" A* ]. x
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    & w7 J. q7 X6 ^" z% a有没有上传整本书试试

    3 k* D, s. j# h( q  l目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3636 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    0 b$ N4 ^) [% _9 Q
    $ Q1 a5 L7 E4 K9 e' K, c& g$ L% B以后让deepseek 读出土的竹简1 ^$ f7 A1 }0 Y

    + q# v- S# T1 y/ y; _6 ?! ~还有把古文翻译成现代白话8 K2 ]8 p; T( C7 S4 C7 }
    8 a: F: W; {8 S  P) F  S
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    5 小时前
  • 签到天数: 2798 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    ) C4 M8 ]4 R1 f$ I* b' I* E
    / u# I5 s: G+ o7 R4 u$ v& q; U我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23) c. \; i) s8 Q  G9 Q
    请教是如何实现的?' D" {/ e% j) T1 U- l# t

    9 T3 w4 }' |' @/ U7 E' a我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    $ G- u! _6 N! I
    ( Y* u1 q$ y$ U1 Q7 c4 P! \
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ' [' [' l( ?% c( z  g& K  A& Y/ A  e文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    0 x/ \7 H8 D+ x8 \. i美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    4 m! |# X2 h+ r3 X. [3 Z, F

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:234 d+ v6 a% ^3 m7 ~/ z& V' [
    请教是如何实现的?
    / W# A  x' D+ T7 V9 T" j9 z$ R1 F- J& k/ u7 ^
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    9 |& n3 p2 r6 G' \4 R  X' Lhttps://chat.qwenlm.ai/6 ?( o. s5 c& F$ F  O" e- ~4 B0 j& u
    试一下千问,估计美国人没有攻击他,所以资源敞开用。' i: j: j9 X) ~5 `- X
    很稳定,质量不错,好像最多一次处理15页。
    ; H5 ~* F$ K# b, O+ F/ x我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 2914 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ' G2 O9 L+ E# H  S1 v2 `处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    0 `3 P4 {. ^1 F% c这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。& N  ^: _: L( ^) F3 k+ U7 K5 B
    1 b( l- U3 ~$ u& b1 {+ ~
    https://github.com/oomol-lab/pdf-craft
    4 Z5 P1 S% k7 h/ `2 u! X8 s/ s2 R( [# ^" h) M
    1. 这个工具要求装 python3.10
    + p' U( u9 v/ t4 d: j2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0, A6 l9 W" y# E1 ~5 ^
    3. pip install pdf-craft# T& |5 n0 h5 ]& }) j0 ]6 `
    4. 把下面的内容写到一个文件里,例如 a.py
    ; ], W" X7 H) ^% m% z- }0 e3 m# o
    6 i/ c) K% \" o1 C% ]
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      - z5 m. h8 |8 a5 i3 W" R& o
    2. 3 x0 k7 l; S7 w
    3. extractor = PDFPageExtractor(% t) S( }! z5 i0 w
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ( P1 u/ E; m1 L) [
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      2 F4 z' j; @1 ]9 x/ E) d* ~
    6. )
      ) M( M. O8 Z0 o" j& m7 Q% G
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:% Q  u5 T" ?( z7 b. a5 b
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):% J( j, z( I: M# G
    9.     md.write(block)
    复制代码
    ! S0 ]/ l% T( r& A* `

    . D$ p) {  @  Z1 u要修改的内容:6 Z' J+ s. d( g9 ?2 V# l& p5 k
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    ( C! N" Z2 x. m- i9 N1 \4.2 markdown_path:输出的 markdown 路径文件名) k/ o$ v* d% K4 u+ ~
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名6 l8 p; O4 L2 d, R& A

    + n0 R1 O+ K+ Z5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 9 S% A3 d, w7 ~5 s& _, q

    4 r) ~0 U1 `. v目前为止PDF转纯文字的最佳办法。7 P# C- n- I$ m5 P( f
    先写个小程序,把PDF按章节切成小的PDF。2 t& Y8 R+ P2 _* `9 m( p7 {+ X
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。+ W9 _1 a$ v6 l1 R8 @" k
    效果非常好。: G) i& Q1 y4 A4 Z+ q/ A5 K* ?

    3 Y$ ?3 H# ^" F0 |6 @+ ^! Q: ndeepseek,qwen,chatgpt 三个,deepseek是最好的。
    + @4 f. d$ @6 u' F% b2 X& p$ Y9 R7 }4 ^" F9 W5 @. Q( D
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    - L" l& g8 M' [: {4 F而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。/ K. n  C0 x* M$ B$ G" V: U* G! r. u2 w  `
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。. J: E; S/ p& t; j" X0 U5 U
    $ ]: i/ v6 S- x! r" C; j4 a( d
    API到目前为止,差强人意,不如网页版本修得干净。
    . W: N* {" L3 ~* g# K. s
    " F1 W* k$ k8 O1 {& ^; [! mdeepseek可以同时开四个。
    - j6 g0 v. |% k0 Q0 W- t& n+ V; ?

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    3 ~* b9 x8 t/ P4 I) f2 l" E
    ( y$ o3 `2 g8 A) d0 [" @; v3 s1 m让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26/ P$ ^3 e1 A/ Y6 O" w  s
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    8 y# H6 R, E6 @3 m, C- u
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:336 u7 |  F# t5 ~1 H
    细说一下,听上去很不错,多谢。
    % R5 Z  U8 P9 ^5 x0 v
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    * e& V- R. J# l. y, }( D
    ; n+ W$ C" o0 m3 B- ]已经搞定.8 U* Y) q8 S7 e, c; a+ m
    ! }" ]( `$ C( T4 D3 v2 L: _, y3 d8 O
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    . ~/ o& n+ S# X+ f
    5 N4 X% J, l+ n/ ^/ w1 X% ~1, python + pypdf 按章节拆分小的PDF
    * X- ]3 Y4 `+ m# q  J4 Z
    # o4 s  t$ m* t; f- {. }2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; a7 ^" B9 N+ C. }0 `( a2 s
    " t5 q9 H+ U9 |
    得到text file6 |% b; r3 z5 C1 w0 Y
    : ]( w) a4 n( v5 v6 j+ z( N  O! w
    3, python 读取整个outputfile,丢给deepseek 矫正。
    : H# K9 x& @* H( ]9 S$ A) u9 d* H1 C" O9 V, e8 ~$ k. _3 [+ @
    模型是 deepseek-chat; S9 q/ W" x. c7 p

    # V5 ?/ f% w; v8 @% emax_tokens 最大是 8192,别的不用改。1 T! `2 j6 ~2 d$ o" g! X

    ) |/ E/ l3 @  ^* I参考:
    + D/ u9 q* w6 f1 T1 h& ]https://api-docs.deepseek.com/api/create-chat-completion
    3 y7 ~8 i5 c/ [3 k6 I/ p+ m( ^: v& @  }; l4 |* e2 E3 n8 ^
    4,费用:
    9 @* v% t0 U( h5 |
    8 M6 }  h3 z5 I# e0 a7 q# T% E实测:
    1 g; n. o. Z8 i' Z% E1 a
    # U4 l8 s1 H- K7 L# t( \. r3 [, ^8 ^296K 字母,用了 9 美分。
    ' E1 d. R$ f& f6 m4 x3 a; R) D, O  {3 s& z6 o3 M$ u  d
    英文字母 到 token 用量大约 1/3
    - _) q. k/ p, w% _3 I
    ! ]$ u7 U: B# d& _: W1 t; m8 @2 E. Ztokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899$ H6 e: ~' _) G1 G9 b  F
    & P5 E$ G  ]# m, z  f% k
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    5 N: C$ \8 G9 A% _1 `! J7 G
    * d% j6 M' a# U- N4 j8 O% I* Z% t$ Y/ ?价钱,非常非常便宜了。) u1 E" I/ U2 D* Z. ~+ Z$ S
    9 _+ U1 H7 P: p; ~, l
    参考如下可以计算,懒得算了。* Q  M1 R$ H2 V" [4 a: g
    # Z9 ^- S' u8 J9 r* e3 q2 r2 Y+ r
    https://api-docs.deepseek.com/quick_start/pricing7 q$ K  F  Q. J
    8 L9 u" }9 `' Y( M, O
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    4 z$ G; Z& ?4 D6 R1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    / ?5 j# b. i- N, S% ]+ [, d' L1M TOKENS OUTPUT(5)                                              $1.10                $2.198 y9 E) e$ }  y

    % N  D5 V/ _/ J: P; G% A# M5, Balance
    4 ^3 D5 Z# f0 D5 r: k
    % A) Y& i$ f# D+ }* T, p可以在程序里调用,知道每次运行结束后,balance还剩多少。
    * h+ X% p; J" ~! I+ C+ E- Z参考:' i0 q/ P# P9 y1 A
    https://api-docs.deepseek.com/api/get-user-balance
    1 U5 r0 c& m+ K
    + [6 A6 l, `; B3 a6, Models
    % [4 ^) }9 @" Y( R$ r  }+ ^1 A' h' p$ V6 `, w) m
    目前就两个- s" p% W. ]4 V% Y" h$ Q
    # deepseek-chat
    , T* S' ]5 s# G, o$ M# deepseek-reasoner9 V- J! T' Z" S" c4 J7 w" Q% C
    0 @; v' H1 k/ g2 [, F
    参考:
    8 `, h# J0 ^) J, F6 phttps://api-docs.deepseek.com/api/list-models
    ! K' p& |( w$ T- }: p
    6 r, N+ s6 N) E+ E: H# y
    5 V0 p% ]' K; m7 v+ ?; W7, 问题% \/ {2 L' M' U  F8 A

      k: [/ Y3 X# h. h# Adeepseek 会将前后两段合成一段。/ N+ z1 J* @) i
    特别是那种大量的对话的段落,deepseek会给你合成一大段。9 n& l8 _0 T3 q4 e

    3 f% W+ q5 l4 w) Q8 `: U, w8, 钱说了算。
    ' z. s5 n1 y1 k9 `" r. {/ T. l# B! U/ B+ V6 Y4 U0 M
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    # H. F6 b6 Q( G" U/ ^( p: d但是API就不会出现这种情况,毕竟我们给钱了。/ g2 j) H$ I; N  E9 `
    chatgpt也是这样的。
    . s- g: X' k* o5 h6 \* c% W6 s- U* l2 }3 U4 Y1 R/ u8 {

    % W" r) ^& d' k( f( y

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-16 12:38 , Processed in 0.042676 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表