设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2786|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
2 N4 E; s( d5 Z# C, B. ~0 R. t" e$ x7 e/ y
把PDF上传,然后让他抓取文字,并修改可能的错误。
7 v& A9 x) ?: v% l: X4 }$ K然后deepseek完美的完成了任务。
$ z7 N9 V8 B8 Z8 P; n段落清楚,列清楚,页眉页脚全部去掉。6 [7 s6 H5 C0 d7 J) S- D+ B
我要疯掉了!; t/ S( j3 X- G/ k! r& r1 w; o
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!" t& v) s; l! U
====
+ r8 h) v3 Z1 S# B: ~, y中文也很完美。
! j) n  R( R, p) t1 j. A3 v; b; o经验值,每次十页比较稳定。
( y6 c0 j/ t: m: o现在我这里API还不能用,等恢复了,全自动了。
5 N+ W; c/ X- \1 H/ {====9 _: Y7 {, ?" v9 r: ]: @
第二次疯掉了!
+ X' b; }  X4 G) Q我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。) p8 n1 n. \4 \$ G
====0 h* z/ |% Q) ?' C
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。5 J/ K' B- G  R. y* p3 G
但是任务多了后,每次翻译的页面数是减少的。
2 j. i' S( a  J+ K! m6 Z好吧,我五体投地,继续探索。; B( P' |/ w; A  b. p1 i+ O8 s
====
6 \" }" B0 t- {1 g: [: J' I为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。# ~  e: T, I7 ?  G6 j+ q
====+ J& v3 L1 O  P; u
好吧,有些东西是不给翻译的,哈哈。
( Z$ z+ C! P& q3 d# S- \* a, f/ k4 T7 w) H0 U
Sorry, that's beyond my current scope. Let’s talk about something else.
8 J' p0 j# W/ |) o7 R6 X====- S" a; D% T5 f' [& X. W9 |
然后我的英文命令也让deepseek 帮我修改,呵呵。! f  \5 G/ [, I0 ~4 k" }. X% J
====( m7 R3 i+ M1 ]( ^4 z' _6 ]
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
7 Z6 ^' F5 [: y% h( W; V9 }! _' z====
  V8 P) j9 l) ?, u3 w时间段的话,北京时间的下午和晚上用比较好。
9 q) m3 @4 Y  k, q" }, U后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。. a1 A4 h( `1 v' J3 [+ ?! W' d
====+ m7 Z0 i; S4 ^
用千问吧,非常稳定,非常强大。
; F& V/ {. _) Phttps://chat.qwenlm.ai/* ^) c, s" S& L$ S! Y$ Q/ k
====
4 E1 R; o0 w' h3 f' cDeepseek,API 看上去可用了,但是不给充钱。
! i' _: b( T. ]. C* T2 {0 |( ^4 a, P: X' E% m; ]

; k  ^) y# g! f5 A  q7 |
; u. N7 R$ Q% R3 P4 V+ R8 r

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3724 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53( z0 X3 T3 V! t7 m
    这功能很赞呀
    # z: o3 m4 w  B+ O2 q% K
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:131 l/ x9 `9 c) [
    有没有上传整本书试试
    . S; W; h* g0 H4 @
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3724 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    / h- }7 l9 J  Q7 O
    + \2 ^2 v* w" _6 c以后让deepseek 读出土的竹简/ R* Z% f5 ~- p2 O; |
    3 z7 w1 w; r) G2 _) f, t
    还有把古文翻译成现代白话2 {* M$ p; D# m  Z6 N- M
    $ p1 R  {1 I7 i: B, g
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    17 小时前
  • 签到天数: 2885 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?$ p, A. D* [2 ]' h5 Y
    0 j6 {+ q: ?( d! w3 L
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    . }# E$ w/ J3 D请教是如何实现的?
    ' a. T( o6 n8 x; Q" \6 Q
    2 J9 A7 ?, f, l! k2 z8 B我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    + o" Y  ]4 E# ^
    9 l6 L% |: h2 E* E
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。; ?2 [: ~! E6 M$ _. J; t
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。7 P' _$ }: ~* V: U( _2 e6 q
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
      f0 m! S, R, r5 \6 \5 F& y+ a

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    : \) X# k3 T2 b. u7 t& r请教是如何实现的?4 S, Z2 b; W' n. R- w% s9 c
    2 t! `- z5 @  u3 w
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ! O; j$ M7 S- b, r% X# {https://chat.qwenlm.ai/% M/ j( n  b) c: A/ n6 B1 |2 n4 z
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    & q; M! Y7 y0 C很稳定,质量不错,好像最多一次处理15页。6 l- D- j3 R4 ]* |  C
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 2997 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ; V! ?( X# e8 }& l处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    2 ]5 i" v4 ?& {% z9 P. p这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
      b. A/ U7 B4 h9 t( N  Q* W
    6 @' [4 C* M) Z; f0 [& i" phttps://github.com/oomol-lab/pdf-craft
    " }% t6 u# M, D& z9 C/ d! y1 ^8 O% a
    1. 这个工具要求装 python3.102 Z# [* V1 \5 A
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0; i5 {+ o1 r* M% y! S3 a
    3. pip install pdf-craft
    , T7 e1 q) @$ g  x# O4. 把下面的内容写到一个文件里,例如 a.py
    ' Q$ q+ o7 V5 o/ X8 c& |7 m  P1 B, c- r/ H
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      % o6 l; u7 C8 S, m9 @0 B$ E$ b

    2. ) O- N5 O0 l' Q# ]7 v6 ^4 F
    3. extractor = PDFPageExtractor(4 H& q3 @0 {0 A5 z
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      # s7 D9 P% m, k+ ]+ K
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      2 f4 K5 M* A) _) Y% ^: S/ F
    6. )
      $ H2 E) K. L/ d5 I
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
        i# t9 V$ u/ ?1 C! u
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):# l  H' ]% E7 u
    9.     md.write(block)
    复制代码

    2 r* r# o+ s; g4 ~" t% S! n  ^" o" R4 D0 Z: P8 h
    要修改的内容:  o: |% T, \& _/ T" E. [% ^5 n
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    . {5 M. w4 y4 N+ _4.2 markdown_path:输出的 markdown 路径文件名
    - g9 y0 s5 M! f: R3 A' j, g/ y4.3 /path/to/pdf/file: 输入的源PDF路径文件名) T) _5 N. ?; O+ R! l+ m5 g! A

    # B$ i1 p: N5 _+ C5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    # Q4 a% k/ c6 {9 Q1 i4 x' b. k$ `) g  ~- m' K% P+ I
    目前为止PDF转纯文字的最佳办法。) P1 N/ U: y* ?6 V" s" x
    先写个小程序,把PDF按章节切成小的PDF。
    2 {& k, c; w1 [5 W( l' M! l然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    2 O" c0 @! y& Y+ \8 l效果非常好。- y& s$ x2 s: \0 @$ z- V; M
    % v) b7 o& ^% L7 Q+ `, k1 Y
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    + G$ k. O* C1 w2 e
    2 K+ ?% \+ t: L3 \; S' D* o) Fdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。- d) v9 `1 @& t) h9 h3 s
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    " h: s0 k8 P; `8 p0 ?我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    3 V+ v7 S4 D, F$ W+ x. y; t; w) W, ~9 [' W2 V) ]5 H+ K, v1 k2 Q% o
    API到目前为止,差强人意,不如网页版本修得干净。
    * D; ^. J0 _* x; v. d6 q) n; T. Q
    5 |7 N* u: W* F, y6 Ldeepseek可以同时开四个。& L2 ~+ }+ e/ r9 u9 N. v

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    ( z" q- h6 O. `* D' D! F7 h6 _& ]8 n; R- Y/ S7 @! B+ H
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26( _) m4 G0 h. k7 Y# I
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ! a7 ]+ F$ Y, c5 V0 ]" Z细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:331 T: P; p3 d9 a3 c8 |3 M0 U6 J# N
    细说一下,听上去很不错,多谢。
    , B- M1 {/ j) |7 C" S: `9 H; O; l# Z
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ) Q2 p% N# e! G! Y" v
    ; L$ g1 \" ^. o8 j: F; r! I已经搞定.
    $ @& k' N9 x1 z' q6 m/ C3 \( c2 I1 g: [5 {5 u
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    7 Q9 r, M1 @: @1 z1 {! P- U
    ; J- y3 n) e6 b% X/ d  ~6 A# c1, python + pypdf 按章节拆分小的PDF
    ; y% o1 `( N2 x$ z+ T
    + W9 R  ?% V9 f3 Y- C9 T& [2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    3 F' ~% X2 n' G8 j; S
    3 m: S1 X) C0 s$ n% \3 S1 I4 c得到text file
    : [9 S8 v+ K5 z$ |- \7 \0 K, A/ l$ L# K  W
    3, python 读取整个outputfile,丢给deepseek 矫正。
    # x8 A2 U* t+ \9 m6 Q5 @8 @4 G3 Z% `8 q$ M
    模型是 deepseek-chat1 v- \. W9 d9 J8 l% @9 U! _
    / t& J. [, g8 b! z2 u
    max_tokens 最大是 8192,别的不用改。
    ) b$ g4 R: U$ N# i1 X. g) D# n
    $ l& z% r; K7 S% ]8 M! m/ L% \, N5 E; V参考:' ~: s9 }9 G! ?- e6 J
    https://api-docs.deepseek.com/api/create-chat-completion! \- ]% ^" e& u$ D+ u5 e" n

    + A3 @: ~9 m) U$ k! l4,费用:
    5 ?$ [" t; B8 H* H  T9 F7 J1 K" d  N
    实测:
    8 a& Z# r. v. Q1 }4 R  o" \3 v* F* }0 _% B3 n5 s! N4 Q
    296K 字母,用了 9 美分。
    : L2 l" U& G( r- W5 ^2 k: |$ ~' T: S: q- |9 b/ Y" S: b
    英文字母 到 token 用量大约 1/3
    + T( ]5 l& U4 _- h: ?/ j2 t9 O% @/ k; D) y9 e: L4 e& m6 z
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328998 @. {6 |) v, _4 K) L" ]" u
    5 p2 A( p( u6 Q# c$ K. I
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    , s& n* q' s0 k9 f) R' J( L! F. l0 y9 t" x( M
    价钱,非常非常便宜了。
    7 s! f5 f7 x" c" K( [# I
    3 k3 z2 v+ ~. A' ?1 x- R$ b参考如下可以计算,懒得算了。
    ) b- ?5 e# c( Y# w! l7 C+ r% h$ w
    ( L* F" a& S$ x& n5 @# s6 J, g; Chttps://api-docs.deepseek.com/quick_start/pricing7 j+ r* c1 R3 l. {# \

    , l  G) Y! o8 R. ^& Z+ q1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    0 T+ y8 _- |( c2 W1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55; K1 i5 @( Z5 n$ A
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19  b7 \; i/ t9 ]3 x9 h/ U

    7 F2 K( c  n$ X/ h( r& X+ Z5, Balance
    * v0 V" S8 p4 `% f4 ?- w  g) j# l+ S# |. _- s
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
      c4 o1 {" f" q$ r( {# g参考:
    ( y  K2 e7 I/ K  Phttps://api-docs.deepseek.com/api/get-user-balance
    1 ?5 N1 ^4 x0 n( F* y+ r. Z' A8 v* D& P8 @
    6, Models! ~) b: T2 E$ w  ?- {7 p% t2 K" F
    # n) V7 r6 B# m+ }
    目前就两个
    - [9 E+ q. m7 _# deepseek-chat
    ' G3 b; M5 Z. E# deepseek-reasoner) |# |. p/ w. R& l0 Y) X( d. F
    3 u+ U( |% ]0 }/ G9 B) s, y
    参考:
    . Q; e, f& q1 b2 \) C3 dhttps://api-docs.deepseek.com/api/list-models5 I1 \2 z" t$ r4 K& E8 o* z

    - W) B* Z+ m- u; T8 a0 _6 E9 _- U' d" k! L) B9 Q, S) S
    7, 问题
    , v' C+ N1 T. `& T
    & p/ i8 H/ U% n. `4 |7 n+ Fdeepseek 会将前后两段合成一段。
    & e5 W) ~2 o: b: F6 }特别是那种大量的对话的段落,deepseek会给你合成一大段。8 ]" n& n  u7 N
    . o& @( ?) Z/ K) d. k- r
    8, 钱说了算。
    - G4 v" d' h( C4 _3 K6 A5 {( k8 f  |
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    8 _! I3 A  p/ c! K4 }. y6 g# Q0 D但是API就不会出现这种情况,毕竟我们给钱了。
    , X: j) \2 f  c" Wchatgpt也是这样的。
    ( T6 ]8 ]/ O) @* A; m7 c5 p7 u0 {+ c0 y5 K! w% |# I/ ^* @
    6 X: ~% ^; U1 K; m

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-3-15 19:06 , Processed in 0.080940 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表