设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2048|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 / [( L/ }1 N2 |* v

! j! d: Y5 j  K* y把PDF上传,然后让他抓取文字,并修改可能的错误。( S3 y9 h9 i2 \7 }! q4 w
然后deepseek完美的完成了任务。: S6 u. @: P1 Y2 }
段落清楚,列清楚,页眉页脚全部去掉。5 R* Z/ O/ q+ q' B" R; A
我要疯掉了!# J  h/ y# v( r+ M) y
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!" L6 E& g3 ?" {% o3 G: ?
====
3 |: R6 z7 y  r* m; y6 Q! s9 M( H. Y中文也很完美。
. r8 W5 u4 c4 ?5 }经验值,每次十页比较稳定。0 f1 S: O; t3 ^
现在我这里API还不能用,等恢复了,全自动了。9 d1 s1 g  E) T3 F1 P, y
====
: [* b; w. N/ p& x% T4 P第二次疯掉了!% w% P1 ~7 y% s. }1 @
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
9 p: R7 J( r) `! H1 C* X====
, z4 m" {0 ^" U) w现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
& }* J7 M- c8 R  `% x( n但是任务多了后,每次翻译的页面数是减少的。
8 }, ?5 {. r+ Q1 i; j: K好吧,我五体投地,继续探索。
7 t1 T- F' O+ k2 H$ z====' x/ j& ?& v; h# Y. h6 Z+ l% g
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。( B! j3 \! a0 y, i1 V, k& t
====
8 K) l) f" L1 Y2 X9 d  e) b好吧,有些东西是不给翻译的,哈哈。
- R$ c) d9 K  U' n5 G" p$ i
8 |8 ~; d: a% _Sorry, that's beyond my current scope. Let’s talk about something else.3 [9 C, h" e* i9 L' P- s0 u- o4 W
====
, ?0 T- s+ {$ @7 |1 K2 \然后我的英文命令也让deepseek 帮我修改,呵呵。' M* n4 w: d9 R8 D' @  m8 V7 j; F
====
, o, F8 T! X# h% m日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。6 N3 [) r, j; G; H9 N4 r6 s
====: d% a( b. J5 t( N! X& Z! J' |  v
时间段的话,北京时间的下午和晚上用比较好。
6 ?5 U/ w: i) [- n( P后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。, U8 Z+ P, M+ y0 T
====
% i' \( w0 n6 H0 i用千问吧,非常稳定,非常强大。
) y( J3 _4 T2 Ghttps://chat.qwenlm.ai/
0 W, y& D# J+ V# g/ I====6 Z! {4 V9 _: q2 u" }/ S5 G: t3 L2 S
Deepseek,API 看上去可用了,但是不给充钱。
& s, w3 ]$ ^* a' w& w. F5 L2 d. C' s) V9 U3 P: y* {/ U
/ }6 n8 k+ O+ t0 \

& }& M& h. Y8 S% ^, r* B8 S

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    2025-9-20 00:03
  • 签到天数: 3579 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
      D1 |5 l- J# }' Z9 v* D. O$ O1 y这功能很赞呀

    9 ~3 G0 U/ w6 F简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    & o, a4 Z" q. x# W3 w/ R有没有上传整本书试试
    / o& o" ?8 e$ [3 d# l( {' w
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2025-9-20 00:03
  • 签到天数: 3579 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 6 b( f; a$ r4 Z: u% Y
    7 ?. I( X/ B- T2 O: `, d
    以后让deepseek 读出土的竹简5 }' ~2 F* P3 i
    # i) S, U& m: q( Z% S# K9 `
    还有把古文翻译成现代白话# f; }0 s" L' \' Z

    % R: l, r1 G1 t6 }$ F) T3 v以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    18 小时前
  • 签到天数: 2735 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    - v. s& Z' j& O; Q0 F# C
    2 J, u! x7 M) ]/ w# T8 _1 ~我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23! l! {6 m7 |) t
    请教是如何实现的?
    ! F- M0 D( K! p1 n2 X" P  X3 Y, c( [& n, _' i* K; w0 K
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    4 L8 i; W2 `; v9 V8 d; e6 R$ m# D: \7 Y9 l% r
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。1 Q1 ]+ {% p2 h/ x
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ' u' A( ]1 k+ K/ T! \# }美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    ; P; G/ y# s/ d! [+ L* a6 }2 T

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:239 ^  V' A" c' h9 d9 U/ {2 E0 o+ ^
    请教是如何实现的?5 f* N% E9 C% }- Q

    , [4 Q& Y9 w9 m我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    3 p' q: u, ^- Y- N/ o/ M% r+ k9 e) bhttps://chat.qwenlm.ai/
    4 j0 A* O: o  r* a, r试一下千问,估计美国人没有攻击他,所以资源敞开用。
    / K) ?8 [7 L* Q8 r. }( k  W7 w很稳定,质量不错,好像最多一次处理15页。
    ; ?2 u6 Q4 c7 F我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2025-9-20 01:30
  • 签到天数: 2861 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    0 ]" V1 `# B* g4 t6 _4 X0 `处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。) x2 ~( w3 L5 r2 n
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    7 ?: ]3 p9 K( S6 u  y, b7 [! C& {( C& p' Z2 V
    https://github.com/oomol-lab/pdf-craft
    $ y" a( W+ B5 a5 `7 p7 s/ V7 |2 s3 C' R  h8 r3 e
    1. 这个工具要求装 python3.10
    # \$ `6 e8 R- V2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0/ T* s0 d8 J; X8 @. K
    3. pip install pdf-craft4 \1 u4 w) f  c* L" a* \1 s! f
    4. 把下面的内容写到一个文件里,例如 a.py
    : I4 K8 `; L- o/ G( e6 J+ C+ D/ L# L8 V# F- H
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter+ z; u1 h) o  ?
    2. ) D; ]: L. K( m% u3 l: N2 e, [- F
    3. extractor = PDFPageExtractor(+ e! k# W- r9 o! s
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.. W; Y2 X; a, a& k9 U
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed6 R, O+ u' l* S- ^# F% c
    6. )
        W' U" L! b( j6 A8 H  \
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      ' x# n+ }( E; T( m$ q9 G/ o
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):- [) E; F' R+ `8 G, P8 V
    9.     md.write(block)
    复制代码

    9 Y0 F* s3 }% C( i* c- K' C1 P5 T" ~% V6 B9 y& c9 D
    要修改的内容:( \* P1 ~# C& e) u; Q# z- [: ^
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型* ]( U, V- U9 }+ p: B# n# ^/ M
    4.2 markdown_path:输出的 markdown 路径文件名
    7 [  j2 f1 g6 h8 g3 i- H! p/ m4.3 /path/to/pdf/file: 输入的源PDF路径文件名) K0 }" Y, V9 F5 c# ^
    * `  ]9 h0 p, e. R: f
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 $ w3 B7 }7 n  K. k% a

    ; z& X  j2 g$ h" Y目前为止PDF转纯文字的最佳办法。
    - _" ^# p" f+ R6 t( C- @先写个小程序,把PDF按章节切成小的PDF。
    8 c# L: k1 O" p6 d7 @然后,把PDF一个个传到deepseek,让她抓取,除错,输出。1 }3 t9 u1 y+ N% w
    效果非常好。
    % v9 [, q/ {7 y+ b8 e6 B3 m9 d6 A# h" C/ m# G7 V
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    8 r7 K+ r- f$ Y8 Y' L' Q- E7 ^0 X5 E" A( ]
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。. c+ k3 g8 o- x  l
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。1 [4 ]$ k0 S& F/ V
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。8 ^# _7 e( i1 b: s( A& C
    0 V+ `9 O3 K8 J
    API到目前为止,差强人意,不如网页版本修得干净。0 i0 S- O0 t: J) P3 I

    # i! R/ o2 r, _7 Rdeepseek可以同时开四个。
    - ^$ o. G% F, i( T" o

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    9 U9 D7 P0 i; R# ^7 A5 ]& ]/ f8 v1 S
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:261 h$ i; r8 }# p* `- U$ Q
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    : i9 [9 ?  y9 E. `7 t2 s" c% k0 I6 C
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:332 Z5 a% k7 s: M0 |+ e3 m
    细说一下,听上去很不错,多谢。

    $ Y6 K7 X( O0 P7 n6 L直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    % [+ ?* {# w4 ]6 a) I2 U
    , D' h' L7 ?$ b已经搞定.
    & O7 J2 Q/ }; d, B1 M, P7 D- ^+ ]! H) t
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。' k3 o2 H. i2 ^0 g" K! M- F

    8 Y; Y/ X- [2 [- P9 t1, python + pypdf 按章节拆分小的PDF
    . v: W; R  d' S- T& K0 x
    ; R! I$ V4 e9 s0 [, d" ^" k2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ; i/ d! \: u, S( \$ \6 Y/ ]* [- `  s) X
    得到text file7 m, o7 h. {+ Y+ b+ v, a3 j
    % y. O! o$ K3 o/ }, j) X
    3, python 读取整个outputfile,丢给deepseek 矫正。5 I0 |% j" b: \4 a0 q, i
    3 b$ ?- q, Q! I: i
    模型是 deepseek-chat
    6 }9 c/ u2 a* a$ D/ o% F* }1 C- S) P9 g, ?
    max_tokens 最大是 8192,别的不用改。2 s6 |2 a  w) d

    ! b- r. i4 y. j; h) d参考:
      E1 `, W" @( ?  u1 c, A7 d: mhttps://api-docs.deepseek.com/api/create-chat-completion! H0 S) V' `# q# |, X
    2 S6 T' z' v. M, l0 r+ A
    4,费用:9 q& w! m  L! O  b- s* j3 A; q  [

    * M0 |- C) H4 g; {实测:
    9 f: S+ E4 h- |2 n1 L
    1 k, l# i( o/ B  j% U' S. L$ \! B296K 字母,用了 9 美分。1 J+ f4 ?+ P1 ^5 M

    6 q' c( W9 e8 J5 Z英文字母 到 token 用量大约 1/3  F0 z0 y0 x. m) N8 G: I! K
    # A, Y) Y3 d* ?
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899; H6 n+ {" j+ q5 l
    : U0 F% E1 m2 G5 v* K* G; {( s7 w! C
    32899 个字母花费 11782 tokens,包含输入输出的 tokens. g; x2 v/ P2 O) S
    ( H: z# v& \! @' C. t
    价钱,非常非常便宜了。
    7 P- t' \; i" A5 F
    / h1 m0 q  j! M7 O  ]参考如下可以计算,懒得算了。
    " E- z& D& b: G% V: O
    $ C4 s% c0 I7 C( U# V* thttps://api-docs.deepseek.com/quick_start/pricing. S& U7 E# ^2 R& e9 z( s) y, T( c, ~; ?
    , {2 J4 e: c' K8 h" q; F4 ?  v, E
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14; \3 b. K2 R# {2 J. W8 Z- E( F
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
      ?# _; p/ n& e# `5 v4 S1M TOKENS OUTPUT(5)                                              $1.10                $2.19# q8 t8 `1 n  N# ]. k( Y

    . e: k7 _" p  _( F5, Balance
    # [5 r/ d9 g( C6 M& x5 m1 }7 a/ l7 o" F! L
    可以在程序里调用,知道每次运行结束后,balance还剩多少。6 [5 i* o1 p1 l# K. [! O5 T" E
    参考:
    6 {# q/ M1 G$ p# [https://api-docs.deepseek.com/api/get-user-balance3 e3 y6 b1 m! z  r& V4 v
      l! e. s) p, ?2 y+ K0 l
    6, Models& T% f1 {- d: p6 v4 I; i, ~
    ; G7 W! K9 L* \* m7 M$ H# o' S1 Q
    目前就两个
    . E( U. y) c  X( b# J# \4 Z; L. X# deepseek-chat
    " n( B, k. \1 s% H# z5 P$ g9 K# deepseek-reasoner
    * L- G; b" L5 w. t  U/ v  c; h
    . q' b4 l$ C5 F9 ^( X4 p参考:8 ]9 o7 U  _5 p0 o0 d  S% |
    https://api-docs.deepseek.com/api/list-models+ O( l( n4 H* |4 [1 [* i5 J8 w

    + y  ]! y- ]! y: ~! J
      k. S/ a* b5 x7, 问题
    2 t, P# a) l( {- `/ n9 {0 }" W& L* a& F# N
    deepseek 会将前后两段合成一段。
    " v  n9 R  @# Q, l特别是那种大量的对话的段落,deepseek会给你合成一大段。
    ) \: h7 s- q* `, }0 a9 b
    / @) x" j: U7 \% o7 [2 i8, 钱说了算。
    3 E& X7 u( m" I7 s" x. a. ~. ^6 D: P, Y" q
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。2 H; {' [2 ~" J$ ~
    但是API就不会出现这种情况,毕竟我们给钱了。  b' `8 \1 ~5 b
    chatgpt也是这样的。# s/ _: n+ W% ~* `0 I
    ) T) z' d4 J5 Q& ]$ z
    & z) L" F1 ~2 w" P! y, M

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-9-29 22:56 , Processed in 0.041654 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表