设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3257|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
2 z5 ^6 v/ T$ W9 @/ U3 X  ]* A6 e( J+ L. o" L
把PDF上传,然后让他抓取文字,并修改可能的错误。
% X2 R* }4 l: f# c3 D- c然后deepseek完美的完成了任务。
1 u1 Y3 N/ x' d7 }& F段落清楚,列清楚,页眉页脚全部去掉。' ^! c4 i9 C, l0 |0 Y
我要疯掉了!
# i) A  E" d. b4 P- o赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
7 Y0 u. [3 R0 A0 B' u" O, [) e" T; n====9 \$ V( ^6 c2 k2 ^. k5 J
中文也很完美。
+ `" k& G0 u$ D% |4 n- {, _经验值,每次十页比较稳定。
% `' ]5 k  Q0 x: d5 t% U现在我这里API还不能用,等恢复了,全自动了。6 j5 o0 [" U( D
====
# q( V, U) B1 n% l+ \9 Z9 B第二次疯掉了!
0 \# [* [2 Q2 t6 a+ L; \7 j我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。. w( ]7 u: \# }/ u5 n9 C, h. o
====9 b* Y  ?8 b- ?  s/ z/ L4 j
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。1 {0 F0 R5 Q' C# `: h
但是任务多了后,每次翻译的页面数是减少的。0 n8 c2 m; n# `1 ^/ x
好吧,我五体投地,继续探索。+ p9 d, i% k/ y1 q
====& |+ }% l) \' R: L8 x& \4 j
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。% B; J2 B7 S5 ?( U: R8 w/ [: n
====$ }: O$ h  ?/ r0 e9 J1 D, T
好吧,有些东西是不给翻译的,哈哈。
3 ~0 J" r, F& A  r7 [2 D
- _: e. F: g  `+ {Sorry, that's beyond my current scope. Let’s talk about something else.% n% I6 d- u# P- v# d0 n% `3 G
====3 E, j7 v, f0 J4 b# K1 K
然后我的英文命令也让deepseek 帮我修改,呵呵。
2 f6 a( }0 ?0 Q% s* n====
+ n" ]" T% m: n" e% [3 z3 m日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。9 j& g, S/ n1 J3 O# e3 D1 K
====
& w! |% e7 H' i/ g时间段的话,北京时间的下午和晚上用比较好。6 e% i' _0 T. ^6 K
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
+ y/ o/ |7 O0 ^. ]" o9 I8 @====/ p* @/ i$ }4 `' q3 k
用千问吧,非常稳定,非常强大。2 L8 F/ |" M, N0 D' S
https://chat.qwenlm.ai/* g3 |8 Y) m8 b8 |, m  ?' j/ j8 P
====
$ [, O8 }/ `4 O9 {: tDeepseek,API 看上去可用了,但是不给充钱。
1 C* h9 Y& ]6 q( v" S& ?% _+ j% N3 M' T( E* z
3 ^4 Q+ R" x0 f* T7 d! b+ _

9 t8 \# C* `/ t9 K0 ^' U9 y4 S, [% p

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3832 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    # U9 L& y. N$ a这功能很赞呀
    8 T' i* ?! X  T
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:130 y$ h" e: G8 \4 y2 v1 M
    有没有上传整本书试试
    , N2 r! A5 E( g& e
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3832 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 . D- m: f2 |. h# r* B: P- e

    2 u$ h0 Q4 j, B( J. d- V0 f& P以后让deepseek 读出土的竹简
    6 {5 z) Q( Q% q- N3 r
    6 v. ?& j2 p0 J) }$ ]' H- X1 O. f还有把古文翻译成现代白话
    5 a2 a7 Q7 c5 l( p: B4 X8 H0 r6 z( V" k5 I7 k3 K. X
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    12 小时前
  • 签到天数: 2992 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    $ q& H0 O1 Q  c8 i7 W! }: R7 `/ w* T0 m# Y2 o
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:236 J$ @* d* Q, Q
    请教是如何实现的?$ q; _! w  d: `8 G9 K

    # p" P1 E6 D5 @7 F我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    9 M! Z2 m0 L4 x4 n% Z8 s% X! Z3 N% s# W
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
      E: x9 N$ O$ N6 {文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    3 f& m/ p/ t- m美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    9 A4 a: f! i# ~$ d8 o5 [- w$ x2 T

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    $ t/ l6 n# K! g; s' \请教是如何实现的?* K7 A$ Z) N+ @. H) l' v6 |
    : {3 a) A  n0 I! H9 R3 M+ @
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ! H: V& j" _% Y( a$ V
    https://chat.qwenlm.ai/
    - m" _5 M: F# p" G/ ?试一下千问,估计美国人没有攻击他,所以资源敞开用。
    0 }6 b9 Y# z, T. H3 K很稳定,质量不错,好像最多一次处理15页。$ N! Z% m) ~4 m' l4 e+ N# b" c5 s
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3098 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。, M* t" g* B, g1 O/ J/ p
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。% E8 I' o0 m- f/ |+ A3 \
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    5 \; h; T, h& E& G9 j* c' S' E7 T) ~7 v$ G7 k- x
    https://github.com/oomol-lab/pdf-craft
    ! {: J3 u( n% q$ Y( d
    ( |2 Z$ C: g' W/ y% l  T& n1. 这个工具要求装 python3.10
    ; W) _. L3 e$ @+ X1 R' t6 o2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0. q$ e9 m7 B% J
    3. pip install pdf-craft
      E: T* z/ p. ~% |3 a1 W% k$ A4. 把下面的内容写到一个文件里,例如 a.py( X/ Q% D$ L4 m$ D6 {' R* p

    & G' H' o$ m7 j- ~+ S
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter  o3 [* G8 Q7 S% l9 {( P( s

    2. 3 ]8 j6 ?9 N4 [% h* X2 t7 e
    3. extractor = PDFPageExtractor(, j) ~2 N  c5 c5 d* K
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.9 d; p- p  @2 n
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ' s6 y: X& r' e3 k
    6. )
      , ^& I$ q0 D4 W
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:7 V: F) R/ c! Z
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):" ^9 @! b6 g) y9 l0 `6 e! G
    9.     md.write(block)
    复制代码

    . _  [7 h, L: k* ~2 M
    , x1 i) ?+ b6 N0 g: \6 _3 X* @要修改的内容:
    % g! E' x! ~, W- b# F4 d4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    # E. f& Q  J1 N' ?; S2 |  }4.2 markdown_path:输出的 markdown 路径文件名; l$ ^) M: u+ m
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名2 m8 o. R9 x( e+ t% R6 ]

    ! E* v" N7 A8 L& X5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 / t( y5 }" ^; Z$ z9 b

    ) Z. Y/ N, s( T4 \& s目前为止PDF转纯文字的最佳办法。
    2 F% `2 e( u4 u, I% u先写个小程序,把PDF按章节切成小的PDF。( {; _' d5 x2 Z) w  o$ j. |
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    & x3 W' ^* F8 y4 l; n效果非常好。- d7 l, ~3 _0 ], Q

    0 ^9 o; R2 w; }0 ~& Wdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    ; R# Q2 T/ @' ]9 x. [# l% d( J  d! I2 M" `; D+ U4 g
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。$ ]9 J% |0 T/ h# O
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
      b2 L4 ^- l2 F& q# V我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    2 y% }% _) D3 s, z/ b% K. }8 C& N# x6 a" ^: v
    API到目前为止,差强人意,不如网页版本修得干净。( W4 v5 M: o& p! A3 c
    2 y+ g* U( W$ o  o! I% }. S
    deepseek可以同时开四个。% i1 Z; K" p( k; S

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 4 F' u) {" }8 Y% E. T0 x6 v

    $ Q/ `0 u4 W! e" q/ I- C# N" @让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:263 `$ q' f7 G6 y, r: `6 ^
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    3 n8 a2 b9 Y1 P+ O: d. k8 Z% @$ F& U细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    3 o& o( u" V! `  n细说一下,听上去很不错,多谢。

    % C3 T/ c. b1 u& H- n直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 9 n" x; n5 Y( ?

    / j: K- m- K4 x, l; M已经搞定.& P9 b6 k" t' Q' }+ j5 w1 q7 \0 F3 o# }

    4 c# C8 w; R0 s+ p3 }首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    4 O# s- t0 q" Y( Z0 W& E/ l# U  M2 C' R! \* R7 Z; B5 z
    1, python + pypdf 按章节拆分小的PDF- t  b9 T# S3 ^4 h) b1 ?5 O( o* }
    6 \: g, M6 k8 S) m* J
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile4 b. \4 T& I' i9 n

      _6 _, K2 d2 T/ \5 b$ f) |得到text file) @& y, v6 K* ~( V& Y# a

    3 P+ D2 X+ b4 V2 ]( L) ]+ N0 ~3, python 读取整个outputfile,丢给deepseek 矫正。9 ^" w* y: L. z: D5 }0 Z  L

    : }6 b- f  c$ u模型是 deepseek-chat. K% @$ `; B; D" q- m8 C

    ( l7 k3 @. z- D+ v2 d: }$ k; Wmax_tokens 最大是 8192,别的不用改。
    $ Q- M4 Y8 \0 }( L
    3 K3 {$ n9 t# X" r; C) ]% S参考:/ B: E( x3 a2 A* D2 Q
    https://api-docs.deepseek.com/api/create-chat-completion. C' g4 ?9 Z$ s5 p; A0 v1 Z

    5 n5 v- q& @( u) o9 O, b' S4,费用:# L  j5 {" |, m. O# {, x

    # Y) K, y. G9 C实测:
    * U) I1 Q4 P$ z$ m
    ' P! L1 j, S$ v& Y6 ^296K 字母,用了 9 美分。7 x/ l+ K! @- U1 M, e2 t9 J1 X

    ! m1 i9 ^: o9 o0 M8 r# C英文字母 到 token 用量大约 1/3
    9 u- g( v0 w  }/ {$ n; G+ J' c- j, g! L; b
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328993 R; l$ D' C8 Q7 a" V+ b; j
    # s2 p" ~6 ~# _0 j; @5 ~
    32899 个字母花费 11782 tokens,包含输入输出的 tokens% X( `4 [5 d" E8 z! f. H

    * e+ b! h" s0 d- O0 J6 W% i价钱,非常非常便宜了。
    * N) o( n3 G5 p7 I2 j' s" \( Q/ m. A2 u1 B3 b& t. }/ ]
    参考如下可以计算,懒得算了。
    # A9 X( L, @, j4 P- N9 K3 a1 Q; f
    ; F; ?% G' d/ phttps://api-docs.deepseek.com/quick_start/pricing
    - R3 Y/ q9 G, `+ o- U: y; s
    , r9 B, I8 Z& [* A; D" |* p1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    $ m% W' I' O: ?1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    0 K4 s8 S% o% P+ \" W1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ! @# E" F2 x7 y  C$ T# \( k& }8 t0 ^: ~" I& B1 @+ h
    5, Balance
    % H! H" K9 o9 D1 m
    ) ~9 y' p4 S; f0 v可以在程序里调用,知道每次运行结束后,balance还剩多少。
    : D2 t- C9 u& x3 v! ?6 `* Y6 o参考:
    , P6 ?  w) W3 J6 C  uhttps://api-docs.deepseek.com/api/get-user-balance' {, T$ @0 P6 a) H7 _/ u
    " ~3 w+ b  p+ b% T
    6, Models, p6 d: k. C/ a* K; @0 Q9 }

    ' E  {! H: r! b- Q目前就两个
    1 q+ O, n5 M& ?* K' i) \: Q# deepseek-chat
    ; A; N. |  l; ]$ P+ s8 h, L# deepseek-reasoner
    $ q) U4 X1 i* W/ |+ |- i' z  O" V# [, Y- m- ~& O, j
    参考:
    5 N! e8 ^9 t2 Z3 B0 Uhttps://api-docs.deepseek.com/api/list-models- b8 p$ E, L7 w- W' b. t! z
      A/ R. \0 }. @/ I
    ) Z" [. s6 \; G7 I4 W% C4 ~
    7, 问题
    3 F( U/ ]3 e  q8 t4 F$ R2 N: |6 c, C5 w. ]5 h
    deepseek 会将前后两段合成一段。3 y+ j+ s8 f7 w0 g. S( m) ?
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    3 b; p5 z. f( d+ n" U& I
    # [$ x/ Q6 T# A7 O% \7 o8, 钱说了算。' \* @9 J. B8 M9 C
    $ A% r% E/ ~8 X# ^
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。" |8 P" i% G% T3 P' `; t
    但是API就不会出现这种情况,毕竟我们给钱了。% |  [7 V2 D; t' T
    chatgpt也是这样的。
    3 o2 n* U- q' j  N$ G' Y
    ! M. N9 N7 ^* h: u
    , u1 L/ S6 Z( d0 U) [

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-7-1 15:52 , Processed in 0.074320 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表