设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3107|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 " t2 `2 X1 v. c3 i, _; Y) Q+ j" H
5 w! @3 b$ q; R( u- \# y
把PDF上传,然后让他抓取文字,并修改可能的错误。. s6 S& G1 u/ c) @/ R6 S
然后deepseek完美的完成了任务。
8 v: R8 D& H" F9 `2 L段落清楚,列清楚,页眉页脚全部去掉。8 _+ l' ?" g# X  h1 W. U  m
我要疯掉了!; z" J- b6 H$ b
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!' t$ i# H8 `% E0 U- R
====% ~: [4 \. F% }# A4 Y0 z
中文也很完美。
3 W  o% }4 j5 J% J5 h8 V" j/ x经验值,每次十页比较稳定。5 |" Y! n0 ~7 M! z4 D
现在我这里API还不能用,等恢复了,全自动了。
. X: E) ?9 I' H; d- r4 w====6 E& H: ]+ X7 I) u) E: M
第二次疯掉了!( Y% F/ ]* ~2 @, }- \  H9 M2 a& x$ O
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
: K0 X; h! e( s/ O# q; ~' M====
8 {; d8 s; e) h现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。: f& W8 i* l8 m% S
但是任务多了后,每次翻译的页面数是减少的。
" G, p3 ~- P9 j8 w( \0 l7 F2 O好吧,我五体投地,继续探索。
1 n  O- T1 `9 ?8 ?7 U====9 i4 ~. C+ a2 g! U
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
( o" F: M0 `( f! w6 x: t: Q====6 S/ l8 N* f- U2 h0 j3 L, p1 _
好吧,有些东西是不给翻译的,哈哈。
) j. U! d( F/ W6 b
0 Z8 ~9 u- a* n$ l. P- u3 D! iSorry, that's beyond my current scope. Let’s talk about something else.$ v. ^; w% b. p. _& d
====: ^7 I  n, r% b2 r/ ?5 r# g6 q
然后我的英文命令也让deepseek 帮我修改,呵呵。
2 G  x8 m' M# l====# A) t0 [# n4 c" q  J
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。, D4 t3 }4 s6 D2 _: C6 P
====7 C  g+ t6 E" m& U
时间段的话,北京时间的下午和晚上用比较好。0 J, e# W* A- k$ _
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。$ Z$ X7 [1 h1 x7 T
====
/ [* v7 O8 r  p用千问吧,非常稳定,非常强大。
& R; [3 I9 n0 R# X5 q5 z$ Ehttps://chat.qwenlm.ai/
# U1 V. C  j/ o3 S====
0 R% ^* q- c; d  _7 n3 [- KDeepseek,API 看上去可用了,但是不给充钱。
1 P9 d, @* y- m9 W3 J, e( `9 L; X$ L
5 d7 h$ S$ u, a, C6 L, f8 D" _& A' B4 J' ]

. m6 B7 m& n) ]/ N

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 3792 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53' w( A/ c9 C. n! p* L( }
    这功能很赞呀
    6 ~9 O' {, O2 j
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    * ?6 p7 Z- }* r5 T有没有上传整本书试试

    * p+ k$ [0 w4 G; d+ M9 S目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 3792 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    2 M' i4 L: C' d; l0 Y% f5 q* H& v+ o+ Y3 Q* ~
    以后让deepseek 读出土的竹简
    * p2 i, ]; R' J4 `9 D( {+ C* D' u, k5 Q' G0 f# b
    还有把古文翻译成现代白话: W0 y; m# P* g: k3 [  b& l( d
    0 m5 y, R" G+ F/ `! e! D# z! C
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    9 小时前
  • 签到天数: 2952 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    # S9 c" x! P/ G+ b+ W
    / Z( z6 l8 p* U% e$ F7 Z7 I我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23# E# b2 L" g0 V7 W0 {2 O6 |& O
    请教是如何实现的?" `) d7 [1 N" i
    0 E4 t2 a: {2 F* g! I$ J! v9 {! o: v
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    * d9 f, S9 v) x  l, O. s0 E$ q4 B( @
    - u& w: o7 l+ N
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    # M# x7 ?' d1 i6 {文字之类的没问题。估计deepseek现在暂时只保证主要功能。# `4 J/ X+ h1 _# H, t/ V. P
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    2 Z3 I0 D5 W  N' ^

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:232 M! s$ p  }/ v7 a' V6 Y
    请教是如何实现的?
    4 N( @2 q# e1 @' J& {
    ! v" |, g) A7 {; k; K我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    + F6 v' P# A/ D6 K& A% L9 l
    https://chat.qwenlm.ai/
    ) ?5 ^- j. k6 h( G试一下千问,估计美国人没有攻击他,所以资源敞开用。
    3 `  ?; ~) i, {; y很稳定,质量不错,好像最多一次处理15页。; m4 s3 B! I8 |
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    前天 00:00
  • 签到天数: 3062 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。4 Z+ S; {5 v; N4 J
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    & M4 X1 J& _/ l$ A0 O  ?* f, Q这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    " ^/ \! G% u" [) M1 [8 @+ C$ C4 v! p1 A1 U& V
    https://github.com/oomol-lab/pdf-craft
    5 H/ x, C# P' s0 W/ e
      }! t4 |: M1 ]4 p  I+ d5 F1. 这个工具要求装 python3.10. A, h3 m  p4 J- j- E9 h  f0 ~
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0, e! ~- t1 F5 C5 b; d& x6 u8 ~
    3. pip install pdf-craft
    4 [/ ^6 M# Z7 M/ ?; d7 t4. 把下面的内容写到一个文件里,例如 a.py
      W/ j$ f: r% y& L* M: `' ~( t- z! Q' m! T
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter; @/ Y, L+ \; U0 J! v9 n- |
    2. 9 D& n/ j, Y- W* _: c
    3. extractor = PDFPageExtractor(. X# A6 s0 ]: ^3 c
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.4 h7 R9 X  q9 e5 A5 r9 s
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed9 g  T, j& d' C
    6. )
        y" f; b/ s0 l6 Y8 J  ^! Q$ _
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      ! n, _: t3 H& ?; @) y: g
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      $ R6 T* q" |% b2 M- C
    9.     md.write(block)
    复制代码

    & L1 h$ b+ n5 e8 ]
    6 a4 p3 e. O8 L( A+ w要修改的内容:4 C/ u& _" U; |! b: r- |
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型& x! h  b$ M; R
    4.2 markdown_path:输出的 markdown 路径文件名$ c$ W$ s$ s( u. g& P3 C1 o9 n$ }
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名; }, [/ z8 f' \( ^' ?1 q- K

    7 S! k) Q1 i& @; _5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    : Q2 j. K$ @1 y% r3 O) ]. T8 T2 Y7 K; ~+ I( R- Z  t
    目前为止PDF转纯文字的最佳办法。/ h: J% a9 r; `0 F8 [' ]
    先写个小程序,把PDF按章节切成小的PDF。- l' n1 p$ p. Y
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。  V& f# @( G$ G( j) b
    效果非常好。
      H" o* q( s  N
    / `) `5 R6 I- H2 K6 R( l2 Q+ G3 ]deepseek,qwen,chatgpt 三个,deepseek是最好的。
    3 d: z; P' N+ `  [  i/ ~# K2 }- |0 M9 k4 M$ ~1 L* a' _0 P
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    - E: {+ v$ H5 l+ X7 c' a而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    ; V1 j8 q! \; |5 A6 U6 G我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ) K5 w' K! K/ H3 x8 o# A7 j* Q
    9 R7 j+ s9 N  `2 y$ Q  Y' A3 L1 ~API到目前为止,差强人意,不如网页版本修得干净。/ O" ]8 U8 I4 j. ?/ h! t2 V
    + x$ o# B% c+ z
    deepseek可以同时开四个。8 J  B1 {  I7 f2 L  X

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    : v- Q% K9 ]' Z% ^
    / \! F4 h- T4 S) r) ?* V让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26) a1 k. {# }3 n2 |, ~, ~( @
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    5 Q) `; }" ?: |2 I  x* c( b; d' D+ [# ^细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33, x! A. N0 R5 ^
    细说一下,听上去很不错,多谢。
    4 b# z7 b3 r9 u' h5 [0 h
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    - f8 Y8 v5 N2 K: V% V; `  r- H% d1 F3 p7 K' Y8 F
    已经搞定.
    + v9 M" I7 b& d8 I2 x1 _( G$ ]- C# |$ \- R4 O9 `
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    , ?! H" c- F7 T! \9 \- f3 q( a8 _& K, N6 V* C7 J8 |
    1, python + pypdf 按章节拆分小的PDF* `* n9 a0 S0 L+ r. b) @0 V" i

    : @3 _: N! W/ Y  f2 O3 A2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; V& f. p6 G. D8 I

    3 }1 [: C9 A  Y- [得到text file# l! K- Z3 i1 w1 _

    0 D1 k( d$ `$ D. t* S( k/ p3, python 读取整个outputfile,丢给deepseek 矫正。
    6 B; D4 Z8 S& i
    8 j) u( E/ w9 J0 ^2 @模型是 deepseek-chat2 m) g( @6 u9 v, X8 i

    " Q; y3 G5 N& Y" cmax_tokens 最大是 8192,别的不用改。
    7 h; h1 l. I. u6 E4 F0 k8 @  u/ C. I
    参考:
    1 a. A0 I3 n9 ]https://api-docs.deepseek.com/api/create-chat-completion, n7 {4 h# y! I  u

    , D6 ^6 G, w. q5 g( H' j/ Q4,费用:) Y4 X8 k' j, P* O0 P" e) f
    " S0 X- p9 ~, t7 V+ K
    实测:
    & B* Q+ [% G( A
    , D$ t" k1 U% P296K 字母,用了 9 美分。: y" H! }7 n5 \6 d% d
    " ?! U' x% N6 A: U; F' `5 ]8 r' \
    英文字母 到 token 用量大约 1/3
    6 a, P( z0 u4 P! O- ^) D; `" y) c8 H: Z: Q5 b' B# y" E
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    9 v7 |/ o% Z1 y$ y( g+ }9 o7 d; F: R" q6 W
    32899 个字母花费 11782 tokens,包含输入输出的 tokens2 }7 \% U9 u1 x" n% J

    , u5 y$ t3 e, @5 x/ _价钱,非常非常便宜了。
    8 ^8 V+ m0 T( d: W
    : w8 v+ }) D% I* M1 G5 |' G" M% E参考如下可以计算,懒得算了。+ t) H' B2 ?1 U' x$ V( Y9 s
    % y1 M! U9 u0 j! t$ w& o1 [5 C
    https://api-docs.deepseek.com/quick_start/pricing
    8 I- y" J" {) @; Q9 i; V) U
    ' M8 J% P- l: f9 T- u& t/ f9 M; l( f; A+ T1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.148 E% p1 N- |  _' E" j  ~; A
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55- u: z% K/ \5 }; P
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ' D& N* g  M& _9 W. t- J$ ], v4 |8 t
    5, Balance
    2 R3 y* B2 ~7 x. R6 t% Z6 X2 t$ R. U1 F. Z/ J
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    . ~- \% ~, m9 S参考:
    % K6 ~$ @, k7 t# e2 }https://api-docs.deepseek.com/api/get-user-balance; {* A0 ]0 h8 k( }1 E" D

    5 X3 Y$ E7 j& u' u' i/ _" R) L6, Models
    / N* Y# h; E/ K' i2 I5 n9 E4 ^% X2 A2 a2 G3 `
    目前就两个. E" o  D, ]! L
    # deepseek-chat, C& H5 ^) h. U1 @% i
    # deepseek-reasoner
    ! D  j) @8 f! I( K2 r3 Y6 t6 z* w5 i! h, m' U& y- @
    参考:
    : L( w$ `# o1 z7 U, ghttps://api-docs.deepseek.com/api/list-models
    , E8 K& F8 S0 p7 g9 C  j/ }
    + A) D  o0 j5 `! l
    ; R: e( j: k# M: Y( d) _1 m- L7, 问题  J* s$ k  K, D) A. T5 ^

    " B" r  M8 T# J6 Adeepseek 会将前后两段合成一段。
    + ]3 ]0 N' B) D特别是那种大量的对话的段落,deepseek会给你合成一大段。* J8 p( P9 g1 ]0 n1 A# O

    . j! y/ h* R3 F; b  g  W8, 钱说了算。1 w) S# O, F# ~" _
    $ i2 z# [9 e4 P7 v+ S6 {# E
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。0 \  H, b  U% j- H, |
    但是API就不会出现这种情况,毕竟我们给钱了。
    # A+ C5 j3 k% b$ u3 Kchatgpt也是这样的。
    # O# q, s! q- J" ?0 V' a) c) }5 m1 V. ?. X" z6 J

    , q( k$ I) I8 U7 W3 O

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-22 11:14 , Processed in 0.067102 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表