设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1652|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 : p( S! \: {' }/ h. f! Z; `
- P6 u5 e) M0 p  {7 s# [
把PDF上传,然后让他抓取文字,并修改可能的错误。
) o) ]) Y# t  f然后deepseek完美的完成了任务。
- a0 v% ]. n; ^2 X( G% V5 B7 @段落清楚,列清楚,页眉页脚全部去掉。
. ^! w% _0 }/ I' b/ f. d我要疯掉了!
' W" k; h0 g2 }, V( J* w赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!: J! l5 V! r& y# a$ T1 P9 g0 Q1 k
====) ^# n# B- }+ T
中文也很完美。
( J. m4 p2 `0 y: ?) j0 Z经验值,每次十页比较稳定。
) B% [8 U5 C+ m- G现在我这里API还不能用,等恢复了,全自动了。
# }  ^! z# Y8 z+ o% {5 r1 Q====
# M6 k4 l( e" @$ `5 Q/ w第二次疯掉了!* H2 `; ~/ Q) C2 l. k5 l& r
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。8 Z! _, ~3 b0 K# d, t5 W0 f; U
====
1 C: w& N* a6 D现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。8 z8 [7 s6 \+ k  c6 k5 w
但是任务多了后,每次翻译的页面数是减少的。' O% f* t& C" M$ U  O, I
好吧,我五体投地,继续探索。
2 F4 `) Z- V' _" p; R( a====
6 S9 j4 J' p1 W/ i) c5 R9 m为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
" J9 Y! z" o* V$ S, ]====
  x) a. s0 E/ H* ^" p, E; i* I* Q好吧,有些东西是不给翻译的,哈哈。: g& n% |5 i! B$ X8 I8 B9 n
7 n( t2 g( a7 {9 i2 t" l
Sorry, that's beyond my current scope. Let’s talk about something else., t8 x, L" ], |- e8 s  ], n
====
5 W! z; B: Z% w& \0 j; E然后我的英文命令也让deepseek 帮我修改,呵呵。
: h8 }. r: C  w, N: n7 s5 W1 y====
0 V7 c" S" k, U+ f9 [7 b日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。2 L. H- k; \# ]1 W) @
====; N+ o7 @! y; S7 f) z/ m' n3 W' z0 G) b
时间段的话,北京时间的下午和晚上用比较好。/ I; Y& v1 {* K  r  j) S
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
- u4 @3 e7 t: M! K: N8 ^====6 r* O# _- }- t* w
用千问吧,非常稳定,非常强大。8 x1 m" N$ C/ Q$ f8 |
https://chat.qwenlm.ai/+ c% ~2 C3 g4 i* [. e
====
7 [) b- }- z& ~9 t! GDeepseek,API 看上去可用了,但是不给充钱。
% v! q- M  v4 C0 n0 ~6 y" w. c: l7 q- ]: W. _( [
5 |$ v8 Z8 s: {( E6 b+ k, x- T' i

( S9 R7 ]/ c8 j! I" \# N

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    半小时前
  • 签到天数: 3521 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53' K/ b% M9 M) ^- E- ~
    这功能很赞呀

    / [6 I4 V. Y; z2 _  m3 l8 M9 A5 p% [! g简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    % i& x7 ~/ V9 J/ Z. p. ?$ X有没有上传整本书试试
    & }7 ]; O% d+ H3 u; p4 E+ ]
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    半小时前
  • 签到天数: 3521 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑   [1 V/ r9 A( m' [2 W" p* ?

    5 y6 O3 K6 ]) K. ]5 s2 `9 V) k以后让deepseek 读出土的竹简$ ^6 y+ u6 _$ C5 [2 y& Y  J8 i

    ! ]: L5 O' ]8 F9 L& l还有把古文翻译成现代白话# l! E0 B' h0 a4 m6 B3 X1 B: @" q

    3 ^) R# I6 o* W. A" W$ ?以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 02:10
  • 签到天数: 2670 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    0 `' l; `; Z" n0 F# B. C% M( R
    3 n: p4 o1 o; Z& b. Z1 b; _3 @( b5 n我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23! z0 i+ Y/ n3 Z% L4 Y: E5 C, z$ D
    请教是如何实现的?: a/ V% Y$ @* C. \/ ~/ i
    1 l: I7 Z+ M" {7 P
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ( f) o0 c- [1 r, h
    / |5 L1 a& ^+ M$ s6 r我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。% E! [# e* ]8 V
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。  _  k3 X5 t2 v6 ^9 F" f
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    9 R2 l% o% b9 ^4 B, W9 P/ ^  l

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    6 u4 Z. D- P. b* V8 K( L7 _& r请教是如何实现的?4 \" C- B/ i% l9 Q, Z

    / V, S, e8 _2 [我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    , k0 \" c0 s. a" T0 Hhttps://chat.qwenlm.ai/6 D+ b" M. q, Z; [# e) d7 z
    试一下千问,估计美国人没有攻击他,所以资源敞开用。( T7 k# o$ P9 r* G) T
    很稳定,质量不错,好像最多一次处理15页。4 N% q3 _. v  L) g  O
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    昨天 01:32
  • 签到天数: 2807 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。- ]& l% p, s5 u1 b9 g8 j6 R
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    / z) D, f) y; ~, {1 J这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    $ h: l8 f/ Q% p% p& t% E! W1 u% l! k/ w  p- n& }
    https://github.com/oomol-lab/pdf-craft
    0 N2 \( a) I4 L2 q! }
    1 X2 G+ u! T3 J( b: S/ |+ R' l1. 这个工具要求装 python3.10
    5 g9 z$ W' W9 C! R. ~9 ^2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    " v, i! W5 w3 v4 ~" r3. pip install pdf-craft
    7 b7 y  d! L2 w) a4. 把下面的内容写到一个文件里,例如 a.py) j$ |4 R5 ?7 f) J* m/ u5 m
    6 O* o* [9 m; w/ ?  y
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      * e4 M0 g% Z" Q$ }+ \& d

    2. ( S3 C& {1 w4 o, ]8 F1 |: I
    3. extractor = PDFPageExtractor(
      $ n1 l1 c* ^( v4 q4 t% S
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.& q5 q0 t* S) s1 Z
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed* {0 ]( Z  v' H, \3 A" X3 E0 ?
    6. )
      $ G& w/ ^3 X5 o. J5 g, r, H
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      3 m( G. U8 A; X& O3 Q  B. @$ [
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      6 J) q. [3 O" B' b; w  o! k+ V! t/ F
    9.     md.write(block)
    复制代码

    ) V3 r: g: Y. V2 i6 V" t7 g3 k3 O7 G0 Z
    . T: o; B2 ]$ r6 m$ ^要修改的内容:
    , |4 j( n& l# M, X" j4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型; P0 z( x0 X. W0 m
    4.2 markdown_path:输出的 markdown 路径文件名& ]2 ?$ E. j: I2 A9 \9 A/ L
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ; @9 E& \2 p- n6 q
    2 b$ @" U6 l" a+ @! S7 P5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    ( Y; f$ G  V9 n6 y
    ! A; w# m, Q  F8 x  b" S9 s2 W目前为止PDF转纯文字的最佳办法。
    - l- S/ Y. L/ L8 @1 Z, K1 U- {先写个小程序,把PDF按章节切成小的PDF。
    # ^. E& Z4 t+ s; n  d4 B% G. W然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    ! o/ s# R- I% V' l1 ^3 `效果非常好。
    * X! U: Q' _7 V5 }: S8 T8 a( K4 }: g' c
    deepseek,qwen,chatgpt 三个,deepseek是最好的。+ t0 k% j# L8 [# K6 }4 P

    . G4 j; {. z# Gdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。1 K, V! q' v" s& k* H5 p
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    ) v4 I% L6 l( h% M& t我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    / x/ a+ m8 M" M8 a
    6 a( B0 H8 S; r5 q( V" f) }1 LAPI到目前为止,差强人意,不如网页版本修得干净。2 I: g3 C" X8 G+ k8 y4 C

    " W2 d  P( Y' w1 I. Y$ J, x0 Jdeepseek可以同时开四个。8 \7 c; i; I$ \+ U! P% S

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 / {# d# z6 X0 m4 O* p, V: y$ C

    2 J: ^) z: X& |% o- K9 S让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    7 v0 @4 `1 |# k( A! c让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    / y4 e2 X$ r+ ^4 V+ P! L* |" f
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33. a- z$ n1 B# Q( b
    细说一下,听上去很不错,多谢。
    9 O/ E8 v  W" R4 _" v. y
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    9 E! l- e- c+ x7 v% H6 a4 C, M8 v( F5 e! j# Y
    已经搞定.
    , y! d. [, ?; o8 n' \: W7 |( W% w3 l, N% m* _: \# C5 K
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( L. K7 K# u" ?' V) A
    0 ^. Q! y- O/ ~$ o
    1, python + pypdf 按章节拆分小的PDF* X, K+ _) C: Z0 S3 `

    ( W7 d; `' e, A. x7 x2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile$ z, o3 E' Z: H2 [2 H) X7 W
    : x) G8 J5 s  i3 f1 S5 r
    得到text file
    % ]8 O* T" G. n7 a3 Q* g. x3 i" t3 {0 ?! B6 u
    3, python 读取整个outputfile,丢给deepseek 矫正。
    4 F5 s& {' m+ ]( [9 K8 {& Q
    $ D! Q& W- r7 Q* V% K- g) v模型是 deepseek-chat% {4 T- T* B) a' M6 D2 ~* c

    ! h. L- H5 ]9 t4 |0 X  cmax_tokens 最大是 8192,别的不用改。
    & x# {: ?7 i5 I* _. a
    $ d7 u+ m6 f$ r参考:* _/ [& A' C; ^/ f% K
    https://api-docs.deepseek.com/api/create-chat-completion
    ) B3 v" B7 }% O3 ?1 w6 W0 y- n8 s* @- @6 Z
    4,费用:* i( Z6 N- w4 @
    ( l/ r. A8 E% [- B5 S+ Z" s
    实测:
    7 F; z/ O4 v0 v: M" i+ }% m
    & x1 T, ]5 g9 O3 ~! j6 j296K 字母,用了 9 美分。; x/ B' U6 G, p* b$ V3 q& S0 o; e
    & N1 S2 h; A# R$ a
    英文字母 到 token 用量大约 1/3
    . Z) d* d  {. E) M, p0 k  E
    / L' {! W7 y6 U& \$ V2 p. v, Ptokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    ) C' _# C1 B. K2 L. _
    4 W5 z" |/ W& T  d" q$ H32899 个字母花费 11782 tokens,包含输入输出的 tokens
    / C! W* T% y2 m) F9 J
    # V: B, y4 o' @$ e1 w8 v( U: q6 y% q价钱,非常非常便宜了。. l! i6 f. r6 m
    7 _9 ^9 q$ \6 L* F- t* a
    参考如下可以计算,懒得算了。' D/ q" w. R/ J' d! T
    - @2 h6 I; p9 {
    https://api-docs.deepseek.com/quick_start/pricing
    - `' O: I5 W- J  O( u* S0 i
    ; V7 w/ ]1 e, m) ?! R( W1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    - A' D& u- q- r1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55) U6 b5 L+ b7 {6 ~# x: G1 C
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    $ U1 i6 Y8 ~9 U* Y: \8 p! L. l& a9 Z/ d% f3 u
    5, Balance
    % h: ?- _' x& W- b- q# @8 l1 A# G7 i( W- P) @0 p; V2 W& ^. _
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    " J# v; s% f$ P+ F参考:
    * I* K0 o  N* Chttps://api-docs.deepseek.com/api/get-user-balance
    ( m/ q- o7 f6 ]: r  X: ]
    & _* A, C' Q; S- }6, Models
    1 \$ _# A  p+ x2 |( N+ ?2 ]& ^& u  ^, f+ e
    目前就两个
    - R: H% i0 y% ]5 q0 V& h# deepseek-chat* c$ o5 n1 T" h! A
    # deepseek-reasoner
    * Y0 L( l+ b+ i2 R" ^$ Q2 D" F  G- O
    参考:
    8 e( @4 l' _0 i' v6 Qhttps://api-docs.deepseek.com/api/list-models7 Y& p1 \! Z9 c; C% G" A" D
    - k; r3 L" _3 V& }, h

    % j7 N$ e1 s7 \. |7, 问题
      x% f+ [. h# y8 D- W
    0 Y( u0 K( i1 U! }. \( A: hdeepseek 会将前后两段合成一段。. L( @) A& ~4 W, G2 {) K4 M' ]+ i
    特别是那种大量的对话的段落,deepseek会给你合成一大段。" K# `+ ^$ ~( w# A& B

    3 m$ J5 d0 e8 f! Y4 I# y) S% j8, 钱说了算。# ^( F9 X. U, L
    . x0 G6 M5 h7 h, P8 h
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。: o; i4 t$ m# ?* T; v
    但是API就不会出现这种情况,毕竟我们给钱了。+ Z- J( F5 Z+ r5 A; a
    chatgpt也是这样的。6 d" o6 @+ I$ Z/ J, |
    3 c0 k# }* p$ k( W$ G3 f, d6 ]
    , u$ @+ `" e5 ~& M. \% ~1 q% t; G

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-25 00:48 , Processed in 0.042997 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表