设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2785|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
: r6 A8 k6 H9 I; ]* M( v* j$ m- ~, `& ?6 ]
把PDF上传,然后让他抓取文字,并修改可能的错误。3 Y6 Q2 c, F0 j4 W% b9 D
然后deepseek完美的完成了任务。
- t: v. t8 U; n% Z: t段落清楚,列清楚,页眉页脚全部去掉。# @7 V. K2 d4 s, L& \# N0 `
我要疯掉了!
9 S" y# I1 d4 G赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!" S3 f# Z/ v) F) V& J
====
" P! c! q7 W) N0 Y; D, |) j; y中文也很完美。5 G( k. G& l$ p+ u+ x' b3 i3 c# X
经验值,每次十页比较稳定。7 ?$ s9 W9 r' L8 T8 @
现在我这里API还不能用,等恢复了,全自动了。
4 k4 m8 V. [0 \! _/ |' y- v====5 L9 b- b+ w+ K
第二次疯掉了!, I  K, D: O6 t4 G& T- |9 z9 Q
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。3 H$ q8 |0 q- |, h
====+ a, S4 Q' t* O* z1 l. M
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
7 t% v" U9 ?2 s6 w' M: p但是任务多了后,每次翻译的页面数是减少的。" {: d5 e0 Z2 h8 I3 L  n2 B) v
好吧,我五体投地,继续探索。  N" M9 x/ L: Y  w5 q9 C0 y* h
====
4 k+ o1 u9 o3 V为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
6 L- d5 ~* i# \- M% t6 Y====
/ P0 t" b, w! H; E5 m- {. J9 V好吧,有些东西是不给翻译的,哈哈。" Q( c8 U* a' b7 l8 [% C% R* v& h4 R& I
+ {  ~7 H8 R! g* J: [& l- s
Sorry, that's beyond my current scope. Let’s talk about something else.
, ^2 ?% p8 X" v; D( A/ K: [====
) R* V" H& M7 s* y. X然后我的英文命令也让deepseek 帮我修改,呵呵。9 Y1 J( ?' Q% x
====, o! s1 V0 J( j8 ]$ w
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。6 p! n3 b: g+ b# r
====
, c% F- w) ?4 R: g+ ?, q时间段的话,北京时间的下午和晚上用比较好。
4 c- C6 ?& I6 u8 D后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
: m+ y' B* p8 s% K$ l- b====: ^1 W! r3 V' _8 G: S% T+ M
用千问吧,非常稳定,非常强大。( f  ^& A. L* S" w3 C  F9 c) d! j1 y
https://chat.qwenlm.ai/
8 [$ {2 T, Q: q, J9 S0 t====; n% [; [: {* Q
Deepseek,API 看上去可用了,但是不给充钱。  W, L! E2 j. J) X
' Q1 G# G; D' Z- V( [

6 X3 N9 K! n5 \6 u4 x3 V% ~1 A. k& Q6 i8 p

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 3724 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53: O; `. V2 w% U
    这功能很赞呀

    ' i1 y+ ^9 W9 j3 ^1 S+ C简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    ) o" m: p5 t5 c0 I* W2 F: J/ R有没有上传整本书试试

    % M4 Y! A2 u+ @% h目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 3724 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    , ~: h  l3 d4 H; u' X* l
    ! `+ y& ~+ Y# v# g: w以后让deepseek 读出土的竹简
    . k- m1 W; }" ~& p; s& w. I5 |' ?: \" \: K. ^' y* l
    还有把古文翻译成现代白话
    8 Y8 y' C; ?/ o! o: n7 V; o8 y
    . M* ]+ Z3 n# a4 ]& m) E) o, q以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    16 小时前
  • 签到天数: 2885 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    ! ~( G- [  U& p( a2 \1 N) f5 G4 F! S) W
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23- g1 g) Z2 Y& f6 [: x
    请教是如何实现的?( L2 [/ o; Z, W) l! ~

    # a" i, T( m% A9 l5 ~! X  U我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    7 u5 M/ }) z7 G" A) v
    ( x% f0 B* y7 v% q, Q, S1 P
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    % J$ F( P( }* Q! F文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    0 n  D3 [- e* i/ o1 [美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。; l+ P, v+ i2 {: g' D3 Y

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    : \: d9 F! [1 e' w  e9 W请教是如何实现的?
    ' o! e: c6 y3 x5 M" d5 ^1 W3 N
    / @* O: x9 }5 _" G3 C5 n  R* L我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    9 @. G6 k9 g; z' @
    https://chat.qwenlm.ai/
    * M( ]! i* J% D3 c5 a  h9 |# d, |试一下千问,估计美国人没有攻击他,所以资源敞开用。
    " a5 z: g, l2 p5 q3 u很稳定,质量不错,好像最多一次处理15页。
    1 e* y& O8 g0 A0 t! M我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 2997 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ! D+ K2 e9 P$ t7 I) ^% B. F处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    8 W+ s3 f9 Q9 O3 q/ J这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    # @' G; e. A1 r8 A
    7 E! I, |: Y7 V5 X: ~https://github.com/oomol-lab/pdf-craft* M4 _4 S2 X0 C$ Q5 t( t! z2 S3 D
    & N  j' d$ a, g" y( c- z2 ^4 r/ X
    1. 这个工具要求装 python3.10
    * L( |7 C) ]8 C2 `6 B0 L2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0% I$ `$ d/ f) N9 e* G6 O
    3. pip install pdf-craft3 G0 ?# @5 J2 }
    4. 把下面的内容写到一个文件里,例如 a.py4 q: J1 R8 V9 z/ e
    & z" k8 ?4 x0 n+ ~  c8 y' K
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      3 s! ^" K+ X. g! k) D. `8 u
    2. 3 `8 k+ ]/ }5 {; r( V  s8 @: Q
    3. extractor = PDFPageExtractor(; P9 \& c3 R  r$ d
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      0 o4 S, J1 Z* n; O- S3 `
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed2 ]! r  a' b. v4 o6 l. N+ ], g
    6. )0 `, H& N2 H) O8 ?* ?+ K/ [
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:1 K: j7 n+ a, y2 E! i' ^/ m5 P& O
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):" o. u. v: z2 T2 ?
    9.     md.write(block)
    复制代码

    . n7 H& l; u+ n& S$ m& d7 m, K. ?2 f+ Y7 V! s% R% a
    要修改的内容:" e! ~' L* ]- k  Q1 ?8 `) g
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    - F" p1 T1 H( A. c- M9 J6 R4.2 markdown_path:输出的 markdown 路径文件名
    0 [* t1 S9 B, }" o6 ?" C( u4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    % D" ]$ E6 P' F1 K4 J1 B) D/ _% J/ I4 f2 u) O6 E8 i5 S
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    6 B1 g+ N6 O: Y$ G+ R4 Y) j8 ^6 S9 w3 S
    目前为止PDF转纯文字的最佳办法。- d( ~# [# a  h/ j' U$ X7 G
    先写个小程序,把PDF按章节切成小的PDF。
      P& }2 t! b5 ~. o8 r然后,把PDF一个个传到deepseek,让她抓取,除错,输出。9 ]8 p, D  q" _% A% U, F3 n
    效果非常好。$ e% n0 E, s6 ]; x! S1 e" g0 W

    " [9 t* H1 z% j$ T; [2 ]) U: D* Cdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    3 [4 ~( Z. X! j' e0 @3 k
    ) [/ k8 H  |( p8 F! zdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。0 O6 o8 a1 r. z' I# d4 S
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    4 n4 H" k; K9 y9 q9 x2 E, H我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    , Z- I: o- ?% Q/ v5 G4 ~& z0 v
      {; P2 o7 A% U4 T2 e: ?, UAPI到目前为止,差强人意,不如网页版本修得干净。0 R& `( K1 N3 R% f% `' ]
    ; S6 |5 F: m2 P
    deepseek可以同时开四个。
    . A  ^- y5 j) z; l1 Y4 n

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 * c5 g6 E  s7 [* D7 G+ M; K
    ' L% M- @" n9 n" _& T2 Q/ M' j4 |
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
      p6 i/ }. m5 v. r" F- S$ K& z; U+ }让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    " P; _! @3 ~3 b- H; ]5 y细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33/ _( n4 ?, W1 o' o% ~- F
    细说一下,听上去很不错,多谢。

    7 h. j  N' P' j$ s9 e直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 # L. {4 J- f) @7 w* W' @6 M

    ) E8 B) ~! S% W4 ]$ J6 d* E; a已经搞定.
    ) v; k% b7 s/ i" `! G8 k8 l: G
    , K1 H$ G: x3 O" V首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    5 ?- |5 s: |* q. W( E0 J
    5 h) M% b/ j. L* C3 c0 p! Q2 Y1, python + pypdf 按章节拆分小的PDF  g' X4 B# ~: O+ {4 `

    - M: j8 I  p1 t! w1 g2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile9 ^6 o$ m& Q6 i, w+ `) l

    6 w5 m! m( y* L" |9 @得到text file
    8 W) G6 b7 V' m: V% N' L9 l
    ! |: Q: ]- m! ]3, python 读取整个outputfile,丢给deepseek 矫正。; ?0 l' w$ i4 ~; p4 f+ B, O

    5 w) Q4 n. M" P6 o2 o模型是 deepseek-chat9 v2 G: a; b0 u/ r) m6 w. h  e

    0 m% h3 y4 ~8 @' G% Umax_tokens 最大是 8192,别的不用改。
    2 A' v$ }& w' h" `+ u' G# Z6 E9 p6 M- a% r7 s- ^
    参考:
    : ~1 m) E' @4 z* X5 o8 Vhttps://api-docs.deepseek.com/api/create-chat-completion
    : r/ W: u% ]' G% S2 e( B
    # ?/ O7 U5 a  y. q' A" r  Z4,费用:
    " ~& |# O$ c" L1 A! C6 E
    . q0 T3 P: a# q+ _1 x3 T实测:5 S2 C$ a2 W7 N) V( i# ?, K

    ' N( L/ o* x3 Z7 g1 A296K 字母,用了 9 美分。
    # p% S6 @9 X. I, `# U! }7 v  E* n' a0 b: P( Q; U6 T
    英文字母 到 token 用量大约 1/3
    & g2 b3 k, N* b: x3 q: {$ i# Z' T! v$ Z  r0 C
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    ' L$ \( m; L  y9 M" X& P( F% h" |
    32899 个字母花费 11782 tokens,包含输入输出的 tokens- e6 Z- O) A$ C5 E( o$ a, {5 ]' v

    ! p: F5 F) k, B价钱,非常非常便宜了。+ I7 D- r0 O; P% p. ~7 S
    ; v. F7 }& s" T# o, Y" _9 X$ I
    参考如下可以计算,懒得算了。
    . B5 \7 R, ?8 t8 Q" K4 I6 Q& J- C9 H0 d& z6 {2 E$ w' V1 q
    https://api-docs.deepseek.com/quick_start/pricing
    8 t: }( G, b0 ~  S
    9 `$ U  h8 D' D1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.141 z  y4 J, @# s9 @& |* c% p  X3 t
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    / o- E1 `( \9 I, I6 Z9 [1M TOKENS OUTPUT(5)                                              $1.10                $2.19( `4 I5 |4 Z3 m- \" v

    : T3 x% G' N$ [/ B5 d- a0 S4 N3 K5, Balance
    3 `  A* i& T$ R5 r8 e4 ?
    5 t! ]8 S: n8 o$ I$ ~( J9 g5 h可以在程序里调用,知道每次运行结束后,balance还剩多少。
    5 t8 N% o. Z- `- t参考:
    0 Y2 y& D- V7 P& [: D% h# ~( Zhttps://api-docs.deepseek.com/api/get-user-balance* R& g# p5 i. g& e# L

    4 I' Y  ?! L* W* ~. ?6, Models8 N& Q) s: m$ S# z. Q2 O2 G/ V5 _  y7 P

    ! D7 F; h" S4 M* e: \! T) ^# m目前就两个
    ! {  K0 Z* G& ^# deepseek-chat
    : S7 q5 w4 M& Q9 z0 s5 b# deepseek-reasoner4 ?' V6 P4 t9 k+ l4 l& p( q

    : k" a, B  ^5 e; M) y: ^6 Q参考:
    : c/ F# Y6 Z* W2 s$ dhttps://api-docs.deepseek.com/api/list-models7 |1 O; k* o$ P: X
    9 P7 r# C0 {* `7 a
    0 x7 B8 n& S6 V1 M
    7, 问题
    4 t, z- w+ L2 J) `
    % F& b1 r6 S7 o" W% T2 d5 jdeepseek 会将前后两段合成一段。' v9 K! O5 C+ b9 c1 n0 m
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    0 X+ j' h& ~, _
    + S! ]4 |2 w% D3 {0 Y& I! N& u# z8 c2 Z8, 钱说了算。
    1 |6 n. @' g0 I$ T  G3 C$ K- M6 {; Q$ j8 {! M9 \: @
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。4 G8 U( u" n3 F
    但是API就不会出现这种情况,毕竟我们给钱了。$ V8 |! _5 G0 J6 ~6 o
    chatgpt也是这样的。* ?* k# Z2 ~5 c2 `, q$ B

    8 _3 s3 ^& H9 q2 i% L( }2 ]) P3 |: `; n, o

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-3-15 18:08 , Processed in 0.068407 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表