设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1673|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
2 J7 x  j# b8 D8 z2 {4 m
1 V: f2 m+ T; L+ K' Z7 |+ Y+ `把PDF上传,然后让他抓取文字,并修改可能的错误。
% J2 Y0 Z: k4 s# _: c' M$ u" \, z然后deepseek完美的完成了任务。
4 x$ f- a' @5 Q" _. X段落清楚,列清楚,页眉页脚全部去掉。
/ V  [! P9 J  S) P0 c. g( V我要疯掉了!
" K9 g; F  R1 I( {1 l) t赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!& X7 z+ \" b, r0 y- x
====" R4 d) I" O# A7 D
中文也很完美。
5 }7 X# r3 N" r/ O7 E+ O% }经验值,每次十页比较稳定。
2 L9 M  D" e7 ?  a1 J现在我这里API还不能用,等恢复了,全自动了。
! R6 A7 K  A  Y) Z& P====
: g; E- S) ^$ M第二次疯掉了!
2 @& ]. Z2 M0 B2 O我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。2 Z1 `8 ~7 n$ _; s
====7 K0 X4 a5 Z& i5 y+ t
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
6 `& R: J2 W' f) D但是任务多了后,每次翻译的页面数是减少的。
4 `( b' w0 D  x* ?. `, ^好吧,我五体投地,继续探索。
/ a5 B" h3 v+ M' O" y* C! F1 I====
# b5 o8 i) F! b- o$ z: ^" Y' _) G+ u为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
; ^- _+ l5 g" L' @( J====+ H9 }, |* N; t) F' p
好吧,有些东西是不给翻译的,哈哈。
" R: H- ~! E0 \# h6 [  X+ L* w
- q$ o5 Y( @% n, f. c9 B& e4 hSorry, that's beyond my current scope. Let’s talk about something else.
8 q1 H- J4 @$ Y! j. p====3 q; a' \8 Q# x! x3 e; }* x
然后我的英文命令也让deepseek 帮我修改,呵呵。% A$ ~& @6 r/ V* c1 j# i: @( p
====
) t8 S4 a8 g5 `2 z日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。; h. ?- ]/ V- z4 ]6 E7 S4 \
====6 [% I( C2 x: Y* k/ r/ m) u. T* Q
时间段的话,北京时间的下午和晚上用比较好。
% n  ~) r- O/ F3 M) T  C8 a4 p; {/ I后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。7 G1 [) T* H9 ^7 E( x
====
. h4 H" ?; Y1 j- N9 h; r用千问吧,非常稳定,非常强大。; y! w" a2 B( v, U8 e
https://chat.qwenlm.ai/% u' m5 m$ c+ j; X+ q+ g
====+ K' }* [( }' A' w6 E. B4 d
Deepseek,API 看上去可用了,但是不给充钱。
' N% S& `9 L$ x; P
# G& _* h+ g$ j3 m
) r  u3 n( c! v# R" c6 G* I
8 |# l5 l$ t2 j

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3524 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53- _/ x# }. K$ }, }, B; O! x
    这功能很赞呀
    5 U' \. X8 k% X7 s4 G& O* P* S
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:138 @  I7 B6 H7 V" [' E
    有没有上传整本书试试

    6 H3 V( j7 }5 ?目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3524 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 8 q) q/ m6 p1 P( `9 ?: t5 I: ?
    . J* E. n" e8 _
    以后让deepseek 读出土的竹简
    8 e# V4 x9 T" \) {0 v6 s/ Z4 ^( _9 ^' i: _# m! k
    还有把古文翻译成现代白话
    3 b# f& F. T; U) n3 \2 R: N4 x5 s- A/ }' y9 Y8 y1 H# S9 }* x
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2 小时前
  • 签到天数: 2674 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    8 V3 R: K& |7 m3 Y# [8 [% Y# p+ ]* d2 `0 U; x% p' [9 ]+ |
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    - B. v* y) i) r% L, J8 Q+ r2 \请教是如何实现的?9 M  o' ]4 Z1 z8 j/ C1 g9 n' k
    3 k' W$ ^( W2 l8 T
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    5 Y& N+ R5 H9 f
    4 f6 j, k+ p6 G, V我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。6 _8 O* E& L* T+ H, j2 ]- F1 {; L
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。  I& ~/ |6 L  u( ]0 z0 v. a1 E
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    & j( C4 Q# I0 r" k: l) T  E

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    9 D7 x: M/ T4 e请教是如何实现的?. W, B" ^* ?4 e4 e; o/ t) {

    1 s. U7 k! A$ D1 y7 H. p我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    , i: w  j: w5 x( v$ ahttps://chat.qwenlm.ai/
    + X* _" N2 j/ Q, Q5 D6 Y; S# y试一下千问,估计美国人没有攻击他,所以资源敞开用。
      _% Z" {. ~5 _% v( W, H很稳定,质量不错,好像最多一次处理15页。
    . ~/ t0 z3 F+ Y# A我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 2810 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。5 w, x+ n8 S: c3 c  I
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。# x6 R% X2 f. D7 o0 F' }
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    5 ?2 ]* ~' M7 ?
    0 G( O- D) O1 U* R) W8 ^: ]https://github.com/oomol-lab/pdf-craft
    , B% P; C3 K9 @6 P8 {0 ?* Z8 u' Z% `; y1 U! Z, k3 v
    1. 这个工具要求装 python3.10
    ) X; F& {! j5 z& L2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    $ N( m9 I+ O  O6 F. F3. pip install pdf-craft
    - y' M" t* x3 @4. 把下面的内容写到一个文件里,例如 a.py) d7 d7 R  r9 r! E$ R. ~3 J
    8 X! r: M1 ?" z2 T) ?
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      , w0 \3 ~) O% S! ?0 W8 K% j& R/ ^

    2. ( X7 r  n7 p8 p  z6 x
    3. extractor = PDFPageExtractor(+ y" A: q9 a: }3 M# O! m% \
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.% R! b: x; K4 ~* n& P* [. K1 ^
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      8 E# n1 v& @; }' V8 w5 S+ f
    6. )7 ^; n8 W  z- s! \3 b; j2 F. D5 N, W1 o
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:% p4 J7 e% G9 G0 z- ]
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):+ f3 j- j0 W/ v! [7 b
    9.     md.write(block)
    复制代码

    / O# r' K/ e( [" G9 {. B
    & Y6 T* D. _8 u; V: r要修改的内容:/ u9 L: p5 C( {* G4 f' O& G
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型, b/ g" i5 X0 X/ c7 R; o# i
    4.2 markdown_path:输出的 markdown 路径文件名
    ( s7 B6 s! }% B7 Y8 e2 @, Z4.3 /path/to/pdf/file: 输入的源PDF路径文件名$ v8 t: F" U( @  X* p" ^
    / ^" h# }" I3 a1 K
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    + |; w3 @' @! t. P
    0 Z0 e4 y0 @- Q) J目前为止PDF转纯文字的最佳办法。8 a' H# {% l+ J! Z; N  \
    先写个小程序,把PDF按章节切成小的PDF。3 Y- N- e& `$ f6 q- G
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。+ Y  H) i$ P" a3 b! X
    效果非常好。7 ^* s1 @0 B" ^+ A! ^& }! l

    - q# g, c, R  Q6 N) U. M1 M7 }deepseek,qwen,chatgpt 三个,deepseek是最好的。7 i- k& b$ B  A0 P! g* S: s

    ' }) O* E  q4 L5 x! m2 M2 Ydeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。- y, L: y" @& m. N, p* f
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。- H4 E- q; }+ K6 d" P) F2 X
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。/ L+ F0 O+ a4 }) g3 d
    1 @6 R" g6 E3 F- |2 d# z8 `$ z
    API到目前为止,差强人意,不如网页版本修得干净。
    1 x# I+ f' n5 Q3 ~+ L; ?6 I. f7 r
    deepseek可以同时开四个。( V  @% }6 I5 X* f' H1 b+ ]

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 . U# o" P- H2 J+ i$ ^* F

    , e8 O9 G! h- y9 ~% T让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26) F* f" L" P# `& G$ O: [, K9 o) X
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

      Q( S# t2 z) ?' H$ k2 F8 X( i细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    7 r6 W+ ]' `) Q0 m8 A- u细说一下,听上去很不错,多谢。

    ! e- U$ p% O5 |直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    + P# ]6 C1 p+ i7 F
    0 W8 Y7 S4 B, M% m9 {4 M/ @' f已经搞定.
    # I/ ]& o6 {( R6 h* V2 O
    3 \, @& i8 K( x首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( d$ D( [2 k7 t' w

    / G7 b! N9 `$ T8 ?; S1, python + pypdf 按章节拆分小的PDF
    4 Y, W5 G- |: h5 F( ]' ~" M! H: Q6 k" G: Z8 q2 S  M
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile' _  {( p; g* w" [
    ! v; q, @4 s' a/ r+ g+ M: ]4 y% R9 ]
    得到text file
    # o6 c' L; M2 |, K2 s' t0 @. v+ o+ v; O" q& w2 y$ T; w3 p2 z/ W& Q
    3, python 读取整个outputfile,丢给deepseek 矫正。
    4 f# `* \) H. M& h; @- K
    ; E  ^* C  X2 o0 E* b4 m0 o) `模型是 deepseek-chat0 @1 D- C. }2 B0 \: W( g

    / p4 e9 m% ~- f/ f" f& wmax_tokens 最大是 8192,别的不用改。
    + S- R8 x, b7 n; c" Y: T/ R. F( ~) p+ [/ Z- V
    参考:
      [+ W+ \; e6 x! U6 phttps://api-docs.deepseek.com/api/create-chat-completion/ s5 L3 V: ?- I: g6 i3 C6 K% p

    - A, I; E& w) `7 x# g+ N: d4,费用:$ ]# O8 y+ ], y
    8 l; p! e1 W  g# d6 ~# N
    实测:
    , `8 b! J$ e: ]
    . ~6 H! X; K2 r% P296K 字母,用了 9 美分。) {3 C" T: K( K+ P& q# j

    7 b% k% b9 @  c- `5 P: c. ]' i英文字母 到 token 用量大约 1/3
    - J4 h5 t6 b% h1 {) T) {7 j9 _5 O9 R. E; o' B
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    4 G. D; X0 U$ j, b& d* b" N
    $ e2 n  o3 `) h! @. ~32899 个字母花费 11782 tokens,包含输入输出的 tokens
    0 s! V$ C: C2 g3 t4 {7 o9 a! o( E
    : C! P! V. @- \) r& q( T1 T3 b价钱,非常非常便宜了。
    . W4 o2 P* k% h- G
    3 b2 b. K/ G4 k& ?# F! x9 f参考如下可以计算,懒得算了。3 I$ ^. h0 |; `1 k* }) t5 |

    2 q, @) P; n6 X9 @https://api-docs.deepseek.com/quick_start/pricing" `5 O7 E2 a7 g8 t* y

    . b1 n! V6 ^- j# X2 C1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14( P! L8 V. }* Z. k! i
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    9 I% P) b. h5 A; [% k5 i3 d2 i1 H1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ; F/ e5 Y8 G$ N% f! ?% U8 f- m
    ) a6 W& g2 q6 }5, Balance
    % @  K& o) Y7 _* T/ l. s4 N- R5 Y3 R2 I( W2 R+ K! ]7 w
    可以在程序里调用,知道每次运行结束后,balance还剩多少。+ Z" s0 g! U6 M* |% g
    参考:' U: L; W6 M0 i2 `7 e1 q6 G
    https://api-docs.deepseek.com/api/get-user-balance
    * c6 s0 D) F/ s
    4 R! c8 D- G: P5 l0 G9 m- Y6, Models
    . y' n  i1 `' [- F$ s9 t% E# K( T. G; S
    目前就两个
    - O- S1 C- s2 s  V: r# deepseek-chat; u. w+ {) g$ \' d
    # deepseek-reasoner
    " [* j# l9 H: l- \
    9 ?, \. D+ M1 o参考:
    + B1 Q3 \" ]6 t0 bhttps://api-docs.deepseek.com/api/list-models
    + m# n6 E' q( F: W6 X. P3 g$ o2 E, [/ j4 x9 n
    " a$ ~6 V7 E4 u' D
    7, 问题- P8 B- f+ g' I4 N

    - }5 ~6 ~& n# G! {  B9 ndeepseek 会将前后两段合成一段。* n9 J) m" B7 C4 U
    特别是那种大量的对话的段落,deepseek会给你合成一大段。7 O7 P: x* b- b" T( Z% Z6 E1 i3 ~. @2 ?

    ; x5 H, i/ ?7 J8 n+ x8, 钱说了算。
    1 H0 X8 i" k: l! h8 T) i: Z& {- l8 ?
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    . I* r) K; ^4 ]* `但是API就不会出现这种情况,毕竟我们给钱了。7 j% t, h& @) U
    chatgpt也是这样的。
    4 o: J' s; D4 _
    ( l3 `1 z6 M, B
      V7 a& y2 t0 P/ Z) a* v& s

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-28 03:13 , Processed in 0.044811 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表