设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2729|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
" s# f: N* p7 P( e  f( n3 x" A
. N' N& m! L3 G4 h0 u. b把PDF上传,然后让他抓取文字,并修改可能的错误。
( v: T7 |$ o8 P$ `% [然后deepseek完美的完成了任务。) Q$ A' T+ i, K( e1 _
段落清楚,列清楚,页眉页脚全部去掉。( W: j' k* s$ z  \
我要疯掉了!6 v+ f8 ?" t2 p6 v4 }# _4 I% S
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!1 z! \( f- _# ?2 r( G
====
2 `$ G9 F& w" F中文也很完美。
2 p; ]  r8 k  e0 _( d7 ~经验值,每次十页比较稳定。
3 z4 F7 F) J) x9 m" E现在我这里API还不能用,等恢复了,全自动了。2 a7 h7 _  j( L
====
* ?' u! o7 O0 O5 D4 k  Q第二次疯掉了!* D) U  X; x( c7 D: ^7 i0 D
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。9 l& C2 i8 G  @' r1 S* t) L
====
( r' O8 o6 D3 w# _现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
+ Y3 q9 W3 `; h% t: w6 b: q+ Q5 d, z但是任务多了后,每次翻译的页面数是减少的。! V8 r8 q' e2 {( ~
好吧,我五体投地,继续探索。' [5 f. f) ~  `. A5 ^+ a6 j( d
====, l5 M# u- ]- |
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
  ]. I$ Q; Z, y====
* a: B, M; }6 j/ m好吧,有些东西是不给翻译的,哈哈。5 U& f% b0 }3 {: ~
0 |4 Q6 F, q4 g* B7 c1 ~. g& a
Sorry, that's beyond my current scope. Let’s talk about something else.
5 d) J2 j, X& f+ S====
5 l( E7 }( T4 r% R然后我的英文命令也让deepseek 帮我修改,呵呵。
; Z. p' ]5 x$ {4 p7 ^====
- y$ D; z$ z+ Z2 w, R日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。  \1 e# t. x7 D- w
====, Q) k! W1 V6 y/ L- J- g. O  J
时间段的话,北京时间的下午和晚上用比较好。
; P& y# e5 j) H# a- d2 i, f; X后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。2 Q  m$ G% X, M5 N5 a2 X
====
1 [, ?1 S6 Q! ^+ A+ N9 w. o* J6 C! i用千问吧,非常稳定,非常强大。8 O+ ?/ z2 l4 Z0 f+ P" p/ c4 w, E
https://chat.qwenlm.ai/
( n! ?( g8 i) g2 [5 f* q====
# i$ e; b, e5 |Deepseek,API 看上去可用了,但是不给充钱。
- i% T9 e& y. v' Y1 T; y1 x1 r0 ]' J% y! U$ ~) B! Z" A9 j
: d$ \( `6 f! g9 Z( x5 ^
4 u9 I  x  Z. n

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3718 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53" K7 @7 ^3 _5 V0 }# \: {
    这功能很赞呀
      p6 h9 a& r, Z4 ^
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:137 k9 i/ b3 j( e! f
    有没有上传整本书试试
    ' u; p- `1 N+ @
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3718 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 * F; P$ ~  V: H4 u* a3 l

    ' M8 E  D" T4 s% E7 v% Z( V以后让deepseek 读出土的竹简
    ( D4 }2 n* k% Y8 q
    $ F. \: b7 W, i还有把古文翻译成现代白话
      u0 Q" ~* L3 A! L5 Z9 R$ ~2 S# R6 _3 O
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    18 小时前
  • 签到天数: 2879 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    : i) u' Y2 S" f  [$ e+ Y" A# e
    0 Z4 A! q5 c3 a) b/ H我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    2 U9 O' e/ J1 y5 ?5 ~# |请教是如何实现的?7 K8 z. _7 l/ h7 h

    8 a7 k' }/ |* g8 J我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ( Q( i3 H0 n) b

    , F+ ]! t; q# D$ F( y9 ]4 G我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。% s9 }' D0 F6 ^' t+ J
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    3 h: j7 N( k6 H' |6 Y, S9 d美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    ( P* g* y7 e! @2 q2 _( o5 x: v, K

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23- F, I  m* f+ h6 w: i2 p
    请教是如何实现的?
    . j! f9 R# R9 M/ ?1 u
    8 L0 ^. R  ~3 V我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    6 R% X% o3 k! C. K. ~2 fhttps://chat.qwenlm.ai/2 |' ~8 }/ p& W4 [% o, s
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ) v$ g9 u0 z+ G2 x很稳定,质量不错,好像最多一次处理15页。# Q( _+ _# Z, Z3 B/ i( \8 B" L
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 2991 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。; S( z4 l$ x+ g
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    ' |+ o: P5 o8 U" ]( N& }这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。4 N  ^1 ^8 J7 M5 C4 T4 U( D

    ! A  i- d5 X" dhttps://github.com/oomol-lab/pdf-craft( y# c0 n* k& ]1 T2 ]8 |  [* T9 u
    8 N* X# c: M5 R: t" {. w/ }: Q
    1. 这个工具要求装 python3.10
      O" _( r1 ~3 v  @7 ~9 G2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0, `6 |2 A4 _# c) m3 ^% g5 A
    3. pip install pdf-craft
    # x, ^  X8 l8 e' J1 t: q4. 把下面的内容写到一个文件里,例如 a.py% S& [" T; y& m8 K

    . z  \; g) h! C* q( l
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter3 x3 L. t3 v- t
    2. 5 q0 @# A0 M" ^
    3. extractor = PDFPageExtractor(- |4 I0 f" g" g5 n# x/ p
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      3 T) x  h8 I7 r4 E
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed) i0 Y/ t+ U' s" j3 d
    6. )# z; A. h3 e4 V3 K5 j
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      3 n- M6 w( f" c
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      ) A/ `0 U: j+ [5 B2 T/ S2 n5 _* Y: q
    9.     md.write(block)
    复制代码
    ( L# ^7 o: D, ~! D
    & Z; n; W; X7 {* \
    要修改的内容:" b) `0 y/ T+ ^: r- G
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型) L5 P9 _! Q3 z. C
    4.2 markdown_path:输出的 markdown 路径文件名/ _" {3 X5 g1 p! r+ _; g/ @/ @; y
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名) ~$ y# M. k) {8 i% R. L  t) s; o

    9 P" m0 D) F% @3 S) n$ M) N+ q! ?, K5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    / f$ B: |* Z/ r7 P# V9 j1 z. c
    3 \# m3 y; A4 i" j4 f% a% V+ y目前为止PDF转纯文字的最佳办法。; h4 |  x) P: k3 p
    先写个小程序,把PDF按章节切成小的PDF。/ D- m# g6 ?7 {2 [' Y2 ?
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    4 K; a4 {% P/ n% t4 E+ [- @2 h效果非常好。
    5 \! v# `8 @- o1 U" P* x5 z+ C- H% _* u: t; |+ t
    deepseek,qwen,chatgpt 三个,deepseek是最好的。+ p; ~9 A9 D- ]: ]9 c- K( k5 N
    8 v# L8 Q4 B& r* i/ }5 Q; C3 g
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。' i4 C& [8 @2 X4 i7 T
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。' c# u6 P* N9 ]
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    # p1 O; R  [* g" W; t, @5 b& C7 t9 D  F7 g" Q
    API到目前为止,差强人意,不如网页版本修得干净。6 G0 j  }1 A, C8 F9 B' f
    3 ]4 g, |  C+ F; Z& ^. c
    deepseek可以同时开四个。' g4 u. u/ K% r

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    # d; N" U9 ~# ~# J0 R; Z* K% F, ^5 O: x) p' G9 L8 P, X
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    % ?: \+ P6 r  ]让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    9 I" ?' P7 O" z1 Y
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33# R) ?2 ?7 ^# n$ W/ S+ k
    细说一下,听上去很不错,多谢。

    1 O. w% m8 }3 ^  }. D直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ; p4 }' ]! m6 o6 F) d6 {/ E/ \  F/ P! A- U9 Q  q9 O7 U# V8 G7 s" R
    已经搞定.
    + U- K  W, x* C+ E1 F+ U; S) L) q! w' B. {# }0 h. A" P; ~
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    0 _5 R; i4 [. t! |3 G8 T" N* \0 I3 Z5 z: G; f
    1, python + pypdf 按章节拆分小的PDF
    " r1 c, V9 I: Y' _) A; ^/ v/ @* K% Q- C* K. j  u2 _- K
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile& w! a9 f& R! w7 l
    6 f1 k& s4 J" Z2 j4 a
    得到text file& c6 G  [) y2 G5 D" l

    + Z, a; X% \% |9 M3, python 读取整个outputfile,丢给deepseek 矫正。7 N/ d' \* G1 f4 {
    - e* O' ?. o3 V1 [% M  X; r" Q( _  w
    模型是 deepseek-chat3 k3 I9 a. N% y! e) s$ @

    7 h* A  D, u" F: J6 Qmax_tokens 最大是 8192,别的不用改。
    $ A9 _" L; @7 e; b: ^
    9 \6 ?2 T8 L6 }0 a2 \1 ?. z' r参考:9 v$ A7 R5 g$ R9 d
    https://api-docs.deepseek.com/api/create-chat-completion
    9 v( c+ Q: C# m
    : E6 t4 K; H0 ?: z) n& f' p4,费用:
    9 L% a0 O5 {$ z1 v( s) u0 t5 x; E8 P; f+ p+ p
    实测:
    : r. q3 c) Y& t" C0 F. |5 I
    + P/ o; e  Z2 y$ h% L5 n( S5 r296K 字母,用了 9 美分。$ [* ?0 Q) \- L0 T, H1 p8 E
    " c# n; P9 S3 H/ @  L9 m7 l
    英文字母 到 token 用量大约 1/3
    ; O% s- P! V8 |, t( p
    . Q& ?$ a* r! U& R$ a+ ntokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899) k2 F( X2 o- M4 P! G' R+ j. k% O

    2 z( c5 v( G: G: }0 |- x6 J32899 个字母花费 11782 tokens,包含输入输出的 tokens
    0 h, T' y4 D$ ?, v6 b8 @1 y5 }0 f; d  V
    价钱,非常非常便宜了。
    9 d/ a8 ^1 r3 a
    # r' q/ O, n& B参考如下可以计算,懒得算了。
    $ F  f( \" f6 s! o0 s, `, K
    7 d# M( h" l4 n9 E5 D6 j- Qhttps://api-docs.deepseek.com/quick_start/pricing' A4 O2 }/ x" J" q# m
    6 W% A% `( f) X6 f6 @7 E' f# _& J
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    9 g6 C, C4 n2 @7 q7 c. S1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    - m8 W5 p7 w5 n/ U; Y1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    8 {9 @$ h& G( a' H" v, h* o% S' \
    5, Balance
    " a+ f6 O5 h- P! a- ^
    * @- ?" l2 X6 X+ n3 j1 D可以在程序里调用,知道每次运行结束后,balance还剩多少。4 m* W7 f. p8 P( W
    参考:
    ) X$ e5 Z0 t" }4 k4 ?  H# g. Whttps://api-docs.deepseek.com/api/get-user-balance
    9 b' s, C/ Y7 F% O+ Z9 C8 `2 Q; j, U- ?' M: H2 H: _8 |
    6, Models
    $ n+ m, l; b/ O5 r
    : u) F" ?7 }% R* C8 z- i4 S目前就两个
    % M) X. V7 J0 j8 h# deepseek-chat
    " S6 }, R. V$ j7 L: X# v9 ^# deepseek-reasoner
    . b) I/ x; m* Y! X: u* u* h3 B/ `, r1 j: W) [; \
    参考:
    8 ~. J  h, G( u; Z) V  }7 v% e3 Xhttps://api-docs.deepseek.com/api/list-models: O! [' J: ?' Z: ~9 B1 i

    ( Q( w2 P) Z8 i) A. M$ E
    & w' ^, I" O1 U' j1 T% n8 Q7 v# E7, 问题
    : s$ _% p6 a( f9 {# E( @+ [% B" A4 K6 q2 K: }# _: Y
    deepseek 会将前后两段合成一段。
    ( C5 |8 }% g2 ^- [/ ]# o特别是那种大量的对话的段落,deepseek会给你合成一大段。
    1 P- d) [5 M" J! O9 h' R
    5 Z9 a' y3 {2 v7 U' k! h8 J8, 钱说了算。
    : `. t+ U% w, X1 d' T" m# P  c) Z% U9 \- |% |, D& B% }1 A  G. }8 @5 B- H
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。2 v' @( a) Q* @8 O& r6 ^
    但是API就不会出现这种情况,毕竟我们给钱了。/ N9 t9 e. t" f, h6 m& Y
    chatgpt也是这样的。# i9 T8 q$ V1 N9 U) z; D1 Y
    ( ?1 i- h% d1 T; J

    ; b& ^' W, U& D' \2 j

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-3-9 22:46 , Processed in 0.065112 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表