设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2306|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
9 q1 B, {0 l5 X9 n" Z; u9 h/ F/ o
1 w3 U5 e5 s# A/ K把PDF上传,然后让他抓取文字,并修改可能的错误。) z% x( R8 m- ?  P% Z( B0 Y# i3 U
然后deepseek完美的完成了任务。
, l, m4 e, Q7 e段落清楚,列清楚,页眉页脚全部去掉。+ W$ j0 K  b% {1 F% x) ]+ C, ^% g
我要疯掉了!! ]0 i+ b% P9 }5 r" Z1 r  J
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
. f& ]5 P: ^/ p1 [====$ F; G: u- M4 R+ p+ P+ N7 L' R
中文也很完美。: _9 I) @1 |; j, y/ b& ~
经验值,每次十页比较稳定。
  B2 O$ J, c0 _( y# r& q现在我这里API还不能用,等恢复了,全自动了。! u; P3 P# Y/ Z! N; d0 }; G
====
: C. T$ ~" E' V第二次疯掉了!
; n* y* q) F! L  A3 R+ ~0 O我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
+ ?3 p2 k1 E6 F  ~) \4 o; e====
/ B6 A7 D/ o. Q现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。. g4 L  s: D+ K6 P7 k6 z8 H( u
但是任务多了后,每次翻译的页面数是减少的。% M" z0 H: q/ U* n
好吧,我五体投地,继续探索。
" v( V& h3 j* |8 G5 {3 p9 P====
' G+ S6 [8 Q9 K5 Y为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
3 a6 @3 Y" A8 Y5 w& [====5 L( j8 e+ y; G
好吧,有些东西是不给翻译的,哈哈。& ]. [# R: ]. l9 E) t3 J2 y
! R) i" B: b- z9 X' Y9 `7 o! s; O# U2 `
Sorry, that's beyond my current scope. Let’s talk about something else.
; D; P* _4 x+ u; y% Z7 }5 A====1 }1 }3 M* p( c3 z4 F, q6 b
然后我的英文命令也让deepseek 帮我修改,呵呵。. a/ \. k) E8 B& _3 B+ b; }& l
====* j) e9 U4 P8 I! B8 N/ Y
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。% L/ U% i- C9 y. `6 S/ `& Z
====
/ y5 v& c/ x5 t& o5 N时间段的话,北京时间的下午和晚上用比较好。
- h; _6 Q! ?4 L( _5 ~* Y后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
5 `- {0 L6 T5 ^# P& l7 J====  L  g$ d# V' ^& X( F8 `6 ^  u6 X
用千问吧,非常稳定,非常强大。! g4 Z- p0 b% c* [
https://chat.qwenlm.ai/( A: d2 T4 f. O; H6 S1 y  n
====+ f& p' m; n1 i3 W
Deepseek,API 看上去可用了,但是不给充钱。
/ x+ H+ m+ a- e
0 U/ p  F" o' G8 b: l9 @/ L
# _5 Y0 P; _6 K  B6 q! B6 s0 `) S$ J$ i+ J

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3616 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53) x9 I2 h1 @. u* ]0 ~
    这功能很赞呀
    7 a' r  F+ P) C& i7 d* h  z+ j
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:136 Z+ B% k$ ~( Z2 F! [- a* o
    有没有上传整本书试试

    8 V( v3 P9 q; p4 w, A1 P目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3616 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 4 [4 y+ J& b. k' Z2 d7 n

    , O. g$ z1 U6 V) p* ^以后让deepseek 读出土的竹简
    * v) d5 G. c" ]8 b
    # g' m( x  i4 i" R1 W还有把古文翻译成现代白话! a" J7 f% y1 r6 x6 M
    % l, e/ C! u+ b3 r
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    13 小时前
  • 签到天数: 2779 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?9 a, h; N" j$ Q
    " M- z$ u. g2 w
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    5 I3 U$ ~4 L& ]0 r+ @, l请教是如何实现的?
    4 h' s3 R- q# W5 v  o( C7 v4 V+ G. O$ e; P$ v5 n. r
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    # N2 ^8 Y. R2 E6 m1 c* d4 S
    ! ^& c9 {: i# m6 X; s' D+ K我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    # r. M4 g9 y5 ]9 q# ~文字之类的没问题。估计deepseek现在暂时只保证主要功能。9 L  ?) @5 W3 U: R; @3 h/ Z, |6 {. o
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。' W+ n: Q* ?9 e% }; Z1 K2 |

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:231 s3 K4 E4 u* r' W% o' U4 I' E
    请教是如何实现的?
    * E' h4 p! A( ]! Z' R- `4 a! q
    8 F' S6 L- d, s( \我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    : f  ?/ g) T& T2 I( M
    https://chat.qwenlm.ai/% T. G! t: [. {2 m' ?! v0 }
    试一下千问,估计美国人没有攻击他,所以资源敞开用。- c1 y3 K- k6 w
    很稳定,质量不错,好像最多一次处理15页。
    3 c9 r  O9 a  z: u我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 2895 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。4 {/ m) _# k3 Y. E/ y
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。; n: a' T3 e" N& n% G+ L8 n" j
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    . |+ H4 D2 Y+ B" Z( _4 n: w! W, L
    % i0 a$ E/ i8 H" I& U+ S) X3 zhttps://github.com/oomol-lab/pdf-craft7 r1 s; [! o2 R& f

    + S2 J. ]1 b# _1. 这个工具要求装 python3.10' V( G# K5 V8 s1 D$ c# X3 D
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.08 H3 |+ W& [) t5 R3 ?
    3. pip install pdf-craft
    ) ^- {5 u. h6 v3 W1 L4. 把下面的内容写到一个文件里,例如 a.py
    8 e( [1 o* J8 o: W* r4 [# K6 J
    ! k, B) d8 G) _7 C4 y( i
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      7 k6 A, b- n9 ?6 J" E) ^1 [

    2. 1 T5 j3 \9 w9 `+ F% j2 R. J
    3. extractor = PDFPageExtractor(
      + e# j  f/ H. z2 ^; R" ^6 k; T
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      * W; f% B6 W! }1 g
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed/ ?# K4 r# E, w
    6. )/ w1 C' D6 H' ?1 ]  t' O3 T3 S
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:, J" @4 j& z2 R1 E/ k, u( V  V1 r6 R
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):" k5 T" p. Q* P0 t
    9.     md.write(block)
    复制代码
    + V5 Y, ?) w" ~  H) t6 k
    3 }! B. }6 b: w) o% e. G
    要修改的内容:0 H* J$ h, y% c: h0 a0 o
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型; U# o' |3 Z2 f/ B" B  ?
    4.2 markdown_path:输出的 markdown 路径文件名
    4 Y/ F" E( k% Y2 i4.3 /path/to/pdf/file: 输入的源PDF路径文件名1 W1 ~  a/ e; k4 r# _0 j- o

    3 e# @2 c) O- }6 C1 x. _5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    ' I) O0 ^4 q1 g* q1 t3 k
    5 g4 t7 h) q, q8 O7 K( s; p目前为止PDF转纯文字的最佳办法。' s, t9 g+ _4 ~' p0 I# h) \
    先写个小程序,把PDF按章节切成小的PDF。
    1 l# v: @: \- S$ k1 }# d然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    , w# y% @* ^& x# {效果非常好。( O0 m4 r' H6 f* Y1 c0 s2 ^- S; s7 B
    9 V& I& J0 R- y& b& i  H8 I: ~
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    1 O/ E# ~: g6 `7 }) v- T& {, }7 r3 ?* \: I8 n9 n  v; a
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    ) {# i; V8 H1 p而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    ' G: O6 p: Y+ I* W4 x) v我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ; a1 r+ s- C- o7 F+ ~; ^% L8 R1 L; ^& Z6 O
    API到目前为止,差强人意,不如网页版本修得干净。: Z0 u! ]8 M. O

    / f& e1 e( ^5 h7 h6 `5 tdeepseek可以同时开四个。
    % M% B  h+ N. P  G# N

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    ( I' B; f! j% x! D
      }" W1 v$ e5 `+ v4 U  o让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:264 d* Q% x* T' p" o1 E/ f
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    % t! z+ o' ~/ Y6 ?
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33/ `5 B$ ?- m; U
    细说一下,听上去很不错,多谢。

    7 `+ s7 |7 m3 u7 @8 ?( [5 z直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 : @; K) U" Y& B
      u4 a8 R6 T7 _- j  [
    已经搞定.1 j# [+ v% C5 _' \9 W: L
    4 F, l; l9 b3 E! i: K- _
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。1 \2 L$ z* c" L5 v

    ( n/ r3 J) N* ~1 t& x1, python + pypdf 按章节拆分小的PDF1 C4 `; F+ o! j
    1 p8 A) R' a# m8 g
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    7 j, }, N7 A( T% x1 j3 O$ L2 Q9 J3 E- L: P1 y  L  ?9 t
    得到text file
    ) Z8 Y" F5 p- T( H8 e* I* I- x5 h" _2 @2 R3 F
    3, python 读取整个outputfile,丢给deepseek 矫正。
    ; T1 E2 \. ~5 q! t0 y3 W
    " _9 M0 k4 L4 p, _" M模型是 deepseek-chat/ e% f  ?( j; q2 r" }& G& B
    6 @: P) g* c) d! ~1 P/ H6 J
    max_tokens 最大是 8192,别的不用改。/ S! {  R, }6 U
    , Z  w$ Q3 e' C# V
    参考:
    " r& X/ W) _, j9 O" Mhttps://api-docs.deepseek.com/api/create-chat-completion
    6 z' K0 f& C+ u# V9 C: ?
    7 ~4 s: A4 a5 Q8 C; k4,费用:, g. ^% A& r: H

    ! u+ v6 y! c3 Q+ [% x) w- P6 t实测:
    . p% _3 I6 j/ A% r7 d
    / L1 I4 z$ J" @296K 字母,用了 9 美分。% c# d( \7 W: r' ?/ j7 Z( g

    5 b. _8 v: F/ c) v. O6 M4 }" }英文字母 到 token 用量大约 1/3' G  h) u5 p% ^5 u3 a7 B: p  v4 M: \
      b  |0 e( R# g! d( i' p4 x1 m+ z
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    % O. q! |7 c; f. S% D) E  k/ a* ~! Y% M/ x1 A7 q
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    % Z+ }# k% U# s" E* F& V: L
    : h- W3 y$ D- u! D价钱,非常非常便宜了。
    & z# v6 E2 M% M9 f% j$ x1 E
    - t6 \( I; e4 [4 Z' u参考如下可以计算,懒得算了。+ \- F1 H, H1 H% |0 l+ a$ O! ]( T3 }! \; f

    * P5 X2 s  S: r4 thttps://api-docs.deepseek.com/quick_start/pricing
    - v5 K- F( V9 @) {& i
    . R# z# }; c/ b8 I; U; P1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.149 I$ \; j% J- \5 b3 h0 t
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    , c& J/ n1 E) W; w1M TOKENS OUTPUT(5)                                              $1.10                $2.19% j+ U7 J  Y; K6 B

    , n- d1 ?+ {+ y1 ?) p5, Balance
    7 b: M5 [! W' e) a
    6 g6 Q3 e1 _5 Y2 A; C( w) ]可以在程序里调用,知道每次运行结束后,balance还剩多少。) e- q  [% f5 M1 _  g9 f2 s5 T! f0 b
    参考:$ @$ P+ a  b. n7 G' S) ?& v
    https://api-docs.deepseek.com/api/get-user-balance2 @% L/ N- ~0 Y$ N
    # @; |2 p$ `6 }! q4 }) f
    6, Models$ l; p! X7 n+ I' j+ w' B" Y

    , d. B- V+ o; F6 b) J目前就两个0 r, n6 V, q. \1 @; q; H& w
    # deepseek-chat+ R7 F# S- H8 [
    # deepseek-reasoner
    ' g! r. e0 A1 f5 B! ~* r8 Q, A2 I9 I" Q& S2 D5 F2 {
    参考:
    4 m9 ?  V  |% J: k  P5 O+ M6 _9 u# r: ^https://api-docs.deepseek.com/api/list-models0 U+ f5 s% s) C6 g* i

    5 }" i. r* @3 c) Y! G6 l. u% k, |4 U* x% K
    7, 问题
    1 i2 A/ I  R% E7 C# i) [4 p
    # n" n4 O5 Y0 s* Tdeepseek 会将前后两段合成一段。0 s4 \$ }7 k( R  ~1 J1 W# j1 `
    特别是那种大量的对话的段落,deepseek会给你合成一大段。/ F. ?' ~* J$ T& X) y4 }) ^" q( B+ K. F

    : g! v* M% s) q3 N1 _& ]8, 钱说了算。; l4 k3 u; b/ {- @5 W$ _

    + J# E/ o6 O# @7 z# ydeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。' t  ^  u/ C# v. G1 D/ a  p& G
    但是API就不会出现这种情况,毕竟我们给钱了。* m) z/ {+ D  {" ~
    chatgpt也是这样的。, |6 u; |$ N1 X2 T1 h* i

    4 g9 A3 S7 m9 [9 K) T. Y
    " \2 I. B# M! O6 _3 P

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-26 19:05 , Processed in 0.047203 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表