设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1644|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 " d+ O+ M  p7 {6 Q3 T" H
; K) k3 n% w9 [% e, {$ b
把PDF上传,然后让他抓取文字,并修改可能的错误。
; z5 I$ @' i2 {( \, l% k* ^然后deepseek完美的完成了任务。, F" [1 g1 Z/ B. V8 ^! m
段落清楚,列清楚,页眉页脚全部去掉。& n& ^- X- Q1 @& h! R0 F) s
我要疯掉了!! \( `) U8 A/ K# b, s% P
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
& [+ b# r3 y0 ?7 z* x) H; F! E3 _! c====1 _: r: h& y: j4 i! k; p. ]- p
中文也很完美。
, ^* V/ V+ R8 J' m9 A经验值,每次十页比较稳定。
3 n# ^, l3 F9 t9 h现在我这里API还不能用,等恢复了,全自动了。
+ S/ g  Q1 p9 |) B====$ L8 I+ C- i4 _
第二次疯掉了!$ U: r3 B+ \9 P* E0 b& t# C4 b
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。8 l; ~2 r/ S4 P6 \- M$ Y
====2 l1 F9 E; J3 S5 O* {9 ]' Q. S
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
/ Z7 e  c; ?! J但是任务多了后,每次翻译的页面数是减少的。5 S) T# r# g0 h8 B
好吧,我五体投地,继续探索。( ^0 }6 n# K5 O6 X4 ^  x
====
% ?7 {3 C& ?2 F9 w为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
4 O" y* k0 a; [% |9 z4 t====
) l/ z4 s3 [1 }9 c% T3 r好吧,有些东西是不给翻译的,哈哈。. g+ {9 m* ]8 M7 J% u

+ C# a* B* C# E% T2 kSorry, that's beyond my current scope. Let’s talk about something else.$ M2 c  n5 i$ ]/ o; A
====4 G- U. F/ S+ v6 o: a3 g6 K
然后我的英文命令也让deepseek 帮我修改,呵呵。
. `! F3 K, Y! T9 [- K6 y====2 X2 u2 }: C" Y$ p0 s2 X0 u
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
& |: p) F0 S  F3 l9 p8 _! J+ E0 I====
+ ^: q0 a9 H- Q4 K9 r' c时间段的话,北京时间的下午和晚上用比较好。
! y) r' D8 I0 n* R) Y后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
0 G+ r5 G1 Z  A1 a9 ~====
) `% S, `5 q; D) g" _. B用千问吧,非常稳定,非常强大。' @5 m- U' s! \
https://chat.qwenlm.ai/# h: C' _9 f- W5 m$ T2 G' T: _
====2 g5 K4 d; w+ W1 M/ [: U" S  w
Deepseek,API 看上去可用了,但是不给充钱。
+ e7 b+ \! e9 H  o6 V& Z; f8 s
7 U) f. J) n6 n7 Y7 q; `% ~, [
: q( ~7 f) V2 g( E; d* c1 F; ]* g! o; I+ u# q5 ^

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 3520 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:533 j2 ?7 X7 e0 c; P. i5 Q1 M  |
    这功能很赞呀

    * A8 P6 N2 b+ Q& d/ _% X: N9 E* Q. |简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:135 S% r- t, ^+ N2 T
    有没有上传整本书试试
    * X5 e+ L6 Q- B* P/ I
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 3520 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    $ f+ {. O1 s/ l0 p" F$ i" W5 ~1 X3 O! z: f0 {
    以后让deepseek 读出土的竹简
    8 u9 g0 N7 C( E: C+ i
    2 L# w  \2 S# w2 H( a* Z' ?: n还有把古文翻译成现代白话
    & x! @/ F2 y7 T# y$ {. B8 m5 a5 n, U" ?  u5 I) v% i1 C
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    半小时前
  • 签到天数: 2670 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?6 e# b8 n. D2 K# l4 B8 X% i7 [

    7 g) y) j/ V5 |$ e/ L, r3 M+ a% o我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23: k  M+ W; D1 x
    请教是如何实现的?
    1 g0 T8 E' J2 j
    % o" j6 v9 n, k4 w我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    0 j* Q& g$ A+ ~- }7 F( q
    ( {) b0 A$ u& n6 ?9 E+ a
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    + E/ M: z& F# d6 U) U0 }/ `; ?& ^文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    3 i+ ~& Y9 N/ B; @' O* m9 l美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。: [/ i/ \" Y$ s& H1 E6 E

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:233 U- o  }1 B, _) [* o, f% q
    请教是如何实现的?
    0 `; x5 S/ d7 C) J! Z  k
    ( B/ e# {6 v/ g( Z2 L我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    8 x& c1 l5 s' h4 `  }
    https://chat.qwenlm.ai/" I# K4 g' F0 S8 e' s
    试一下千问,估计美国人没有攻击他,所以资源敞开用。6 H* ?7 U. `! Z  D- M4 T
    很稳定,质量不错,好像最多一次处理15页。2 Q; ]& C+ \! L- Q0 m$ N
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 2807 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    # u2 Z2 F2 c" o# [处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    : {  X" A- C: {6 A# j这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。. f( b" K. V9 j- \% \0 Y) W$ F

    % q$ V8 W  ^0 p" r" U- jhttps://github.com/oomol-lab/pdf-craft
    3 m3 W. [! s4 t- c% e* e2 c7 t+ ]( Z6 T3 M( U7 X& b
    1. 这个工具要求装 python3.10
    # _+ X) a1 h7 n6 p: }" Y2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    4 F  L7 f: e! `3. pip install pdf-craft( J: k; o4 U/ g
    4. 把下面的内容写到一个文件里,例如 a.py
    + |9 Q1 w, ^" S/ }" G( h2 ?
    - n" S& {! @; E2 M7 o& L6 r
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter' b1 p+ g9 o! c7 d- R7 Z. u
    2. , f/ z6 }  w4 d" d, @2 W
    3. extractor = PDFPageExtractor(
      ! g* P% K. w0 R1 X' y# k
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ( |: B) U$ c! i) N6 u8 L: o* U& a
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      4 z. }, M' C6 {4 z6 L' L' L  h, G% g2 M
    6. )
      ) x/ C; O0 g) A- x) E
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      " _" L6 P5 a/ d+ \: m; {
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      8 x# c( n6 l! ~4 F8 ^% d
    9.     md.write(block)
    复制代码
    ( I6 |. a. d+ ?' v/ n% C9 r
    & t* O% d/ Q# x) b4 e- I/ G2 F
    要修改的内容:% W$ p# ]. Y& g: `- H: q0 z  S
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型2 k: G; r1 V+ ?* d. n
    4.2 markdown_path:输出的 markdown 路径文件名$ @5 V! k! U  p+ i
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名$ i! J; a) o4 B% Q- Q

    3 q4 f! \+ A& w5 I! m5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    - c6 U5 |6 y7 z  z, d. g+ P0 {  n* [0 G# h
    目前为止PDF转纯文字的最佳办法。( x0 q2 q) p, `+ Y
    先写个小程序,把PDF按章节切成小的PDF。
    $ b* c0 Q7 c. p2 Q0 ~) ?* S然后,把PDF一个个传到deepseek,让她抓取,除错,输出。2 ^! H" V0 h. \5 c& u
    效果非常好。
    / c" E2 y" }: C! j9 R) D! j& }
    , Y* D( `" d, k& Ddeepseek,qwen,chatgpt 三个,deepseek是最好的。
    0 V8 J. T& i4 M" E! n7 A/ H) c$ l2 R7 ?) C) u/ p7 Y. H
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    - b! ?9 u/ c  h( s; b. }而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。% H" s: n2 G# o. ]0 M/ Z
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    * f+ s6 H' h% e. ?1 C
    4 o, x* j. n1 L. C3 A. g- q$ XAPI到目前为止,差强人意,不如网页版本修得干净。
    8 \! b/ t$ Q5 L5 J1 J
    , f- b( G$ s- K; ~deepseek可以同时开四个。: p2 f1 u" }" ~. f# {) P

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 + ]' h* [- r' N* Q

    # L5 p1 F* ~5 v- {让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    1 I5 R% e  [# i3 d3 X. p# D7 U: S让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ' u) j- b2 z) v! o  p5 s$ x- k细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:335 L: i" N$ S1 h4 V" p2 S; h
    细说一下,听上去很不错,多谢。
    " Y& Z% H& e8 P  z+ ~: T
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 $ P5 I7 ~) f8 x5 i' m; |) c+ a. }7 X* C
    ( x% D# e: a( G. b% e% b
    已经搞定.
    - M# T0 ]. j5 @; |
    & t7 J5 X5 Y! ^) m& p, I首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    5 V$ u! d. b) R7 C3 c5 H( f' W
    8 B* w/ P: M& I) Q& a1, python + pypdf 按章节拆分小的PDF9 X9 C, t/ z5 i( \
    8 C7 x0 w7 ^% I" M  ~3 c1 e
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ) Q; D* e5 |, d' S$ F$ N$ Y  Z" s( F- r6 f
    得到text file
    / ]8 p. o3 j% T$ Q3 l8 l) p# u1 k
    ; g& ~6 [0 h/ q6 t0 G3, python 读取整个outputfile,丢给deepseek 矫正。6 p0 V" T* P7 c; s' @: G" ?: b3 w

    + V3 O$ A1 p! @. {# m模型是 deepseek-chat
    3 `) }* [/ `4 M! N9 _" V9 \. K1 A3 t& O, k
    max_tokens 最大是 8192,别的不用改。
    : H2 T# ]/ v1 e8 h8 v+ g4 u$ }9 j& {& N4 k. c2 H+ z) O& B/ K
    参考:
    0 v* e7 s6 p0 Chttps://api-docs.deepseek.com/api/create-chat-completion8 B, Q  R8 `4 W

    ( v# l, x2 u) }1 X5 D" b9 S4,费用:
    - C& i0 P9 ]. F  w9 F) N& }' h( w7 u5 b( n0 D. }
    实测:
    2 E1 Y9 Z4 v! @, B/ o" U& g- Y/ E/ {5 ^; S. j; i& b: h" }' Q
    296K 字母,用了 9 美分。
    " a; X$ S) l# i1 x  s0 |" |8 m/ W) z: j
    英文字母 到 token 用量大约 1/3- n9 U$ y5 R6 T* ~

    7 x3 v6 R3 ~% B' _3 R# A/ utokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    + v4 L3 Z. S1 {$ L0 q( U% O
    " s( \' c9 _* F5 p32899 个字母花费 11782 tokens,包含输入输出的 tokens
    & J8 W2 U" V% `$ g2 r' k$ r" q  f2 n& L1 _8 O9 r+ Q7 [0 ^
    价钱,非常非常便宜了。
    6 A8 |* V2 }7 |8 W
    $ G4 c+ B) u( F% A( T" w( l6 r参考如下可以计算,懒得算了。, V9 H7 u# l  y  H$ n" L) h4 _, Z1 N9 X

    / k- `1 V5 |7 m: R0 t' M% E; Mhttps://api-docs.deepseek.com/quick_start/pricing. y: I9 e6 B% K( m$ P
    . F  N( L  ]4 `8 O
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14. F" C0 E+ n9 f1 R& {5 p5 c
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.551 ^0 p" ?2 ~$ a" }9 v' r
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19- L6 c6 y9 h5 u* a- e
    3 u, r9 P# z; x0 Q
    5, Balance
    8 [8 B+ x4 u( s; Q' M. R
    9 ^- X8 Z0 \! j4 e2 u. P& T+ M可以在程序里调用,知道每次运行结束后,balance还剩多少。
    % l- P9 _2 A3 @/ G5 U* m( j& f( P参考:
    8 C+ k# R4 Q6 F5 ~https://api-docs.deepseek.com/api/get-user-balance
    . l0 Z& h: G) l
    ) |  L* P7 Y* D& y. Y  R6 y7 Y$ K6, Models
      t% l1 G* V6 j5 P" f
    : A% B0 L2 s+ Z% q# w& W( M目前就两个9 c8 T; K, t5 d5 _' f
    # deepseek-chat8 {) j8 ]! t9 L& f0 i
    # deepseek-reasoner
    3 b6 T2 Y3 [! l! [' I2 d# y( `; E+ t  x
    参考:/ }. r6 G) E5 _6 M; T4 i. V$ R
    https://api-docs.deepseek.com/api/list-models! I) p: T* a8 t' `9 S$ j7 \/ ]/ v
    % M, K* E5 L3 ^; I' F( U, L# t
    * T9 F5 N% ]5 w" ?; Q
    7, 问题
      O: W% {5 R- \/ z1 z" F' P1 d# |. M3 E% m, y7 E
    deepseek 会将前后两段合成一段。
    ) P) M6 R* G3 C2 O7 f% _0 _特别是那种大量的对话的段落,deepseek会给你合成一大段。
    8 A9 K: f" q( t& h6 k6 m  J: B: J. v% N4 p. H2 g: _6 v
    8, 钱说了算。
    6 F0 G; ?; Y# W+ o5 u( Z( f) x3 _' ~  f, {/ I6 k
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。4 S* p% Y9 Z. i  @# s$ I4 [
    但是API就不会出现这种情况,毕竟我们给钱了。
      D2 F/ f/ V( r% q+ \; O; W9 Kchatgpt也是这样的。5 q$ L+ F3 }1 K0 q1 E! w

    $ ]+ k; ~& s5 p0 I$ e
    7 Z( Z* D7 e1 R! v

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-24 02:53 , Processed in 0.044388 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表