设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2578|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
. |  Z  f( e% y8 J) g6 X, i- r$ O0 F! u( J. D
把PDF上传,然后让他抓取文字,并修改可能的错误。0 |$ ?& C: ^  X0 B9 `& w
然后deepseek完美的完成了任务。
7 J; o+ d" M8 W段落清楚,列清楚,页眉页脚全部去掉。" v0 ^4 f) s- G  k- h4 o
我要疯掉了!
4 t$ N! Q8 ~4 N* y0 k# Y# j赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
  g) o- a0 `5 ^====; W$ [) u5 G( T& B2 k
中文也很完美。$ h. \7 Z% M3 @- \  X2 d* C
经验值,每次十页比较稳定。5 N) `  B5 r# W" j
现在我这里API还不能用,等恢复了,全自动了。
% v8 P/ j! E1 i/ {, g====2 t* s6 P/ F) r& `+ v5 Z8 F. M
第二次疯掉了!: O  f5 C: z1 [0 v* C
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。) q8 e) c1 F# M( {6 d
====% X  S9 R) \8 v3 X: |
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
7 o3 \$ k% P; W; S5 u但是任务多了后,每次翻译的页面数是减少的。( u8 {) E8 }/ n7 E' j& q1 j
好吧,我五体投地,继续探索。
  f% A3 z+ ]' b8 n4 t5 H* U4 D1 w====; d) m2 u: R5 Z5 R3 V- E
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。" B+ \. K5 W4 }. _% @( H
====0 v: E( F. u% r/ F0 P7 |
好吧,有些东西是不给翻译的,哈哈。
3 X& l7 H8 R" f6 A  m7 X1 e2 Z' g! U
Sorry, that's beyond my current scope. Let’s talk about something else.
: m. ^& e0 C; m1 n5 P5 y====
! m, F* R& i0 _3 J然后我的英文命令也让deepseek 帮我修改,呵呵。
$ F5 Z) W$ I; x; N1 ~7 x7 T7 D====3 R; E! @# p  c6 E
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。0 ^3 p( M6 `8 E. e% r1 z7 y" x1 T
====
5 c7 m4 b" n. X时间段的话,北京时间的下午和晚上用比较好。
; s1 Z5 F5 J7 a% ^& n后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
& }( q& a& n- v! E====
  I( y$ P* i7 F, k6 o" v% k, j9 m用千问吧,非常稳定,非常强大。* U" ]6 n* L) U- C8 h
https://chat.qwenlm.ai/
5 _" b) {' |- v. _- M: \====  G; @1 S% b$ \3 K
Deepseek,API 看上去可用了,但是不给充钱。
$ W( d( w. a' P& j% y) e$ [* H  ?
: ?3 q, |- Z& m# @1 L' }) t) n' E/ K7 t

, x) M. L' \0 a% X1 X: P

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3675 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53, l4 L* b7 Z3 N) c! }6 m
    这功能很赞呀

    " Y. ^: o4 @0 S. o9 g$ X" @9 P简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:132 D7 P% i8 Q+ S) |
    有没有上传整本书试试
    . s7 l, c6 ]( z; G2 X
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3675 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    : Q: w/ O. \: L2 H7 D/ b7 J. F
    ( j' v! r* C6 t0 D+ Z以后让deepseek 读出土的竹简. k; _4 z. \) G' |% C. @

      V. Y' I1 R& L! b6 U还有把古文翻译成现代白话3 H# C5 E. C; _0 v+ ^' R* ]
    ; r& H0 D4 U! c+ L
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2836 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    9 M6 B1 U+ M) O( m5 G
    * r/ `, n( W+ Y1 s5 g0 m0 c我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23  `5 F- P  _9 ?
    请教是如何实现的?
    , A+ P5 X! j! y* }  j3 j7 [& q8 l, z  w5 Z9 o0 |+ L% n0 g
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    - B3 j, s5 U: e- S& F, z' X+ S/ W8 a' b5 b: Y% `  N
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ; T' U4 g8 w% _+ k9 |% {& W6 j* T) ^8 P文字之类的没问题。估计deepseek现在暂时只保证主要功能。+ J4 u' ?- c; i: `9 ]
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。- z& S+ r: [: O

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    1 V- n$ E* P  d请教是如何实现的?
    % c, |* L3 D) k9 V' s, [) \; b+ j# K# o  A. [2 b6 o( O5 g
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    0 B, Z6 b' Z, l  k. k% x5 Whttps://chat.qwenlm.ai/
    ; ?0 l) A- c3 G试一下千问,估计美国人没有攻击他,所以资源敞开用。
    $ }* F6 L! a9 w& v很稳定,质量不错,好像最多一次处理15页。; t5 K, v  k: N" _
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 2951 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    2 u5 T, ?8 N$ B7 J/ o处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。: k) t2 \$ Z! l& O
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    2 ^. }8 w* L2 g8 _. t* S, H) o
    https://github.com/oomol-lab/pdf-craft
    ; h. V: U1 ^, C2 O1 z9 a5 n! Y" ^; h2 f1 O9 C! f
    1. 这个工具要求装 python3.10
    # q9 y8 |* S' i7 ^2 x2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    : Y! _1 ^! B8 G$ k7 ^3. pip install pdf-craft
    " T( l$ ?; L3 A4 [  _4. 把下面的内容写到一个文件里,例如 a.py' [% v& d+ N! S2 h$ ]
    & q8 D' O1 g' X& J1 @
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter0 |+ w8 y5 T% V) J/ R
    2. 8 x8 h" b6 R9 a
    3. extractor = PDFPageExtractor(
      ( e9 {/ X+ B$ l/ o7 f/ N. d0 H2 N
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      1 J  M  z* `2 o, n
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      / w) \4 N# l3 y! J3 t0 F
    6. )
      ( h$ ^( X! E; L# g+ A
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      $ d1 _/ {1 s. ^3 Y$ O' E, Y
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):' I& A2 k$ s/ G: O
    9.     md.write(block)
    复制代码
    ' R0 ]& F: C: i# Y8 T' L" {

    ( x, D! H9 @* b, V" D7 t$ N$ V要修改的内容:2 l0 P% Z3 ^1 l! k0 I
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型& g+ h  q) G( z3 e" X8 h# h
    4.2 markdown_path:输出的 markdown 路径文件名" [; o, e) P9 d1 k5 p; g& ]3 A4 ~- V9 W9 b
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ; u) J/ ]6 p. |8 ?6 R. D& K& a+ l8 v1 r
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    - p, ]# U! ]& E7 i( ]5 W
    9 c% _- W) a$ n7 c. P7 [2 q" p目前为止PDF转纯文字的最佳办法。
    6 J& i! \/ m4 K+ x7 T( H4 l先写个小程序,把PDF按章节切成小的PDF。4 x8 ?' c. ?: E
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    , Z$ {% l& j$ B- Y% x' S7 P# J( `/ j效果非常好。2 k% n* _( Y0 X# z

    + o& j9 b8 X9 Q+ T! Qdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    / W- Q, D* L# o5 E8 x! Y, v3 q5 e; @0 P
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    * I- u8 d( N9 S0 b! h而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    ) v+ m8 m+ p8 k- V& ?我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。5 m. T+ }* s2 T1 c! X; q
    # a( ?% e  U" o* q% y4 {. b, `
    API到目前为止,差强人意,不如网页版本修得干净。
    7 x% _3 x" D+ m
    - p# s; j) Q1 [# `! I9 |8 J8 ~% s  ndeepseek可以同时开四个。5 e. k! g' x( f# i5 `- M

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 1 H& ]- r+ x& j
    9 o! K+ h6 {9 o; _
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    ! g) p$ P" j, M7 v9 W$ b6 {让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ( L* p6 p& x$ v$ n, }2 T细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:331 E) e( O/ ^9 N  [2 w
    细说一下,听上去很不错,多谢。

      ], Q' B3 Y- ]直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    1 l& X  Z3 h, L0 `5 _/ l' I) o  T  l' ~! e
    已经搞定.
      i+ P: W) V% _, F( s! q  a( L% r. k* b/ J+ N3 z; [
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    + V. l8 h$ z  n+ A# A7 }/ u5 K! Y; _2 n0 V/ C
    1, python + pypdf 按章节拆分小的PDF
    " t3 f1 C7 V& h, c8 C% C6 U4 c. j3 d( y  `0 C; x
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile* s# v( P' j1 x/ J- S6 F& b2 G

    ! M$ Q- U; y, y. s/ v- V得到text file
    5 h- v/ G0 Q% p# ~$ q0 ?/ Y# M, k, F4 x. i/ w+ X+ o! I5 C# [1 G" U
    3, python 读取整个outputfile,丢给deepseek 矫正。
    2 ~5 t4 A" u; z& k% T4 e0 _
    + d& }+ x' }' L' a模型是 deepseek-chat: K' [% u8 p) h0 R. S
    - p7 e! W, n0 t4 ~9 F) X3 e; a. A
    max_tokens 最大是 8192,别的不用改。
    $ v5 h4 E* N# ~) I- H) i' I' E; }9 B/ b  C& ?
    参考:
    8 C# {# A7 l7 O6 y3 @2 I* {https://api-docs.deepseek.com/api/create-chat-completion
    8 ]% l" `' x3 f* I+ y
    8 g5 S& s) B2 L7 W' l) K5 B: P: X4,费用:
    * U% _1 z. \2 M7 D) `+ G4 T0 A; U/ j: V
    实测:
    ! k* P, K1 ~; o# t9 f2 ^! v+ i' n& H% h
    296K 字母,用了 9 美分。% T8 o. {8 s: Z! I# r2 {$ u

    $ G0 ~. L9 H' _- u4 i英文字母 到 token 用量大约 1/3
    $ X" p+ F7 q9 t3 u" n* M* ~% w3 E1 j5 G$ I6 y. f3 l: y
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328992 K# F0 o# `7 ?" N; X& o
    / [& p. u% Y6 r# R
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    $ Y( ]6 L8 ]3 \! F) X+ X7 s9 @
    ; j3 W' O6 l( O- Z价钱,非常非常便宜了。
      G+ J, d- F+ t% c
    ; ?5 `* A) Y$ g& N参考如下可以计算,懒得算了。- Y2 h# _- N' j* R1 t, c
      i$ S& V6 w0 S5 i: m9 v, |% Z
    https://api-docs.deepseek.com/quick_start/pricing7 C% k3 z* a" h
    6 M* c, t: V8 R& F$ f
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14* H6 R& O/ N3 R; Q; Z2 O: X
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55+ P  J: W" a9 [, n; w4 j7 y
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ! H. y# ^, O" Z7 k' P9 q: G6 e* h4 w: y( E: W3 k; v3 u
    5, Balance3 ]$ F% n) n$ k  R
    0 N) ^) U! ~% K4 z5 d" [4 t
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    $ S& M1 k# [, f/ h% }& o参考:: S+ C: x" f$ R7 d  {
    https://api-docs.deepseek.com/api/get-user-balance
    6 ]3 ?0 k# m, B9 w% O8 B/ R8 Q* Q9 m( O. K; h
    6, Models
    : Y; _) _# O7 \3 o9 u- O' A( A5 s9 K6 \% j& t" N! P
    目前就两个
    1 j3 o/ X7 s- z' O) [  }- Z3 Q# deepseek-chat
    + ^; h0 J2 T( e, r# V# deepseek-reasoner+ W' |4 P7 e% v& m

    8 B' K" @& w. o- j" }  g参考:
    ; a/ ?  F# t/ Q1 N! Mhttps://api-docs.deepseek.com/api/list-models' u8 ?. y/ M& k( z8 d% u
    8 k) s( P  r$ S8 g9 X. t4 q# c
    ) g5 v7 i& B" u
    7, 问题7 u9 k) T: D- y8 A$ F/ J* V# }/ m
    3 \5 h! z, f5 `8 Q- @
    deepseek 会将前后两段合成一段。
    7 C- o! r0 a" ?5 W' `特别是那种大量的对话的段落,deepseek会给你合成一大段。
    # K/ [7 ]% i! d* [( @4 w! O, d" M% i1 ~
    8, 钱说了算。
    9 R) w8 ~8 c% l; v1 A
    3 ?: S0 Z6 x' {' \4 Tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    * P8 [0 {2 ~# v: i. V( j1 n( h但是API就不会出现这种情况,毕竟我们给钱了。
    # e& ]& K& c& ~( o" W# S' hchatgpt也是这样的。" B. F$ d9 N2 J

    9 ~$ V" j. o% V% B
    ' O3 H$ @$ i1 C. ^* B4 Z. ~$ m0 C

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-1-24 08:47 , Processed in 0.088528 second(s), 28 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表