设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2187|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
6 \& v8 f0 `2 m8 G1 Z3 T4 i& q6 g; }: n& C) w: t
把PDF上传,然后让他抓取文字,并修改可能的错误。0 b% V+ F! T  X$ b! w
然后deepseek完美的完成了任务。7 F3 R- y% I2 O- r; t
段落清楚,列清楚,页眉页脚全部去掉。
9 x, H4 l) s; g/ |3 f7 U# ^4 O9 j我要疯掉了!
: [+ e% [: ^8 ~7 P! K2 P赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!* ?" M  c! Q7 W% _
====
: F  K/ K3 _% [& i中文也很完美。+ s% U; Z6 ?4 y) q" m* d! d
经验值,每次十页比较稳定。9 t# P8 k" E  l- {; v4 F
现在我这里API还不能用,等恢复了,全自动了。
' s1 {2 n* i; G2 U- M' L6 K====
' U: Q* y" T. C" q- r5 }1 Z第二次疯掉了!
/ P3 X; `  p0 |) A我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
8 D6 E3 f$ n, J! I% a/ x) \( n====5 l# s( ^( ^8 V& h
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
" e8 Z( i$ x( v7 z4 ^# }: s$ M但是任务多了后,每次翻译的页面数是减少的。" Y$ ^) i: C9 C
好吧,我五体投地,继续探索。0 i7 s9 c5 Z7 \
====
8 m3 v3 G+ b9 F5 W" f! p4 T, G. o为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。! w6 X. ~; X0 h. r! z5 f
====, G/ H! l/ _  T9 v
好吧,有些东西是不给翻译的,哈哈。
$ n5 F6 T# O8 B3 G3 g8 V1 w, c& d
3 w8 }: a1 r5 _$ E/ j! Y) wSorry, that's beyond my current scope. Let’s talk about something else.
/ ~$ X8 k5 B8 _. g====
. c9 n) q5 M/ i2 {- `然后我的英文命令也让deepseek 帮我修改,呵呵。
/ P, s( L3 f/ B====
7 c3 Q8 k8 o; x( m& G. h! L& p4 [日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。* h* R" C* @7 m: ~* S/ J
====
* R7 f  w# q# @' n& |# X5 ~时间段的话,北京时间的下午和晚上用比较好。
3 V6 }( W: o; G( E0 e! Q后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
; Q: k5 S2 \; q  V2 D; @====0 d4 B( w" y' f2 Q" U! m# s* i
用千问吧,非常稳定,非常强大。5 G: K$ z7 A9 o
https://chat.qwenlm.ai/# n: W1 {% K( P3 u% t' u
====" }! i1 R- y" c4 F$ E
Deepseek,API 看上去可用了,但是不给充钱。
8 u! u4 K% @3 f* I. m( s+ `
/ Z6 M5 ?! ~3 A7 V3 H) \- {9 K9 ~, G& c+ V" F6 S' M9 I+ X
& c: s2 x3 f' k

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3597 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53! w' y- B7 H( m4 \. \
    这功能很赞呀

    3 d0 ~% I1 F6 r0 I* o简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13  U. b" L  ]& o3 T/ q+ j
    有没有上传整本书试试
    . F3 \0 P% F" x) r. k( `8 F% u+ _  d
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3597 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    * n" q% Z4 Y/ k( r! v% Q
    8 S" ~5 f; v( P$ M; d- _以后让deepseek 读出土的竹简6 C7 t+ I' G5 L- A
    / W6 i, p3 h+ g8 C, y
    还有把古文翻译成现代白话
    ; v& h4 E6 N" f" j* Z$ h+ Y$ k1 k; ]! O
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    5 小时前
  • 签到天数: 2761 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    ' |, }; S6 c2 a9 y- o: `& r# U" d
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    ! }' u9 V2 B# j- P请教是如何实现的?
    # Q7 n* [) s, l0 `7 X- t" w6 n4 z2 V# S5 k# n
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    * y1 V" V; {8 f) i) A. n! |' D/ b1 q$ m# R' z  B4 s
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ! p" U" G# g; V! |1 [7 _# \% U文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ' z5 v  ]' }* T, @) M美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
      a8 v6 g& {' P4 {* O1 X9 u5 ^2 o

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23. v; x7 g( w: u. {) ]
    请教是如何实现的?
    ! z& Z2 f) U) U; F7 `  r$ v; F/ Q- J: J2 \
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    5 E8 s% X! u( ?) V% L
    https://chat.qwenlm.ai/
    ; }5 x/ _) @3 x, v. U6 \, k试一下千问,估计美国人没有攻击他,所以资源敞开用。
    + c7 m8 X7 D. R5 S8 x很稳定,质量不错,好像最多一次处理15页。
    8 Q% F& S! h3 X5 X4 B. @! R我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 2877 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。2 H$ o( \4 c' ^
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。* ~( R& E8 I/ q6 v
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。3 K& a6 q7 E* ~7 g3 k

    & V1 s! ~$ y/ V6 Q# v8 Nhttps://github.com/oomol-lab/pdf-craft7 i$ X" I9 j( A

    + K# o8 |( z2 u1. 这个工具要求装 python3.10
    , l: Q4 C4 L6 p7 `/ N7 m/ ~2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0- @) D7 f5 h! J& ?+ Z0 E1 p- Y' q; k
    3. pip install pdf-craft4 W1 K- [4 C1 H8 `  Z9 ]
    4. 把下面的内容写到一个文件里,例如 a.py6 r( L3 D5 U1 j( o
    ( S* U! a9 P, Z: l! E
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter5 q5 f: ?) T. V9 |
    2. 5 R6 w) G& M, X# D' n8 O
    3. extractor = PDFPageExtractor(3 I' z1 M. Q: M; T- @! ?
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.' l8 U& n. |1 E' ^
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      - X. f2 ]8 o& e1 [
    6. )
      ) \/ h, K4 H  s
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      + n+ o) _6 [$ i: a; k2 s, E" Z
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      5 c+ d( p7 u8 o
    9.     md.write(block)
    复制代码

    & H, t* k# i& F' Z- J7 P* z/ V; h6 j$ m# _
    要修改的内容:- s) |+ {/ W7 D9 M" M
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型  f! S5 y& q. L7 b; ?( X+ V
    4.2 markdown_path:输出的 markdown 路径文件名8 {# S% D& M1 k  \8 T& |
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名- T; d, d3 c1 }) o  N* y8 R' s
    8 Q  U2 G$ K* [+ ?2 i
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    # n8 l- g% r1 h/ ~, f& N1 T& d1 b- ]9 B6 E) K) x6 Q
    目前为止PDF转纯文字的最佳办法。+ @8 ?9 `8 V! \- n) z
    先写个小程序,把PDF按章节切成小的PDF。# C7 w: g' p( r4 P  q
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    ( M' ]4 o7 \# q9 w$ o1 @效果非常好。
      K/ y0 \) U/ @4 j9 l+ Z5 E+ s) q3 e8 P: y3 S6 q# O
    deepseek,qwen,chatgpt 三个,deepseek是最好的。0 y" X+ L' F" b' q2 e3 C

      W9 f6 _# m# f6 vdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。' F# ^0 Q! z) i! o. L
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    0 N$ A7 e1 W. C; ]/ A我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    8 w6 r6 A8 @% B0 n2 k, D  D* B! G5 m2 |0 ^
    API到目前为止,差强人意,不如网页版本修得干净。/ T% O* j2 y; K

    ! J7 [  U# `! _8 }' Kdeepseek可以同时开四个。
    ' Z% h5 i) m& W) T: J

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ' e- h0 I1 {2 \, |
    & t. m! j6 L1 b% H3 L/ x8 o
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26! K8 a" @/ n# O
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    * o# p3 z6 H. T
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33- A% ^, L6 f# t+ |
    细说一下,听上去很不错,多谢。

    7 D* b0 @- x2 C0 j: X直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    7 D2 a. F; N) ^1 j/ L' K: x5 ?9 J; W
    : X4 p2 }1 m9 I2 [6 w已经搞定.
    ' u: D+ n: O2 N, V
    + B6 }0 ~) e8 R" f3 y首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。# f( z" p( z7 j# a* D6 n# s
    - S4 L8 A: v- @) Q
    1, python + pypdf 按章节拆分小的PDF1 r# V/ }& M5 o& V" Y4 t

    , I8 m9 m. e1 Z2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; d# A# p# t( e. b' ~

    3 @2 X6 j/ ?1 s3 j" Z+ o得到text file
    * x/ P) G) H0 U+ U/ i  h6 y7 z' r$ }7 @. V4 u
    3, python 读取整个outputfile,丢给deepseek 矫正。
    $ h$ Q! o7 S! K
    + d$ `2 g8 O7 a* l/ H& N模型是 deepseek-chat. |/ ?) M0 J0 I! m" ^+ \
    ) c: k2 [& d1 \, B& L& Q
    max_tokens 最大是 8192,别的不用改。5 q2 b5 E) P  ?  w0 M, `+ S1 Y

    0 Y( i+ e) U, \) k参考:
    - \! K' D0 y9 U6 ~https://api-docs.deepseek.com/api/create-chat-completion7 E: {: A+ ~% v6 l1 |

    + b% o- F6 v( ?  K" \( l6 P4 I2 d4,费用:
    : d& ]# }0 O* _3 ?5 m. d6 g4 I5 I
    实测:, O) z1 v! T- M9 h8 L& R- ]

    8 o& o/ U& ~8 P/ y2 E296K 字母,用了 9 美分。, j3 @( `9 W: H1 f# c2 ^

    ; J% H/ T/ c6 |( ?英文字母 到 token 用量大约 1/3
    ' s4 y; r% `# F) e/ t' J' K8 r2 B9 f8 k4 T- k
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    2 B. F& L( z  B$ T& d  ?
    0 V! s4 r3 o8 |: e$ [/ Z5 f) s32899 个字母花费 11782 tokens,包含输入输出的 tokens2 g' F9 z; S0 q/ z6 o
    8 i, O. K5 K' U* ?: _! A
    价钱,非常非常便宜了。
    2 ^6 r! w+ I  A! p1 }1 b* V! }/ d+ M- g; k9 J3 n, J
    参考如下可以计算,懒得算了。
    & M& y4 s4 b- R
    ( k4 \" G+ [4 x; e- E# jhttps://api-docs.deepseek.com/quick_start/pricing
    8 i( q* @3 M/ c; i5 V/ n" ~6 ]
    $ z5 n! h; B5 w$ z& ?2 ?# l1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    - M2 ]% k# c; t8 W$ _1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ) G7 I' X; e( A4 [8 a& l1 ~1M TOKENS OUTPUT(5)                                              $1.10                $2.19; B7 B; D. X/ E' [  i& U, Y% K9 Y4 w
    # n# I( q+ L+ l# L8 g5 K8 R
    5, Balance
    4 P% E4 _3 ]0 }
    # F2 D: r5 U* ^& ~# x: E3 Y可以在程序里调用,知道每次运行结束后,balance还剩多少。/ R$ A: E* Z  ]5 s) \' m5 j3 W
    参考:; ]1 `! I# m1 J) P9 h  p
    https://api-docs.deepseek.com/api/get-user-balance
    6 X- f) p* t( }/ a0 g
    5 n) m* @9 I' ^6, Models
    8 U) Q& \9 j/ U. t& G2 Q; k
    " F$ h2 ?5 I7 B' A1 }目前就两个
    9 q. g1 G7 [* s' a7 a! D# deepseek-chat. w  r5 _0 ^. A6 V% t. Z$ K
    # deepseek-reasoner
    5 Z- V0 `# V( k; }4 c# h% l
    / W7 D6 f+ |8 }; R. Y% M参考:( N5 a. J" C0 I
    https://api-docs.deepseek.com/api/list-models
    0 p9 Q& J- X9 d' ~8 K/ Z: J' r! e
    5 _- A; x0 E1 x. p  R* B9 v( U" @: d
    7, 问题
    9 y6 Y1 \6 ~' [/ W0 H$ {* V" n' \# [  v9 Y- }+ V5 b
    deepseek 会将前后两段合成一段。3 S, R; S4 k+ k' Z
    特别是那种大量的对话的段落,deepseek会给你合成一大段。* @! i; G7 Q0 G1 \

    + s% d0 @, f% `# K$ u7 d8, 钱说了算。/ X- P: t# n4 U7 U& y4 ~/ Y3 Y1 I- I
    ) w% A) w" L. c' D# V+ I* Q
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    1 U( x! }1 c2 G) \但是API就不会出现这种情况,毕竟我们给钱了。% t0 z% t# J1 T. e* h
    chatgpt也是这样的。
    # r- a5 p4 }, Q' P2 \9 S! Z4 H7 ]5 }( L
    + N6 p" b. @$ i- H( y

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-6 05:40 , Processed in 0.042435 second(s), 28 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表