设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2224|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
# q- }1 s" |( p0 e
9 o& ?- ]( r$ ?* Z7 \: y把PDF上传,然后让他抓取文字,并修改可能的错误。, j; t9 b2 n8 ?; D
然后deepseek完美的完成了任务。
" R- q: w4 R4 O5 a9 H$ l段落清楚,列清楚,页眉页脚全部去掉。
2 d7 S% F. y. A, w我要疯掉了!
) O, p: l5 E- m7 ]. O9 O* U赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!  o% u" I, C4 Q  i
====
) X& g/ _4 Z" ^中文也很完美。, ?, T2 k# e) p# `7 y- v
经验值,每次十页比较稳定。
+ t6 N# ~$ j- b, _3 w2 P0 f0 r现在我这里API还不能用,等恢复了,全自动了。
) X' `7 m/ s  E* l& H5 O" M. d====
: j; M) x' W, q- I0 X2 O6 O第二次疯掉了!: d) C3 _) F% ^0 Q9 ~0 A/ m7 c
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
- m2 l' A  G* n) A# ]====
, _0 i3 X7 D2 v6 m/ _( R( T: d现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。7 N: o+ _, z; b8 t) ]% y
但是任务多了后,每次翻译的页面数是减少的。
1 K; S' ?0 v# z5 y! }好吧,我五体投地,继续探索。' y5 B! ^8 R8 ~, [. Y' {" b
====& ?& G3 R& Y. p2 O( b# S
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。# P2 W) _: C& P5 P) z* c
====7 }5 X9 X, x1 `0 h
好吧,有些东西是不给翻译的,哈哈。
8 i( x, w, g3 w5 Q0 n6 ]
% [8 W6 C! m, |  LSorry, that's beyond my current scope. Let’s talk about something else.
/ H8 K7 ^; B/ l9 b====
' N+ I$ }9 Q/ t5 T* A然后我的英文命令也让deepseek 帮我修改,呵呵。
- @5 t' h4 C: ^" A====, {$ U) O- M# J2 c' z' g
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。7 g# E' M2 C6 _8 b9 b) D9 m
====- d) C+ K! K6 Z4 Z0 z
时间段的话,北京时间的下午和晚上用比较好。
- Z( V. T+ w' A" y# G) k4 x后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
" d9 I; M+ l9 m- u====7 }& r- a7 K5 a) i' w  N3 H
用千问吧,非常稳定,非常强大。
4 t0 o% j2 L# Xhttps://chat.qwenlm.ai/8 O. v! s7 g" r1 ~: y, O, n2 x2 h( @
====" S# d* @& U. r
Deepseek,API 看上去可用了,但是不给充钱。; P$ F6 c* K, O) e0 P  P* c

. a( C7 l6 z8 o8 B9 G7 _9 {1 p* l
6 b4 [; i$ b& R5 _
6 {( T+ ~/ f$ \) n5 ~$ x) o3 b

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3601 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:533 J) A' L& N, k/ j  K9 t' G! t# q
    这功能很赞呀

    - a' q/ v9 ]2 y! u  U( W简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13, {1 U. d# ?/ f4 l# z+ q' f
    有没有上传整本书试试

    & X4 u- F. F+ w' Y* U! r目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3601 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 # y- \3 R$ A" q" Q, \" a
    9 p& I: |/ o6 w( ?, I
    以后让deepseek 读出土的竹简9 l( d7 P2 w9 D! Z) G
    + W, w& J5 K8 a4 Q+ Q. i0 u1 c% g
    还有把古文翻译成现代白话
    , |; i9 d5 t6 o3 u/ Z3 b5 {5 E. y2 A7 c6 L
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    12 小时前
  • 签到天数: 2765 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    $ c; X2 d' a, f# l
    8 G% a2 S+ C. o4 Z8 ?/ Z我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23# w# i) U9 y0 W1 M6 q: K* p! N
    请教是如何实现的?2 b9 `4 ^8 w) m: o2 H$ V' `

    6 c% a2 t9 _% ~, ]6 k/ f我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    9 w5 h5 t& Q5 m. J6 ?( {% r4 q; }) C
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。9 g/ i1 `) i1 N6 O9 w
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。2 c! k# f0 k3 W: _
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。0 y3 ~4 m, \$ v; C# o) f% |1 p

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
      z! r$ O0 k6 k5 U请教是如何实现的?$ K1 }4 `4 @/ U4 K
    $ o- d" R: T3 ~- R" U
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    7 @6 J/ c; j, |" D$ [$ K, t; A) o
    https://chat.qwenlm.ai/" U6 k3 ~6 ?$ B; _6 F+ I( p
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    , c1 B& V5 Y6 A7 ?! ?很稳定,质量不错,好像最多一次处理15页。3 U3 l" O1 h! Y; s8 x
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 2881 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。; x3 O4 K; V; }& K/ A; K3 j3 ~7 z0 n
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    9 u& h: L9 q. l3 K这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    1 Z7 R7 r7 z$ f# i/ W6 {) Z% x. s+ W! o/ n  w2 y; f9 |+ i6 F) X
    https://github.com/oomol-lab/pdf-craft
    * n2 i7 p9 L, J# t2 k: z5 O* h8 H4 k1 x6 m! S% h0 Y, x7 L
    1. 这个工具要求装 python3.10
    % v- T' m' [! j4 w  J% b8 f6 z2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    ) z  u; |5 l8 h( T4 H3. pip install pdf-craft
    0 m8 z2 z- o9 A  w' E! T4. 把下面的内容写到一个文件里,例如 a.py. o0 B- p  S8 u8 r* y
    5 Y+ [& B, {9 [% z- D: w
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter9 F( g( e- r5 l' T

    2. ' h7 y* M" q* m* s: f
    3. extractor = PDFPageExtractor(
      ; p& \' ~2 c2 S& S9 m7 H- P
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      . x0 l% @' d5 l' _0 t
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      0 @. t/ n! k' X) r' f& p
    6. ); y5 s$ u- {0 ~- r
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:7 J0 n: J1 @: z
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      0 g4 Y; P$ m1 o- X8 W
    9.     md.write(block)
    复制代码
    # D/ I9 H$ s8 O$ r

    & Z9 W, L' r% J/ q) ^; ~要修改的内容:0 _) s# `( I4 I( ?. ]: a; q
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型1 U3 H3 x  k" R- T; X
    4.2 markdown_path:输出的 markdown 路径文件名
    1 r1 O& H# f# @( }1 {  d. `& T4.3 /path/to/pdf/file: 输入的源PDF路径文件名# I1 F. _% l; F6 R% G$ c+ b
    : Z! f! v4 s  E  K
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ' P) C4 m& C/ Q- O  B

    * p. Q$ M% t1 ^& `+ L$ Q2 r, _$ t目前为止PDF转纯文字的最佳办法。% T7 h5 }/ j! w
    先写个小程序,把PDF按章节切成小的PDF。
    6 v$ M: c5 s, ^然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    6 {. L5 V8 @' a( h  z  q效果非常好。, m* o, m' R( u0 x
    : O) T2 v0 V4 m4 p
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    . W6 y8 ^3 G/ F( r2 X& x) J' o7 d$ ~# C
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。$ s# d1 `! C3 x/ e; z. F, d4 i
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    ' @) o8 G% q! A1 a2 K3 E0 }我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ! d$ ~, f9 E6 g/ D( \) }: y- c( f+ z" n; q2 K# M
    API到目前为止,差强人意,不如网页版本修得干净。
    ' J( e' p* B6 f; @6 `  U2 d* o2 p# O: m! `1 P3 r$ q
    deepseek可以同时开四个。; J$ e1 M' |. ?, F) Q

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    5 p  D! {. J/ p" O' ]& j0 u9 X, j7 e
    1 o0 ?$ l7 D+ o5 Y8 R% g让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26  _8 n7 `7 A) M- o4 I; [
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    6 R: {% ^1 R, u# ?. a$ x# i细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33* w2 M* P7 h/ R% f6 V1 k8 R
    细说一下,听上去很不错,多谢。

    9 O: J! B/ N; [1 {直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ' j# x' |9 q6 s. r8 l: A
    3 f/ ~+ {/ ~& k+ f4 H( J
    已经搞定.) |' a  |; h5 K. g2 O) V0 X4 M

    3 W+ F# K' o# e首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。/ E6 t, y3 _$ \6 w- s2 y

    ; d8 ^; c2 B% H) L& n! q/ M1, python + pypdf 按章节拆分小的PDF# f5 [+ y" j7 D* H0 ~- ], V1 ~
    7 C# @  {" D" p
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    4 t: O0 k& R1 l3 Y3 j: r
    2 X# w/ ?: n* Z% p得到text file; b+ r! C; X5 G. l: q

    / W+ u: A+ p9 p: x& m3, python 读取整个outputfile,丢给deepseek 矫正。
    0 o# q2 I! c; f7 ?- s4 N8 l
    ) w, Y* n, [& U6 V% X% X1 h模型是 deepseek-chat" N2 P( c9 L4 P. ^* {" V4 q4 f+ ^
    * I' l5 |" t9 T2 _! ]2 f
    max_tokens 最大是 8192,别的不用改。
    3 r( b2 D/ L. M8 k+ d& C- `3 g$ ?& [; A/ ?" a/ D- t" K3 N
    参考:
    ' x3 J3 p2 i$ s' v( p9 f: |1 Zhttps://api-docs.deepseek.com/api/create-chat-completion
    8 a) K- g, b( a5 r+ [/ R: R2 Z2 b" C9 K) ^9 m; r8 x
    4,费用:
    & g+ z' f7 g, H0 S
    3 i! M2 W" w6 [3 w+ ?实测:
    3 I$ [$ Y( m( s+ [1 z8 o! M
    " e0 y0 t  `9 m' c( y0 l5 S7 l1 R296K 字母,用了 9 美分。
    - ?1 f7 o6 L9 }2 `4 K* i4 E9 H" ~4 A4 }3 ~
    英文字母 到 token 用量大约 1/3
    + f) D" j1 H1 l# s% X# F% ~& X* G5 J" _& T' r& p; I" j
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    8 l8 {2 Y0 D" g, p* {, ]
    3 @/ X+ N0 c( e' A  B( F6 J3 ]7 X32899 个字母花费 11782 tokens,包含输入输出的 tokens
    8 {* i! w7 r. J/ u; ~7 E& o6 p3 O5 ^
    价钱,非常非常便宜了。, T5 Z0 n/ j5 a& |8 E8 X1 J! D& A# e( S

    # d, R* }! N( @0 ^9 I. u5 d0 K0 Z参考如下可以计算,懒得算了。9 A2 p9 ], ]) N+ [. W# s! j

    6 h0 p) k1 D& ~! Qhttps://api-docs.deepseek.com/quick_start/pricing
    ; I. a3 u9 h" \; |/ ~6 p1 p7 I2 o% Y" o6 {0 {. q5 Q/ m" r) y
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14/ {7 [" a$ J  V' d! w3 m/ O9 L5 c
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    0 ?( P0 k8 G. z" g8 @1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    - c" R" z) M* v3 Z$ k+ s: V0 U7 x. W+ r  r4 h4 [: z
    5, Balance, g* W. `& m7 j8 f& ^/ x
    * j" Y- B) L% A/ C9 z
    可以在程序里调用,知道每次运行结束后,balance还剩多少。$ g2 ?4 g( w* G) D, e9 ?
    参考:+ j8 x6 ?) W7 L, T4 I5 R- \' [! `, u) K
    https://api-docs.deepseek.com/api/get-user-balance* j4 x% g+ j' `) Y- X; Y

    8 j5 S: A# v' S6 B9 y6, Models$ y$ Y+ Q& j- }+ x3 b
    % A+ ~3 |8 A7 {6 E9 w$ ^
    目前就两个
    ' ^( X4 `) {. y$ ]# deepseek-chat
      Z; w/ U$ c: O* V# deepseek-reasoner2 H' ]- G3 l* k: d6 C7 R' _
    ; Q- ~& i1 o& @
    参考:
      E& ^* F" m8 Z. q7 ~! z1 |, Ihttps://api-docs.deepseek.com/api/list-models# o* J- F% [, ?: m
    $ K5 p/ u3 }- Y4 ]+ \4 I* i/ @

    5 z* [# v- X: r% b: b7, 问题
    $ \$ H1 o, l/ H( l) {1 Y: ?6 g$ j+ @1 ?. }/ \/ r8 B0 \
    deepseek 会将前后两段合成一段。: l) r8 I4 S. e) k! L
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    / q) U, h8 S+ p3 p: e9 F- G: _4 ]* l) u9 z. [
    8, 钱说了算。
    ! u, d0 _" ?% t4 ]% T. x  X# d, H0 c; Y4 Y2 f" Q
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    / D/ C$ s" E7 W但是API就不会出现这种情况,毕竟我们给钱了。
    ! @) R. Y( V! x3 v! J, Rchatgpt也是这样的。
    + n5 K# i. P, `& ]; F0 ?% T
    - ]2 m4 W2 v- G% [
    4 m$ n/ {& c0 A

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-10 18:16 , Processed in 0.041686 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表