设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2185|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 & f9 Y+ i! o$ f3 L) M3 L8 [" W
, o! F. W) s0 b/ y6 Q1 _4 h
把PDF上传,然后让他抓取文字,并修改可能的错误。
  S2 X2 Z9 B+ M$ _$ F/ }然后deepseek完美的完成了任务。" t, ]- X, j  h1 ~# g7 x( v' ?9 E
段落清楚,列清楚,页眉页脚全部去掉。: E# M( e9 i; r) g, W  L
我要疯掉了!6 `4 l+ |$ V  q1 ^8 B- h% v
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
' ?3 ~' S2 j2 d5 i9 Y% V( i====) b6 X, K) h1 p+ n+ g; {2 j4 H
中文也很完美。! z0 t1 j) s6 Q& T- y6 S
经验值,每次十页比较稳定。; E3 R0 ~* Z" A6 {; G
现在我这里API还不能用,等恢复了,全自动了。* V, s$ _* T( z' f6 J$ |
====' P5 E1 @* `, d, f
第二次疯掉了!
# {8 B5 @+ |, k* ?4 ^; b. H我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。! ?: H$ \7 l9 j" N9 t
====
  C% m' P) F0 g# G7 C9 @7 c) s现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
, z9 _! w4 d- ~* w但是任务多了后,每次翻译的页面数是减少的。
; z* U- ]5 L' w% L1 [好吧,我五体投地,继续探索。
9 I( S; l) A' ]' z6 ^, D====
- }: \1 d1 ]2 b4 X& }" ~  y9 V为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。: {. R( |4 H  O6 M) ]9 U; e+ A) \
====
$ W+ c4 p; m) T* \# e好吧,有些东西是不给翻译的,哈哈。
% B- l- O# @* L: d1 D7 i* X9 j; s, M+ {# E- `
Sorry, that's beyond my current scope. Let’s talk about something else.; y8 d2 P! }7 D5 P
====
# o7 s8 l# _  K然后我的英文命令也让deepseek 帮我修改,呵呵。# C; S+ U8 j' F# z
====
' O# V0 a0 k. E- n0 y" T日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。9 @$ U' s2 Z" x% l4 h6 q
====
4 L4 t. a  a$ f) h0 a$ t" o$ @3 D6 P" F时间段的话,北京时间的下午和晚上用比较好。
; E; [6 V# a2 g* V6 L' g( c后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。4 o7 u  _6 o. i6 c
====
/ h% }& E2 F* I- S5 m5 H0 H, p% C+ B用千问吧,非常稳定,非常强大。/ M) M- V3 S2 M- S4 r" y! w( l) F
https://chat.qwenlm.ai/: ~7 b; [+ d  Z  Q* k$ b- c% ?
====, c. O3 f$ B( t  i
Deepseek,API 看上去可用了,但是不给充钱。
- ?  X; H" |4 G) ^; {5 [2 s; V: p- u

/ |, \4 x# s4 q* ~4 s1 }9 ]+ {
8 }- O/ c  v# g& B# y! `5 v

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3597 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    # L9 x, C" Y! r5 y- j# {这功能很赞呀

    ; U( ~4 b( A, w$ B简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13- F' y$ c) C2 s' S$ G# s
    有没有上传整本书试试
    ( |& _$ ~' Y; V
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3597 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    ) Q/ R& \  T" ^. D+ A( B. ]6 I
    * m- a4 |- p9 U& H* U( @0 ]0 L以后让deepseek 读出土的竹简
    - @: G, j. u9 ]% l( ^) v' n. Z8 q3 C2 j2 ~& o" N5 w9 ]
    还有把古文翻译成现代白话
    & Y2 O! x8 \8 w( e  d
    % Z3 M- W0 k) P3 M/ s6 ^4 P以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    1 小时前
  • 签到天数: 2761 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    : Z0 t! |& s% A0 t1 o! Y& ?) \
    " h* w" S* Q. w我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23: V* @( O  Q0 r- ^  A
    请教是如何实现的?
    : C( A! y- K% [  x6 T" d4 z0 c" z# m0 g0 w
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    % e+ n+ C- U" ?- z8 u' V- M0 ~" ~+ j2 b, ]

    ) c4 K& \$ E6 z0 d+ i* s我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。; h  ~$ q' _# m, I6 M2 T; N
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    3 {) q# f9 n  r( v9 ~美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    , H( S: Y2 [" c

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23: Q' H- `3 g$ Q" c
    请教是如何实现的?1 g$ Q% l& B  w* p5 T( _
    0 j  W7 T4 u9 t5 ?1 U
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ; a1 @3 y6 S% K# zhttps://chat.qwenlm.ai/
      ^$ Q9 `7 I! r) {试一下千问,估计美国人没有攻击他,所以资源敞开用。
    + \4 K2 e2 `* J+ O4 f. Q很稳定,质量不错,好像最多一次处理15页。3 H3 x/ N) M( ~
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 2877 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    $ k8 D$ q( X7 V: ~2 a9 L; W0 ^处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。6 p* W  |/ ^6 q6 P( L
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。) B, l2 N1 k  N  e& `% W) F' C

    - s/ t. O2 K7 ^- w7 A- O/ Mhttps://github.com/oomol-lab/pdf-craft
      p! C  _: D# @& E2 x1 v
    ) ]8 Z+ d. }4 q; X/ I4 ~6 l1. 这个工具要求装 python3.10  V' H# D6 O# ~: L
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0  \/ s0 b) r+ ~  N" b) X" \
    3. pip install pdf-craft
    ( H# w3 C3 J) A6 J4. 把下面的内容写到一个文件里,例如 a.py
    ' G- S5 E, G9 W% V% P% Z2 _
    + J" t8 m7 V$ s4 ]$ c
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter# H! |. |  p, f' d/ X: I1 |  F

    2. ! P* n3 r1 K: m8 |' |- {
    3. extractor = PDFPageExtractor(
      ! K5 ~6 C5 E( a2 }: k, @  Q+ C/ H, m' ~
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ! s( ]& g1 R/ E- n
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed; E2 @7 }- s& x3 Z+ e2 K+ p4 a8 \
    6. )) Q& B' m# g# r- S7 D1 ?
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      2 Z& L2 t1 x, I. h
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):/ W. Q% e# V& E( l  v6 r% A* u
    9.     md.write(block)
    复制代码
    " V) Q* m6 v0 f: i* w& {' I3 B; j% C

    ; Q7 w) u  t( e) u5 Q0 ~" A! \要修改的内容:
    : P* u+ i  n0 G1 F  y" B4 g% z3 n4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型8 o$ S, y8 c& M! o+ d
    4.2 markdown_path:输出的 markdown 路径文件名
    ; x% y" V5 U# r9 K# Z4.3 /path/to/pdf/file: 输入的源PDF路径文件名" z9 ^0 o6 k; P: ~7 z8 ^( \) s

    " }' V% p' f7 P: w6 {/ H* ~( H) H5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ( G2 c- Z& P/ K3 B, ^! Q  @/ z# R
    0 K) [' g/ [" d0 N4 F- h; G4 h
    目前为止PDF转纯文字的最佳办法。
    + t5 Z& L) z) D  Q9 o) e先写个小程序,把PDF按章节切成小的PDF。
    / W6 F% b9 c  P2 H4 L# [然后,把PDF一个个传到deepseek,让她抓取,除错,输出。: {; G" {9 G. i" m. a5 i8 x
    效果非常好。' M5 O% v5 V. ~0 C0 _% c

    2 ^% R3 ^: \7 d7 u' |5 [5 Vdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    + }" T  s) ?' S5 G
    ( s6 d6 p2 A. qdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。8 X4 Q) n1 f+ y& E
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。- K  W! I, \; J. }  z" l
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ) p2 x9 _+ y1 n3 q6 K
    9 d1 O' @. j0 ~/ X# M0 _4 k$ ~API到目前为止,差强人意,不如网页版本修得干净。2 S8 |( W  {% ]+ T3 J' c( s2 E

    + s" G1 l7 z( ^6 T9 f! ?deepseek可以同时开四个。* P8 W3 }! k( ?3 V4 K. |5 t

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 8 [! R# F2 ^2 E2 b0 Q$ \
    2 r# C, q  a. Z
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    * _! F: R( z+ P4 Y$ t- \让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    7 q3 X3 z  F  S' m$ @; N细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    # W: d& g6 @4 e0 n' t细说一下,听上去很不错,多谢。

    - H$ a4 U- ~9 _8 s; y. c" c直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    9 b7 K8 z+ h. i  ?; Q) p5 B% Z0 q: [+ z. T  T( O+ H" k( X
    已经搞定.& I& V4 {5 n0 }; o1 |; \
    : `6 s0 q) t' g) v2 k
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    . I& a0 y4 |* T# [; G3 Q; }/ p5 \% G) ^0 I% f; F6 O
    1, python + pypdf 按章节拆分小的PDF
    * B, S# e  j) p; d" K$ o. {1 V. v: D( \8 y  J& E
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    1 ~$ |) V  w8 r) M- ~! j
    4 L# q0 F& U; y( r$ x/ L$ H得到text file
    ( H6 Q) [; Z7 V' d
    8 t1 ^, w9 y% G+ {3, python 读取整个outputfile,丢给deepseek 矫正。
    ; e$ @; F; X5 J6 q" l( D& C6 M$ d" c- S$ e% s
    模型是 deepseek-chat' X9 |1 Q6 K4 e& M

    6 L# F: n6 [$ Jmax_tokens 最大是 8192,别的不用改。' h+ p/ ~: S6 [2 s& G4 H

    - {! _( i1 X% f9 F' V6 R- U参考:
    3 z% }; M* z5 fhttps://api-docs.deepseek.com/api/create-chat-completion: S/ O$ B5 q$ W, b: o+ k# r0 ^, \

    , Y: T) f2 `: i4,费用:
      P  C- L; \1 A1 M) P
    * |3 B  A' n% q& q: i  J( Q实测:8 S3 ^: K3 p- [4 c

    0 D  \! p$ J8 @5 ]" \296K 字母,用了 9 美分。  ]& ^: O" O  L2 U/ Z: Y; F
    + s# E6 |& _: L. H2 p; d' F# n4 b% _
    英文字母 到 token 用量大约 1/3+ _, e9 e0 @& e
    . `4 l% q$ f5 ]
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    : O. B' d& `& J; D# y. a& u3 U
    6 G" @; q/ @& ?. C5 }32899 个字母花费 11782 tokens,包含输入输出的 tokens
    " h1 J+ W- Z( }6 w9 F9 j9 m! ^- ?9 W1 U" N9 Q0 C+ v1 c' i
    价钱,非常非常便宜了。
    8 C1 J$ v* D" f- V1 S# a! q3 l& D1 G( l. ~  O3 Y9 m* _4 S6 G
    参考如下可以计算,懒得算了。7 S* `2 W; z9 x3 N
    7 b4 a3 b& R8 B) Q+ v" E
    https://api-docs.deepseek.com/quick_start/pricing
    % }/ S! \/ i$ V2 H7 m# M1 @4 r1 l) m$ G5 I7 F$ Y  f$ Q
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.149 m/ J1 k* p4 `5 u9 [3 _7 ~
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55" Q, u5 n6 B3 g0 Q4 m9 I
    1M TOKENS OUTPUT(5)                                              $1.10                $2.191 I9 k' {9 j$ z. @$ e' }

    $ x& @4 X; _: M' I3 v" u% K9 G5, Balance
    , ]. H  _) p  i/ D" c2 [
    6 t, ~6 A% E/ @6 A) Q可以在程序里调用,知道每次运行结束后,balance还剩多少。) Q7 M7 d( ~) T) k7 n1 }
    参考:) p0 c3 ]* e3 B/ \; J5 r. X
    https://api-docs.deepseek.com/api/get-user-balance. j& E0 X- l5 T/ X5 o" ^0 D* O+ }

    8 B5 t- k7 x6 E3 U3 w( l6, Models3 ?$ C# I9 G# n% v2 a) w
    . Z* _. K/ ~2 I& C6 t# A
    目前就两个
    & o1 w: y8 O& Y( n; e" z6 k# deepseek-chat
      j. c8 \  s7 y+ F* b# deepseek-reasoner
    ' k, y3 }2 U% c
    . k7 Y  `: c4 [2 K参考:
    5 |: H; D+ o, B/ S9 N/ _* e5 a2 k& Ehttps://api-docs.deepseek.com/api/list-models1 c* ]# C/ [+ Y$ [2 K

    4 _  }( b! a% a  E& p9 @2 x7 M, y1 S% X
    7, 问题" S% G6 }, Q$ s2 L/ ?, u: h; H
    ( |9 ^( z: M: M; R' B% f8 b3 i
    deepseek 会将前后两段合成一段。
    / }; L2 T5 Y* V特别是那种大量的对话的段落,deepseek会给你合成一大段。
    , V9 C5 D2 R$ d1 A- U- v
    3 s$ ~3 F* a; E8, 钱说了算。$ Q- X+ @% b% |' ^5 C% r4 k+ d

    ; p, i, _  w1 h  e7 jdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    : n+ c) a5 D" [2 |但是API就不会出现这种情况,毕竟我们给钱了。$ `# C; u5 m* V' D( Y- Z
    chatgpt也是这样的。8 f9 P/ a- {, K, c9 j" @

    4 X. q4 [5 R5 a0 h1 M( G/ [7 I
    3 X1 E# S8 g: ?: a' d' V) w

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-6 01:14 , Processed in 0.037575 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表