设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2465|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
2 Y! X" e! D* H& l7 E& l: Z6 C5 c* {6 `8 ~% s4 {3 G0 m
把PDF上传,然后让他抓取文字,并修改可能的错误。
; l" {/ m4 ?' f/ p( a' `1 M然后deepseek完美的完成了任务。
; M3 m% u; O1 W7 m, Y段落清楚,列清楚,页眉页脚全部去掉。
. u5 D5 _" }1 e5 [我要疯掉了!
9 A+ K/ k7 F9 V  J赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!8 ?0 }% D, d$ V9 o9 H! S) t
====6 y6 J4 K  x- P' T0 Y4 x
中文也很完美。7 W( G3 c* F9 A% [  Y! z
经验值,每次十页比较稳定。
( I- K; c& O8 \! R$ G3 k现在我这里API还不能用,等恢复了,全自动了。! m# c) \; P9 i  ~
====  Y1 h9 u' w" Y4 U& [
第二次疯掉了!* }7 S1 C5 D) n- Z
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
# K4 T/ V9 F+ S- S====: u- B4 |0 O$ ?5 S8 c, X) A
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。# O9 x/ t# b# D: D# \9 \
但是任务多了后,每次翻译的页面数是减少的。
8 t, Z" ]+ ?. t0 @9 o$ W1 I: o0 Q0 m好吧,我五体投地,继续探索。" V+ h  s$ O3 S4 l$ r; R. d1 V; X: p
====8 R) F7 X- I1 _% d3 R
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
( p  Z. T. M0 A% u* A( T====
* b: e- Z* @* M* H" w: `好吧,有些东西是不给翻译的,哈哈。$ U0 J* S1 Y/ @5 f, a
; [/ H# |! o/ y7 l& n  J5 h
Sorry, that's beyond my current scope. Let’s talk about something else.4 c- Y; _; ^! c& R" s1 J
====
% L4 ^* n( p! r9 N" ?然后我的英文命令也让deepseek 帮我修改,呵呵。! U" b' s- ^2 A2 {$ I9 a2 D: R- M
====
# @, @! l" [& ^2 j  R! C* |/ N日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
0 ^  S$ }! |7 A- \( N====
8 i) d: }: X7 U0 j时间段的话,北京时间的下午和晚上用比较好。
8 v4 c, s' v7 o3 Q后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。$ a. d8 A" U: |9 T/ N* E' ?/ i
====; L3 z; ?- M# ~" `" \- O8 o0 n; a" ^! Y
用千问吧,非常稳定,非常强大。
1 J3 D' [8 _( m6 F' Yhttps://chat.qwenlm.ai/4 f/ a: r+ V* `
====5 Q/ c( L- t# D
Deepseek,API 看上去可用了,但是不给充钱。0 S8 a; G% M) d! P4 P  x

. _8 u$ ?, I& Q& [% A5 e' y/ k, [8 i) ^5 c! i% Y

2 k3 `$ J2 p/ \; |" u5 U+ Q/ D; i, ^

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3644 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:536 w0 |) A0 F; C* J1 n5 \; r
    这功能很赞呀
    4 [+ f7 q8 A( g% p4 Y1 `" Q
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    ( @7 p- F$ I! f* {) ?; G9 c; {有没有上传整本书试试

    ; b2 `: M* t2 z8 [目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3644 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 0 f8 ]/ A6 T( Q( l7 S+ i

    : n2 Q( h* I6 ^( A以后让deepseek 读出土的竹简( N: J9 X' X6 h! G) R! @
    8 ~' @* ]8 n3 E& V' L  p- C7 ~
    还有把古文翻译成现代白话0 _" C' A' W2 t
    * z! K5 N6 m' Y3 b5 f5 ~
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 00:00
  • 签到天数: 2805 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    ' l% ]3 n, k' m0 F2 `5 B, \+ e1 w
    3 S) g3 Y- [$ u我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
      ^+ e  i) _6 _0 z' [9 z' `请教是如何实现的?
    : W2 _: I! S! G; I7 a5 m% [  r. B% r0 T8 ^8 i; }
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ( f6 `1 A5 p  a8 A3 i( y# y2 T

    2 o5 R! w. P. o3 D0 l我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ' \- e  ?8 u9 B5 ~- X文字之类的没问题。估计deepseek现在暂时只保证主要功能。9 K+ W1 h3 E+ E) X' K$ H  }9 C) F" I. ]
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    $ U' _( \( ~) g& V

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:236 M; b/ `7 T( B0 V1 T* b% P
    请教是如何实现的?
    * e$ F" H8 w8 v# f4 j& \  _9 L# h2 {+ d
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ; l2 f% L2 Q& @, Z. [+ ^$ Fhttps://chat.qwenlm.ai/* F7 S* Z) a) L! p: o; i  _
    试一下千问,估计美国人没有攻击他,所以资源敞开用。1 D. G1 G! L% h
    很稳定,质量不错,好像最多一次处理15页。
    * B' _9 Y+ l& h! O9 v8 Z我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 2921 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ; Q" l' S( J$ [8 Y处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    . G' J' @/ J+ P, J$ _这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    , h& h( \+ F: e9 Y, p+ w
    3 v. l  w* ^4 i/ L' F5 Ihttps://github.com/oomol-lab/pdf-craft
    " a# V% k% ~! h& y3 k6 W! e; a8 r) A& v0 M
    1. 这个工具要求装 python3.10. ~; t$ i% z2 E+ @; Z5 y3 U; W
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    ; E# t/ O0 Z  G2 M4 O3. pip install pdf-craft. r8 J" a5 Y' r2 y
    4. 把下面的内容写到一个文件里,例如 a.py
    4 J( c" D, ~2 p' Q  H' y, x: z# d* I+ x
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      ' m/ d1 }+ \9 f2 ], B8 K: l
    2. ! M5 Q. |1 c: a& P3 W
    3. extractor = PDFPageExtractor(0 B' O: X) r0 l4 f% Y$ @( m
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.: |. b( s" M5 ?" X
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed4 Y) B8 \/ z" s9 s* X$ U
    6. )
      9 d& X& r0 ~. i+ h0 z
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:& c; G( i' e, ?4 p5 c% U
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):( x. _4 h) Q1 |6 j& \
    9.     md.write(block)
    复制代码

    ) z4 |4 n9 s6 R( |8 Z
    ) t- j: c3 Q$ W! w1 y& S2 w8 M" x- m要修改的内容:5 V& w& R4 u9 Z' v+ n
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型! ~9 D9 p) T1 X
    4.2 markdown_path:输出的 markdown 路径文件名
    $ O% |; \2 ~8 l& A7 [2 K9 @9 s4.3 /path/to/pdf/file: 输入的源PDF路径文件名( o4 W: L+ e% x* S; c& f) h

    * ?2 ~" @' n( d( L; u2 z5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ( x7 d% i' a6 }% o* w  k  H
    ) l# t4 A0 I1 `+ G5 c3 T8 M2 W+ ]* r
    目前为止PDF转纯文字的最佳办法。
    + j3 S% g: o6 ~9 c6 E先写个小程序,把PDF按章节切成小的PDF。5 l8 ]9 Y* W. |- R1 N. d
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    3 e2 H1 L& h: ~$ L( Q效果非常好。- U( m) i) K. _; R# s# _

    : l& r7 S9 q/ d) p5 y8 u# q4 Edeepseek,qwen,chatgpt 三个,deepseek是最好的。
    . j5 J3 `$ z. @/ e9 D; t/ _' ^6 ]. J. G( s
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。, M( ?! v7 j% ?0 K1 I
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。  O; o2 o  Z1 X& q
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    + r- `" ]1 E8 s/ G
    - @/ z( l. v# ]9 [7 {1 t/ [. KAPI到目前为止,差强人意,不如网页版本修得干净。! ?9 w6 M+ W( f7 ^7 w: {
    / G: ~" [* t1 a" j7 a
    deepseek可以同时开四个。) L! v6 T. S: g4 W0 p; \0 k% F

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 1 ~$ _9 c, `1 e: o6 i' A
    & O. P' J! v+ D' e, e/ r& m* |1 F  q
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26- `3 t0 _( |* }5 _: B  E* m, ^
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    % S( k& ]/ }6 O$ i# H% k! Q8 z$ H细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33# L' q. ^/ m; d% F( L
    细说一下,听上去很不错,多谢。

    7 |  J# Y2 S+ H# G$ B) x% ?1 A直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    0 S7 l/ L) \; H. `$ k1 h' W3 A  B4 @% P
    已经搞定.
    + @- r$ R* c/ {7 N# l
    - }' |  g- ~: Q8 P! L* `) |' f首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( Z6 H' H4 w" T1 f  y; L3 K

    ! d# K, L9 I- B4 `% o1 [1, python + pypdf 按章节拆分小的PDF3 D1 I) K# y- Z: k. ]7 s5 e  V. v$ ~7 q
    2 [  v2 |7 v# K5 o
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    6 V: V0 I2 G8 E7 z( K
    , J+ o" }0 K# L) d1 V8 c. X! L得到text file
    . n7 u, x3 \  W8 c3 k$ _8 W8 M
    ' c5 r0 W4 s( K* M& F6 Z' C3, python 读取整个outputfile,丢给deepseek 矫正。
    0 A0 K+ c! P. Y. S" P; I2 d/ S8 p9 e# ]( }( `- @9 U* ~8 T: O
    模型是 deepseek-chat
    0 \6 e; M+ a$ y8 P% \: B3 F; }- G8 ~* x- o! O1 I0 ?
    max_tokens 最大是 8192,别的不用改。: T% ]2 F' H+ N' H, G+ `

    2 m1 f# _. x* W3 \6 z参考:# \3 C5 \; Q; g
    https://api-docs.deepseek.com/api/create-chat-completion% L2 R1 I* c7 ^) U: t9 F8 s( _

    6 s5 ~; L+ q4 G$ A/ }! u2 _4,费用:, z: P; x2 I4 [; h8 ~! a: k+ C8 p

    - _6 {  X+ M# r3 q3 A实测:* ]6 e$ H, D# m- a* D

    2 e! N' [- W6 \& V296K 字母,用了 9 美分。9 n4 ~9 c6 x+ z  g1 A9 _9 b/ H: e, {

    & m4 [. A: I, m5 H8 l; A+ f英文字母 到 token 用量大约 1/3
    2 c3 T/ \% H2 c3 h! |% B0 c7 a2 ~' g2 _; n
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899$ x; ^' s" Z. O9 R  U+ B6 H

    5 L4 _0 H6 M$ o8 b6 f# t( j8 N32899 个字母花费 11782 tokens,包含输入输出的 tokens
    ' N6 c2 v( L4 V; q3 x: M& G
    ! D8 ]8 f3 x! ^* L  f价钱,非常非常便宜了。/ O7 ^) i( h9 C+ q6 s) u
    4 }' ?3 N( |4 q  b5 H  E
    参考如下可以计算,懒得算了。
    + `: v, ^, I4 q$ a; Q) Z
    # ~1 B- y$ l& Y4 J5 ihttps://api-docs.deepseek.com/quick_start/pricing0 X$ w9 c$ S4 M+ C! ?, O7 L8 [1 q
    9 a' _1 w6 V+ E  p5 m( X8 c; E% v
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    - u, n6 q4 L; ~2 U. @- C1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    0 C' z" ]8 C  p& Z$ R1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    8 t9 H7 B8 n% j9 m4 R7 |* |- ?1 {; o! O3 t8 o
    5, Balance! b- y8 l2 h! ?. y* o* D* g; l

    * h6 P% b) o2 K0 D# C可以在程序里调用,知道每次运行结束后,balance还剩多少。
    " t& a9 |3 e9 o参考:
    6 p3 A2 m2 \( K* N# I7 l, m0 z3 {5 ehttps://api-docs.deepseek.com/api/get-user-balance) C# X3 E# r# i2 {7 j1 n

    ) o) Y  Z9 T5 u+ G9 F6, Models
    - K% v1 B1 ~3 d3 x
    + W, y1 x! t8 {  d& T0 W目前就两个
    2 x3 T# M6 b, k0 l2 [4 G# W- R# deepseek-chat
    8 Q8 U; J/ ]4 n5 W) w# deepseek-reasoner
    ! M" K7 G. t4 V
    " Z0 w, d! a+ q4 J5 A% A参考:
    5 I6 N% W" G9 F( V, \* c& X4 y  Mhttps://api-docs.deepseek.com/api/list-models; F7 ]. R7 i& x5 f( l

    , N/ G& K( M4 ^8 y' G, s7 t
    4 c/ Q. o8 G8 t# A8 J, z9 D4 e7, 问题
    ; z' `( J, K5 k6 O) c
    # \6 ~9 S' D* i& ydeepseek 会将前后两段合成一段。
      t- s0 V: v% r& L; T0 O& [8 [/ J2 y特别是那种大量的对话的段落,deepseek会给你合成一大段。
    ; \0 N- }8 F4 h5 z* @
    7 [3 a" j$ f( ?. f8, 钱说了算。7 B; |/ S+ R, Q0 E% i6 e* s

    ) y! m' m8 n, l& O  j  m- Vdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    ) Y  X+ i. y$ l0 T  c但是API就不会出现这种情况,毕竟我们给钱了。% @" S9 D1 V0 d) ]8 n) f, X
    chatgpt也是这样的。/ L3 J9 x. F. o
    / l9 Q, h% K/ N" {* ]# k- ]

    & B" C( s! g3 Q

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-24 16:54 , Processed in 0.035098 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表