设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3256|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 + o$ B; b- a5 M; w' j& C0 g
8 L4 v5 o% }5 a
把PDF上传,然后让他抓取文字,并修改可能的错误。2 C" E( s. P3 U. N
然后deepseek完美的完成了任务。
+ N. t1 p9 U& C# Y( K2 L段落清楚,列清楚,页眉页脚全部去掉。
0 X5 U! }8 ~/ V8 i$ Z我要疯掉了!& K/ \' v: h  V+ n5 L7 f& `+ n
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
- q) D/ o9 u: N$ s0 \9 k% T1 U9 r====# n5 U+ N3 H9 q6 ^. J  d+ H# R
中文也很完美。
) e/ i$ t. {3 R' v; u3 @4 x/ R  }经验值,每次十页比较稳定。, H# W7 Q: L! z( v
现在我这里API还不能用,等恢复了,全自动了。$ i. z3 E4 ~& I/ S
====- g( g4 p' U8 |" ]; }
第二次疯掉了!* q0 I! `6 b3 L! `
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。  j& |; J" b/ K3 X1 N/ F
====
' y* U! `' T' O2 `9 P8 X( s. z现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。, x3 U# z& C5 k; x+ w
但是任务多了后,每次翻译的页面数是减少的。
# \  s* r1 `/ I( x- [% [好吧,我五体投地,继续探索。
2 K: K8 E% ?. z: I" i====; A- q' h: {$ i' G- ]! [
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
6 ]' v* U# s. m. m. g====
) P1 ?3 [% y- i: o6 r  H好吧,有些东西是不给翻译的,哈哈。
8 h: l5 ?+ w6 b. J6 c' H4 V9 ^1 N
- G+ S  c4 j; R5 `1 w7 |Sorry, that's beyond my current scope. Let’s talk about something else.
/ {. {" R" P/ `! L====  L+ L. C8 A* [% C* i6 s
然后我的英文命令也让deepseek 帮我修改,呵呵。$ s, o9 b9 O* J# V  p4 k& L$ ^
====
3 L3 K; W+ _5 g( \$ F日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。. j( s" }, V) i, g; Y
====
0 Z* _4 ^& v( F" |$ D! U3 E时间段的话,北京时间的下午和晚上用比较好。
5 o: H9 V; c' c- p/ c% ^后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。) d; C& q8 o/ ]; D+ D
====
, c. K* s' _& }9 ]/ l. }7 h7 Y用千问吧,非常稳定,非常强大。$ c: J/ |2 a( `4 r
https://chat.qwenlm.ai/  |9 p, }9 \" O$ U' E* u% Q
====
( U( y3 m3 v, y! S+ S+ sDeepseek,API 看上去可用了,但是不给充钱。. R- j# q+ s7 s: e% L  {
( `/ b* j2 C  S) F4 Y' C
; ]5 [+ N9 g/ Z5 X) K

' u# j' B; I6 ^' f) B( P) n

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3832 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53" T' M  @% r! v, r. f7 v! r6 _
    这功能很赞呀
    6 ~# w4 j/ z5 F- O
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    ) o3 L7 g; `4 k. v( W# o4 p2 y有没有上传整本书试试
    $ f! \' `; l1 [: E/ R) \! O& T
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3832 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 3 R* k! t! F3 b( r6 L

    . K9 C( n8 y! {( l3 W  {以后让deepseek 读出土的竹简
    8 z. j: H1 ~0 g6 W  j' _
    6 q8 {$ z$ c8 R; x( s8 z还有把古文翻译成现代白话/ B# K4 h( n0 q
    5 ^: H' K7 R% N2 c; H* q3 q9 }
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    12 小时前
  • 签到天数: 2992 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?9 Y  O2 e  t  R" X( S

    3 ?; r7 f3 F7 A* Q8 |. h5 V) }: a我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:235 v4 J) y- N. }3 s
    请教是如何实现的?% s8 H3 o8 y5 c( P& Q4 V
    ( i0 i$ c) s! O! v: i
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    7 p/ n- g4 o* K! Y$ C+ d/ L1 |2 Q4 \1 [
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。! T: k. h: h5 A
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    2 [: y, Q# S6 \# V, _# Z美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。. n: ]5 m) X) y4 ?. W8 O% G( a" G

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    * O6 g! c) A. H  w( G请教是如何实现的?
    / g; V/ ~! F( U1 B7 ?( V& W( @8 R; Q, o& ^3 y
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    : l% f2 x+ [0 u8 ~
    https://chat.qwenlm.ai/" ~. N5 A( Z! D4 c' i
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    5 R% |9 B, f" _: M  T2 ~很稳定,质量不错,好像最多一次处理15页。
    7 n) y% t: i  \. ^我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3098 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    " _1 Z! D9 v6 r' @9 z处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。+ [) E5 P" E. f$ U" T# t
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    0 r4 X1 ^0 b! |. e6 }1 k
    / G5 ^/ W' x, z. s6 ehttps://github.com/oomol-lab/pdf-craft
    ' k3 n1 s/ ]6 {; ^- A
    7 q" C. ~: N. H6 e% I- C+ z2 \$ P* f1. 这个工具要求装 python3.10* }0 w1 R* U! m# e7 t9 i- B/ V$ u
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.00 H0 B! K( R. V$ Q$ i, s9 c  O3 N
    3. pip install pdf-craft
    ( X/ `3 U6 ]- e. j/ P$ ~& b" {+ T4. 把下面的内容写到一个文件里,例如 a.py
    9 w7 Y3 O2 T6 z6 u
      h$ p" ]1 R  |) m$ N
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      : o/ I$ R( c& d; E
    2. ) A, v* t# G3 }: l# ~, @
    3. extractor = PDFPageExtractor(1 U1 n& z4 t) D
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      1 C& s4 |7 c$ n5 X% n
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      . L2 Q* Y% a* i  W  A. |+ }4 Q
    6. )
      0 Y9 s! f7 T9 B3 |4 I9 W
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      3 Z3 M/ D* Q9 J1 `, a# J- R' ]  N
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):6 K# {/ N3 F# r$ v- v8 Z% U3 F
    9.     md.write(block)
    复制代码
    1 j6 V1 \1 Y! M) u9 M

    , R% s) A7 @& {2 I9 S要修改的内容:% [' X8 H8 S- ?% [5 ]
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型: i8 l  r% L) e' p
    4.2 markdown_path:输出的 markdown 路径文件名
    1 v" [1 M. |6 k# E  G& I. s4.3 /path/to/pdf/file: 输入的源PDF路径文件名7 R1 \4 ~: X2 Y$ _1 p

    1 H8 P+ F* Z# X5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 : S& H9 N( u' ?' _: i

    ) x, D$ c; M6 @/ X7 {! K3 x目前为止PDF转纯文字的最佳办法。
    ' x$ I* O" j, j$ m7 S先写个小程序,把PDF按章节切成小的PDF。
    " @! M3 |5 `( O, _' `然后,把PDF一个个传到deepseek,让她抓取,除错,输出。# v$ Q5 o! h! d( j; J
    效果非常好。# v7 D' a* `  o# I. B
    ; @* `; s+ a% I( b
    deepseek,qwen,chatgpt 三个,deepseek是最好的。- w, u4 s1 I) J0 w" z0 K  O
    " [  r$ _- L. F
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    - X" y2 v' f9 l. d8 E而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    9 ~8 l, l4 ~. ]7 M8 e' J2 M/ N& _我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ) p" V  X+ O/ ]; p$ _# d
    - h' m$ y1 k% |API到目前为止,差强人意,不如网页版本修得干净。. h" m6 d. p1 b) p

    & O4 C' R7 w: |- C, S8 p2 Kdeepseek可以同时开四个。
    " l9 {% {( M/ \. l6 {

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    2 O1 G4 @1 l. N4 ~8 o  f
    , f0 `; q6 z8 K0 j4 K让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26! W, D/ R0 ^* Y$ X# d
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    8 t1 L, y! d1 G细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    0 g3 k" A3 e6 i5 d2 M) S细说一下,听上去很不错,多谢。
    ! V8 S9 ]1 X& ?6 }
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 5 A/ N1 W5 l/ W6 C( a

    & y% [/ v3 z; `" B# f0 J已经搞定.7 p1 ^' `1 B" o% @: u% J8 j) V0 G

    8 f4 }/ a6 v% |- X0 o* K9 u7 q- ]首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。# h) `5 q' @1 Y6 J

    : A- Z; s. O* F% t. U1, python + pypdf 按章节拆分小的PDF
    2 k" o8 l% T: B0 M( V9 F3 r! Y- B- a& @$ C5 q' E# \& i
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile7 w: @# Q( s. P6 p* V6 M$ R

    " F+ E/ }, W% c得到text file: c' _8 v9 L" I3 Y5 n6 }

    + n3 Y! W5 ]! E5 P0 e3, python 读取整个outputfile,丢给deepseek 矫正。
    $ i8 z! u4 D- B4 x& x9 B2 Y) P  X& C# u; r' n$ X. u- D# N
    模型是 deepseek-chat
    0 C8 s. V* a0 ^4 v, e/ L! ]# x1 @2 m5 k* G# J
    max_tokens 最大是 8192,别的不用改。& }3 F8 i3 r5 h" k0 N
    1 y  R# ?1 D. V- `! c! Z: w
    参考:8 S: G: ^: J  c  S& G, l: B' @7 W
    https://api-docs.deepseek.com/api/create-chat-completion
    3 E0 x- i' l/ c3 Q$ C
    ) }# |& |5 b- H0 f" q4,费用:8 ^* _2 g" }+ h9 r6 |/ e# v

    ; d4 Z& D/ X. [8 Z% Q7 T实测:
    2 W; o7 H% ~& T5 @0 w# \( ^8 V1 y/ ~- ?# q% o! v7 o  }$ g* n
    296K 字母,用了 9 美分。) u- w( r2 }# U7 |" }

    " w4 B% L  v, V! E3 q- v英文字母 到 token 用量大约 1/3" \3 |0 k3 C3 T* L! [
    - A1 M+ q" U) Y
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    . o5 F6 n' w; ^: U6 M- x* Q+ l
    # g& S4 m/ T3 q: [4 X6 u9 c* p' ]32899 个字母花费 11782 tokens,包含输入输出的 tokens. R: G3 F" |$ U& @

    9 Z& W# B2 `9 U) l价钱,非常非常便宜了。
    . ?! i* i  l/ w: H) u# x& f, O4 U' F9 s0 u0 O
    参考如下可以计算,懒得算了。# u4 U' b/ f: ]

    " Z2 [! I  e# }7 T8 y) b1 Uhttps://api-docs.deepseek.com/quick_start/pricing! o' y4 ~# S! Y2 y" Y( `, V

    ) F8 n1 k7 a: B1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    4 C# _3 W9 h5 ?# p- ]1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55; F' W; ^4 K$ U; i
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19& a! [+ `0 @) i  X

    " t7 `+ u: M% q7 b: g' u: ^5, Balance
    5 q' E& t9 F! }6 W( }/ ]" T6 b4 E  B' Z9 G6 H2 d
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    + Z) Z! l, t2 f' g1 a+ B4 {参考:
    / @% G  E1 Y' Q! Hhttps://api-docs.deepseek.com/api/get-user-balance
    $ N! p4 I: s, {  V
    ! `; M; T2 @2 r# y$ [3 l5 z" n1 K6, Models
    # C  K- g2 a9 |6 S
    ( Y7 p  W7 S- ^5 p目前就两个
    ' ]0 I+ T- W& u3 `# deepseek-chat
    # b. e( a. U" d7 X5 ^. E% E' Y# deepseek-reasoner
    ; I( V) A: W7 }0 m7 |6 _0 O$ @
    8 S& |! g5 Z0 R4 w- V参考:
    ' ~- w9 c5 r4 zhttps://api-docs.deepseek.com/api/list-models1 O2 |; L- A$ \0 x, t( A1 n

    6 b6 P. e4 F  y& Z# @2 }
    9 d* }. Z( k' l* s4 S7 w3 Y' O7, 问题; i: U3 f, h2 ]: I% ?6 {

    ( E0 D# Z6 @. Xdeepseek 会将前后两段合成一段。1 p, s# ?: h1 `2 R0 z. y6 \
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    4 X; D) [6 j- N. p2 l2 r+ s
    ' V! [: X! k1 f+ `8, 钱说了算。
    0 I7 P1 j1 Q& k
    ) m4 y: R* M& J' Ndeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    : Z( {! v& j/ j7 e9 g7 M但是API就不会出现这种情况,毕竟我们给钱了。
    " F* v* ~7 y4 _# u, e' `chatgpt也是这样的。
    5 U  Y, {2 B+ R5 C5 ^/ Z
    5 q; V: x: m) i9 l- p* J
    4 W$ w% d5 p1 h+ T

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-7-1 15:50 , Processed in 0.071473 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表