设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1264|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑   {- L0 ~% l; E' J6 G
! v2 z$ f& A" H7 P1 X5 b
把PDF上传,然后让他抓取文字,并修改可能的错误。
- g1 X! ^: n, i+ p1 [然后deepseek完美的完成了任务。! M: b6 }5 k$ h7 ^3 Z0 b5 C
段落清楚,列清楚,页眉页脚全部去掉。% }7 V3 ?, c1 y; K) Y) N
我要疯掉了!8 x9 X% u6 [- M) s9 K# M
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!* h- L) o# e7 s
====
3 s/ T0 ]' W5 k3 v2 a中文也很完美。: B% W* I! C' h, ]
经验值,每次十页比较稳定。& j: `5 M# R' y: z0 ~0 Z/ `
现在我这里API还不能用,等恢复了,全自动了。
) K/ S2 a* N& W' G1 t; s====
( u! R* m+ W9 ?( |: B' G, b; A第二次疯掉了!
3 d  e4 S+ n1 O% V/ a我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
: v1 B; `! A& f6 k====
3 ~/ J$ M9 u$ }8 j" J% ^现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
4 n* Z3 M2 y4 N! u% T) ~但是任务多了后,每次翻译的页面数是减少的。% f4 L: |, {" O: F  ?
好吧,我五体投地,继续探索。
- [( f) }. h; u6 W====+ U1 i& u! b' m& l
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
6 r) t0 |  h, M4 l) u% L# g$ x====6 O& a; D% W4 A! h. u" ~
好吧,有些东西是不给翻译的,哈哈。
, {) w  g' m' W% C6 g9 L$ |
. ~/ ]" b; ]- l8 ?! F% B( }/ ESorry, that's beyond my current scope. Let’s talk about something else.
, z% A" ]* D- c) m====" F/ G9 v+ i) ^6 M; B0 z
然后我的英文命令也让deepseek 帮我修改,呵呵。
% M. b$ \- X/ c====
# b; a8 C' O$ x* O日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
9 z; t7 j0 K7 K- X/ t  N+ N2 n3 s====. e1 K: }7 o9 u5 I' F
时间段的话,北京时间的下午和晚上用比较好。
9 |0 g' \; E8 X( O; N8 y7 }后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。8 ?% z9 t2 J6 [' e% E* D
====' N; [5 a9 {5 u+ ~
用千问吧,非常稳定,非常强大。
4 z3 y$ y% t! F8 x- C  ~7 }https://chat.qwenlm.ai/: B: m% ~( A) H' {
====) A5 |. n6 p3 G# S9 ~/ }- O$ x2 s
Deepseek,API 看上去可用了,但是不给充钱。
- I5 r7 \& F& W  H. t
1 h  N4 z8 @& Q+ v0 x" O- G; b' u4 |8 g! L* o6 Y/ ^0 K1 B
0 l4 y. S% a! \1 \, ]$ W# a

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3459 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:530 ]4 W) i% T7 A1 f8 Z
    这功能很赞呀

    8 z5 A" a3 G% c1 S4 a( i" Q简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    , d3 }- k2 X% ^4 @) ]; \9 G* p: V有没有上传整本书试试
    * T) i9 B) Y9 Z- j7 k* c3 C& \+ E
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3459 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 ) D6 e+ Y# Q. }8 V/ u+ U1 \
    3 L+ G3 M" p! d/ o3 V
    以后让deepseek 读出土的竹简, Z7 B- T1 s' j4 m

    , H! A) L5 Z& N: y% y) D还有把古文翻译成现代白话
    * u8 i7 m- @) h- L* e9 t7 {' D/ f
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    9 小时前
  • 签到天数: 2612 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    # q. F5 E9 W1 E  a' Z" I
    2 X; D; \6 T. T3 K8 A! b我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23! Q& M3 H9 g) V+ L
    请教是如何实现的?/ r  P7 m' T6 }2 G7 b
    ) l2 V1 L0 g8 v: w1 `# M5 X5 _
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    / ?7 J1 X8 H+ v* t  i4 a

    , o3 \7 {% {+ G' T+ i我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。' Y1 i( P+ K) w8 @- m: z
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。; C) x, a5 F4 c& ~5 B# `( D: u
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    & j2 A% z5 h! P

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:234 @9 Y5 G2 z& W; R: P; ^
    请教是如何实现的?
    4 P3 i- q" ?% h; k8 m4 z
    & s' }% P& h( c  r; ~* u% [7 `我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    6 j: e- `) ^5 @8 C9 d0 j$ khttps://chat.qwenlm.ai/
    ! u$ ?6 j- r4 _# H8 k, y, w9 D, p- A试一下千问,估计美国人没有攻击他,所以资源敞开用。# B! R- C# e& h7 {$ k
    很稳定,质量不错,好像最多一次处理15页。
    ; ~) U% S/ B* `6 e我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 2751 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
      Z* O  u9 Y( ^7 D处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。8 v! K$ t' H7 S3 N5 [" K
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。! G5 |  T/ g! x  F
    ! G2 `. Q9 R% X
    https://github.com/oomol-lab/pdf-craft
    1 x4 X7 M  f% q( @. N4 R( Z  H& Q( H
    1. 这个工具要求装 python3.10
    ) {' u; a" ]& u- g/ Q7 [0 @. l! o2 R- G2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    / Z( ]; K: u. C8 h: c3. pip install pdf-craft
    % \5 Z: G8 x0 B% A) i, a# X4. 把下面的内容写到一个文件里,例如 a.py
    ' w0 U: c  e! @0 }5 k0 ]. g( k( H: U# ?. [9 k0 i) P
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter: F$ ^$ u" T; L- A$ Y* d

    2. 5 n- r' Z( X4 q' N4 E1 w
    3. extractor = PDFPageExtractor(" Z- L  U; p8 t- r1 k
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.4 G: F5 }4 z1 {; [1 o. m
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      / t! x) N5 E! K# x, F( m' X
    6. ); p2 {- e0 L4 U' x( r
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      * W( V" T# Y: E. ~8 {% o4 m. [6 ^, q6 N
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):0 h9 r/ e: R# ~% C/ E& {# W; C
    9.     md.write(block)
    复制代码
    " n: p. M% b7 w/ W) u

    " H. @1 F6 |& r  u8 A9 ^0 p1 X要修改的内容:
    4 |" s( z9 x0 @' y; |" Q( R4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型0 o4 O2 u( [6 O* \) }  i- w" C2 p
    4.2 markdown_path:输出的 markdown 路径文件名: _6 K$ l0 {2 W- G4 ~$ W( L
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ) v  O8 x1 p3 t; Y# N! ^. R- H( `# b1 z3 _- v9 |; e
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    9 g, \5 u$ }0 ^: _' d  m
      ?, ^! W) q* }2 b4 I目前为止PDF转纯文字的最佳办法。
    6 N/ Y1 `% M- X- q; b1 H0 S先写个小程序,把PDF按章节切成小的PDF。* r8 D. O0 t" i
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    9 ~! R+ D8 P. I1 t效果非常好。
    : C; F; x, X3 P, M4 |' N8 @4 k6 X7 j6 i
    deepseek,qwen,chatgpt 三个,deepseek是最好的。' q2 C, `4 o6 J

    ( K' ~% z% D  j( fdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    0 |7 \  O  s: |! o/ z# @而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    6 ]; w$ y; O# Y1 r我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    % |7 F3 {0 T9 p5 l/ I" O- B; S) U; X# _
    API到目前为止,差强人意,不如网页版本修得干净。" |+ E) A8 ~5 H0 Z9 S5 I" i

    ' J* C" k) M/ \8 O# c7 Bdeepseek可以同时开四个。. s5 M& O# k  w

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ) |& n( o; X% o/ J
    + y0 N0 c" e' D" M! P9 }
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    8 w- S9 F& f' n让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    , g0 U* Z8 o# @4 J, `/ ~: s0 D细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33' U2 C( K" |) p6 p0 L
    细说一下,听上去很不错,多谢。

    / z+ D  [  q+ U' t( K5 ^8 @) h2 y直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 + e8 }( P5 |) }* `6 }9 u8 k, ~

    & m* U9 [9 ^8 B. e8 H已经搞定./ k2 i, v6 {) Y# @5 V2 _* h- u
    3 y$ ?: z$ K0 U1 d
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- l1 x" p9 n4 J  D! x
    * o; ?) r% O- B& ~" ]
    1, python + pypdf 按章节拆分小的PDF, h; C6 b& A7 B6 ]  r; ~+ [
    - F3 N* W+ M- e
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    / F' i; z  q6 Y9 S
    + y0 b, |* X' Q得到text file7 r( o3 `0 J/ E/ D: I0 g2 [- V

    0 D/ d0 F2 [& v& Y6 _3, python 读取整个outputfile,丢给deepseek 矫正。) ?0 L* q. H7 a. U8 N& p

    4 c+ z- d9 V% k8 J模型是 deepseek-chat
    ( G) y$ f: [" g
    0 r4 _9 I, q/ k( A! U) b/ l' qmax_tokens 最大是 8192,别的不用改。5 f; G, y, G, o# Q7 k
    : z) n) r9 o! s9 R+ `
    参考:
    3 _: Q3 {0 n( Q* x9 _$ U- Ohttps://api-docs.deepseek.com/api/create-chat-completion
    8 ]+ A. ^" Z* u. n3 b6 }3 @# z( Y. z8 r
    4,费用:* A0 m5 A/ x4 I
    3 m2 D( `" g; A% Z- V
    实测:
    0 i: U" _+ Z/ N
    ) [" L$ X5 g" M) n. E& f$ e) |296K 字母,用了 9 美分。
    + Q  |( v* G0 L+ O! A1 x, F- a
    英文字母 到 token 用量大约 1/3% e0 D. Y. p( a% t( l; l
    ) l- i; O$ X! }+ P
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899, F* P$ c  U9 h3 r/ ^

    0 ~5 Y1 @7 b+ ?9 b32899 个字母花费 11782 tokens,包含输入输出的 tokens/ d! Z( G% C% p

    2 y) B% ^, y3 L1 [8 Q价钱,非常非常便宜了。
    ! v# U- R, _  B9 k9 N- m; y* H$ d3 f" k; E7 @6 U9 A
    参考如下可以计算,懒得算了。
      C0 [( w' B, W* \) G) V
    + _. D  n; A0 M" u9 W  khttps://api-docs.deepseek.com/quick_start/pricing2 O) y+ J0 ^3 j6 ]. r" ^4 n  X( U

    " Q' j; A2 x% C* ?0 X" _1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14) ]. O% _- ~& B: N- E* c
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55* ]& s/ z' z. a/ G' N
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    * n+ r: @2 W# g4 E+ }/ G% t5 ^" S2 M
    5, Balance
    $ q* t. Q. C) }9 I& g! R2 w; y, I4 p; ?! `) F/ X2 h
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
      e8 X, h2 t: c. r2 `6 Q( k" |( B参考:& n5 r' c5 M5 K' q
    https://api-docs.deepseek.com/api/get-user-balance& V, g; y; c$ P9 T

    . `+ F9 G4 I5 ]& J: f3 A5 B6, Models9 e1 j, ?; p& ]" f$ G" R+ N
    9 m- v% {" ^( |8 \# }9 \9 u
    目前就两个
    2 k, Y! R. X/ s# deepseek-chat" J% J( l3 b7 R/ [
    # deepseek-reasoner7 H* x4 N6 t% Z$ Z, g
    7 Z# R* r2 b$ t! j1 t+ E6 O' C
    参考:
    / j  {1 h* q6 P# r: [6 J3 ]- K5 rhttps://api-docs.deepseek.com/api/list-models
    1 V( u+ D( y& w+ W' T8 X  [
    / q& |0 C) e4 t) Q3 `+ s- G! [0 y3 s8 K1 J- X
    7, 问题
    * P6 y! I8 h( A* U4 K9 {$ K0 E" `  U) G# q, E* a: g6 ~2 Q2 m
    deepseek 会将前后两段合成一段。& [6 l2 j" m& ?1 A
    特别是那种大量的对话的段落,deepseek会给你合成一大段。: R9 i" g; ~0 d  R+ i
    # d7 P( Y' h7 o7 X- v: _
    8, 钱说了算。/ ^/ X" S9 k) D2 j
    # h7 T0 r' R( G: X! k: U
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。) @5 k# r" K& L" R, h8 K' q" Z
    但是API就不会出现这种情况,毕竟我们给钱了。
    / F3 o" f" q0 p: ]8 L" wchatgpt也是这样的。
    3 j' K6 Q9 o+ C5 i2 K
    2 L' q4 D. E- P2 v/ R5 P6 U; a) K1 z
    & X1 y- r1 E! w6 `

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-5-24 11:10 , Processed in 0.042737 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表