设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3126|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
  k7 |* C6 }$ v1 g4 Q* m& t$ e$ d8 n* A4 N
把PDF上传,然后让他抓取文字,并修改可能的错误。
# z, o( M* b4 v3 L3 b- {5 H然后deepseek完美的完成了任务。
5 w6 P3 t/ Q! `7 {$ C8 T0 Q段落清楚,列清楚,页眉页脚全部去掉。
4 L9 n/ `- J) V- j/ R: D1 g我要疯掉了!
# G1 G& U$ E* t2 I' C赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!! A& C. d' k+ u; ~
====
0 Z% u: q* T2 d( T& F& a7 T  ^& [中文也很完美。
& I4 b: O2 B/ `经验值,每次十页比较稳定。
  b6 U5 F. X  x, Z7 b现在我这里API还不能用,等恢复了,全自动了。% \1 W* S1 s, Z1 M# h
====
7 M5 v% i# D- X' Z/ ]第二次疯掉了!
8 K4 {* X3 t: f9 Q. K: L* ~我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
7 @2 V% U! q% H* f: ~====
2 `7 [* L0 F& x& [现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。9 v& q# I4 m5 [1 |# w# L
但是任务多了后,每次翻译的页面数是减少的。
" O! a( ?0 e$ [1 U  W好吧,我五体投地,继续探索。/ R0 c0 S) t& [5 h8 L0 p
====8 Y2 K$ R9 K0 ?. e
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
/ t3 h* n' ^3 G' Q, i====
% X- [& b: @* R% F1 B好吧,有些东西是不给翻译的,哈哈。' N6 ^5 _1 @+ D8 I
7 l8 l, R5 ]" Y* I% G3 c
Sorry, that's beyond my current scope. Let’s talk about something else.
5 x9 v. u. x8 p6 L! Y) g. {' L====5 M6 ?) }8 l, t
然后我的英文命令也让deepseek 帮我修改,呵呵。7 F' {+ k* I/ C+ W/ f3 x. P  G
====
& ?+ B3 U$ N/ p- Y) Y: S. q: M日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
2 j0 s. l. z+ t9 b0 n====/ p5 |. u( ~" [- O1 \7 _  x
时间段的话,北京时间的下午和晚上用比较好。
+ I$ u% I  T$ R/ }- O. Z  D后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。/ Y; ^% X( B. `, f
====
8 ?* B0 F; b$ v$ [用千问吧,非常稳定,非常强大。) N( {0 }" O6 G
https://chat.qwenlm.ai/2 s* A; u5 g+ p( W& g) J& g
====' v/ b; V0 v4 w
Deepseek,API 看上去可用了,但是不给充钱。
) p0 g0 X0 y* w
/ u7 k9 l8 P3 `7 F8 C( ?# L! g$ r
3 F: g; [4 @+ [  _' \. C) z" t0 C2 E/ E. l+ P# w3 y

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3797 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    + N  ~# C# d# C8 K8 L% S0 A0 A: @这功能很赞呀

    0 E+ j" X- |) K简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:139 S  c) O+ S, n
    有没有上传整本书试试

    " R; _: ^9 h  ]目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3797 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 0 V8 i6 Q4 [& `! A! V
      V4 u& R5 d; F0 X* B6 p- [9 a
    以后让deepseek 读出土的竹简0 H9 c4 C# f  {8 m
    1 F& i+ t) ?, j0 D" i
    还有把古文翻译成现代白话+ b. W8 s7 y! R2 ^! K* }) E
    ' w: z. W' c3 K$ x, {; B* V3 _
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    15 小时前
  • 签到天数: 2957 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    & v  n5 h6 b7 {- x) s7 H" e! E: b7 T0 J; h4 ]; R
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    4 A) g* ~8 e9 y$ T请教是如何实现的?
    6 \4 h2 Z- ?5 A& @8 B+ S) T
    % F* c0 f/ M( D! m5 a+ d% f我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ! k  a: g4 y# T/ n) @8 y% @

    9 _( ]8 Q" f/ s我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    + k( \: v+ T8 R  \/ f- b+ z5 p% L文字之类的没问题。估计deepseek现在暂时只保证主要功能。/ @5 E6 Y$ J1 Y* g1 b2 Y) R$ E- d
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    9 p- {' j7 b4 [3 }: S5 J- L

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23  J! Y7 K* m7 ~5 d
    请教是如何实现的?" ^0 D% i( x2 e! t; o5 z

    - ~, |1 ~2 T. f) U- v) _; C! ?我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    4 y) V0 ]0 V( k) H
    https://chat.qwenlm.ai/
    3 w8 l& A* U5 U: ~" n0 x; M! z试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ; L5 j$ {5 H! I9 N% K很稳定,质量不错,好像最多一次处理15页。
    7 c: x# F4 o5 W- O! V# o我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3067 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    4 G* U( U9 @, q. g. J3 W! N处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    ' J4 g0 `, U0 p4 H. }6 c这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。* x- A$ ]5 }% W' S0 b; y, D
    ! L5 q; O" E/ f% a! _6 y
    https://github.com/oomol-lab/pdf-craft
    7 C$ O' V& @2 J4 X: w( u  A* ]4 t3 l! N% \0 L( G: [5 q; s! P5 N& p! X
    1. 这个工具要求装 python3.10
    , }( C& ]4 b: y- E' F, ?. {- Q2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0  ^7 E1 g* M1 I" H# N
    3. pip install pdf-craft
    ( o5 _' |& J; Z; i0 H  S3 C9 V4. 把下面的内容写到一个文件里,例如 a.py
    $ l8 B# K: w; }$ i5 b0 Z0 Q2 U
    . W3 D: U) s3 y" t6 |$ T
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      " m9 G9 ]* h0 F1 u9 I( O* z, x% m

    2. & g& T8 _) g: _! @
    3. extractor = PDFPageExtractor(& o8 Q7 z" l# D) l) D
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.1 C, r7 [; {4 S0 O6 Q6 |/ Z
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed9 i" c0 H1 |* v/ j2 P* j7 l, \
    6. )
      , s- n  ^% ]0 f4 B
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:% z  F6 D% E5 I* h- Y0 S
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      ) I$ f( P6 e  [5 @2 S& U- e1 ]
    9.     md.write(block)
    复制代码
    ) P9 x$ u7 _/ y5 d

    9 @  p9 j0 @# ?' A. n- c( d要修改的内容:
    , r+ W9 n& u; K* F3 m4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型: m# L( d6 E7 p3 e& \
    4.2 markdown_path:输出的 markdown 路径文件名
    " k+ @0 n) o* l4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    5 w8 \+ d9 G% {4 J6 [
    . R6 Y6 d  q; B2 p% v; W5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    $ u( _! g; P' i# x; y: T# ~5 L
    目前为止PDF转纯文字的最佳办法。
    7 z1 N5 H: x' L先写个小程序,把PDF按章节切成小的PDF。7 p1 Z8 C# E) E
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    " Z5 i) f- l. E5 P* C: [效果非常好。
    9 b1 C$ T2 b2 L. N0 [: ]6 p1 }7 z- m3 u$ \* o
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    ; L) V/ U) q' V- a! A/ Q
    7 F1 I6 Z3 U6 K# bdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    $ E; U! [" M' Z' w$ B# i% ]0 X3 k而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    1 F; X8 j2 Z7 ]( k我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    $ N6 I9 `$ T6 a9 I! ~9 f, a- [; E- z7 P4 \, j& R# R9 n
    API到目前为止,差强人意,不如网页版本修得干净。
    ( W8 |$ C9 C  ]+ y+ }0 e, x* n1 F6 i( w0 T7 W. d* I9 @* j' ?
    deepseek可以同时开四个。2 Y5 f' M; g1 k  a6 k0 F5 s

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 & O3 z2 j+ a- C  |* {  O) Z; g! T
    9 s9 Z  d% S. |" L
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    4 b0 _4 O) f/ _让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    / O3 @8 a7 B% q( \
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33; C- u* \: ~+ C
    细说一下,听上去很不错,多谢。
    $ k& s& l. x8 E/ w% q
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑   K$ t: _. t$ S! j+ m% v
    % q7 w$ x6 Z, a3 i' n5 S( B4 A
    已经搞定.
    ) n: l/ z' h5 }
    0 N' H" l1 Y) X6 |6 h9 v! v首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。/ I* K& M, l8 [+ [

    8 X  p9 _  x" [2 ^1, python + pypdf 按章节拆分小的PDF' Q! Q' [- ~4 n* Q7 r3 e% {

    $ F$ `& C$ p$ [  b" X2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile% a! [+ P* u: P( `# V9 k7 U

    0 z4 [/ b& B7 N) m( N2 j得到text file4 Q/ d( |4 C# R3 |$ g( j. |" ]! D9 ~

    # W2 Z6 D1 R  d/ \1 q* x6 j3, python 读取整个outputfile,丢给deepseek 矫正。$ f, M6 k- @: @$ `# s0 @

    % V8 j+ J3 {# b1 q+ i1 F& x  \模型是 deepseek-chat, [3 L/ C5 T7 r7 n( o% K: S3 ~

    * z0 I6 A8 L8 hmax_tokens 最大是 8192,别的不用改。+ d, z1 F9 S2 R# J$ M5 r( ^9 ?
    * j9 z% ]# b+ I$ \) A3 ~$ X! H% S
    参考:
    1 K+ X5 T' p! @/ A  M* shttps://api-docs.deepseek.com/api/create-chat-completion
    ! a  m3 p+ z. _3 j& }, f% l, \- h3 z1 j, H* j4 b" `
    4,费用:) u/ }2 C$ ]0 P+ {) ~# r4 l/ z

    # I( G. O( R: Q2 ^实测:
    ( s3 n; i9 m+ J0 U/ o5 {9 z! c, B* A
    1 B4 J1 c8 L. |' c0 F5 \5 t  p296K 字母,用了 9 美分。3 i/ w2 d6 D! {6 |
    1 c. F2 q: Z- ?! Q+ J& d( N& k. G
    英文字母 到 token 用量大约 1/3
    / Q+ d6 ]/ M& ~0 w% L; V1 c7 e; f* X: k6 W, w* g4 v2 E- H  F6 O
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    / `/ S! \+ @' _
    . Y3 _; _2 E) C; I( G* Z7 p, _0 W* L1 I32899 个字母花费 11782 tokens,包含输入输出的 tokens- h) x5 j/ B, n& J: E. D$ \/ X

    % t9 P! Z  v8 v- Z2 e8 _价钱,非常非常便宜了。* k7 D4 G0 I9 T" P1 ^/ Y6 h( J

    5 ?. |! j& ], G+ M7 y9 l参考如下可以计算,懒得算了。
    3 @; |" Q+ W% M8 Z' j  w* p+ q+ n; j% v/ r# K- V8 J  [
    https://api-docs.deepseek.com/quick_start/pricing, n8 O. c4 b5 @( r# F) e' F9 H
    8 F  L$ x" ?  B. [, l. g1 H
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    . D" d  t. |6 \0 i1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    - @; M) @& L& m4 t/ y7 X3 b* f1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ) `7 c% f4 r# ?6 h3 D4 G) P5 \1 c. m& Z* f5 g* ?% L
    5, Balance
    3 j" W1 e+ a. l. m! j% e# u
    ; k* L) z* I' O7 N可以在程序里调用,知道每次运行结束后,balance还剩多少。
    5 |7 X/ V$ u$ W参考:
    ( E5 a. n& N1 V5 Yhttps://api-docs.deepseek.com/api/get-user-balance, t+ l, {1 ^  w

    4 L! z6 m; i. ^1 q0 g6, Models8 n4 G. q+ |& c
    6 {! J+ a. ^" E
    目前就两个. K# u+ B8 ~$ k5 u4 ~
    # deepseek-chat6 |' ^# P3 R& O$ S) G0 z
    # deepseek-reasoner
    # E/ z3 @2 j8 M8 ^8 p2 B0 E0 \; O* G2 }
    参考:; ?! @# Q9 [" e* f- w& C+ W
    https://api-docs.deepseek.com/api/list-models: k9 A5 ]2 Q8 |+ F5 S! Z+ l' Q6 v

    ' J, X" g+ Q+ k) \  o8 o
    7 i0 |5 D4 y* l0 p: y7, 问题
    $ N% u4 l7 S1 R
    , ^7 [; D, S  `deepseek 会将前后两段合成一段。0 O9 P3 |$ c" r4 I2 b" Z2 r8 q
    特别是那种大量的对话的段落,deepseek会给你合成一大段。% {1 B) }4 c) s0 s! y7 `1 E$ r
    $ Z4 [# E1 i0 b. _: P
    8, 钱说了算。
    6 m5 q# {& S' J
    0 r* i  M8 q" f# K. K0 V' Adeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    8 P6 f4 ^$ K8 }0 `8 y0 \. Q2 d/ N1 f但是API就不会出现这种情况,毕竟我们给钱了。
    - S) U( c- i7 J5 B. Ichatgpt也是这样的。
    " @$ p4 m/ H# r
    7 x3 j; w  x  Z- E8 |7 Q1 V
    1 k6 B1 v) V; z# V8 f# x  |3 w

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-27 16:05 , Processed in 0.067721 second(s), 17 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表