设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1965|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
* `2 I7 Q, K' M5 K- l- K/ P0 h' C. H2 u" l# t9 i( |
把PDF上传,然后让他抓取文字,并修改可能的错误。* q6 O* x6 ^, b/ Q- K) k
然后deepseek完美的完成了任务。5 `9 s6 J6 l5 {/ u' |6 d
段落清楚,列清楚,页眉页脚全部去掉。
+ U' ?  R) F9 b, [5 {6 X) v" r我要疯掉了!
& E9 `. g2 y" R8 Y" \, t7 O9 e赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!' F% O6 z$ _5 n
====6 C. o4 L& D. C
中文也很完美。  _" a! ]; A$ \5 r
经验值,每次十页比较稳定。
2 z8 [: h0 ~7 v& x0 H; A现在我这里API还不能用,等恢复了,全自动了。
4 v& M7 K4 f! X" M  s( U! Z====
* L" {" D! e: ^. M2 B第二次疯掉了!+ G- Q( n2 I; b( N" }  D
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
# `- `) z' }0 T0 O. q/ W9 h====
8 D8 r& t& n- u2 t  W+ ^+ O现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
# n8 Q( A* k- N1 N5 v4 B( c但是任务多了后,每次翻译的页面数是减少的。! P0 \; Y$ _$ _# K9 C
好吧,我五体投地,继续探索。
5 X8 V. t6 j2 Z' s/ |$ q: E# @====
) p  k  J" V9 _为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。* |+ u  X5 _- E/ b
====+ r& {1 `3 h, j- E' e. |
好吧,有些东西是不给翻译的,哈哈。
# n" k7 n  j! _+ Y2 X+ V& F
' a: i* d, o2 k6 ^7 W& ?+ z) USorry, that's beyond my current scope. Let’s talk about something else.
4 s8 {4 `' @9 h  P====
3 v9 e& U* o9 y/ [6 J# Z7 P然后我的英文命令也让deepseek 帮我修改,呵呵。
' @6 @9 o" m: V& j1 ~====
) n" n7 T2 q: A  q* p! S$ a& {' R日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。7 A. R  v1 j. `' w6 Z6 M
====0 F/ _! l& x( Z7 y; J
时间段的话,北京时间的下午和晚上用比较好。
% m. ?0 ?' e$ k/ e. O. h* c# c后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
) o0 f' p5 ~# X* Q, `  M====2 x# \0 z; Y( _1 U7 K6 r5 U
用千问吧,非常稳定,非常强大。- Z3 W& N6 |# k. R
https://chat.qwenlm.ai/
# z' l0 f' C- V8 ^6 z6 r- p" v====/ k" K  F; m$ @1 Q' z- ?% V' U
Deepseek,API 看上去可用了,但是不给充钱。
/ f+ C( h/ C2 I+ W! p' @. N
* X! |; Z) b  j
) b9 ~/ f. |, N+ @& c8 l6 D
1 S  i5 I6 _# o4 E0 T

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3576 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53: w5 Y2 |2 b! p) Z7 W
    这功能很赞呀

    8 p' v" x0 S+ t0 u9 f6 t* c3 B: z简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13# `: t: }2 A- ?( i& q$ k
    有没有上传整本书试试
    + O( P& z( }7 v) v  x% W9 i% j
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3576 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 7 |8 c8 n, Y5 ?$ N5 N

    ( ~8 K( O) }& a以后让deepseek 读出土的竹简. \/ E' r# c) ^! q" t
    , M$ R$ a+ @* @- R7 b" b4 |
    还有把古文翻译成现代白话" ~# z: O1 r# Z. d+ {! V

    $ q% q2 p, E  @2 w( `; e以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 06:41
  • 签到天数: 2724 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    & E) Y) t! z& f5 j/ ^7 s
    ! o! k6 @( L: P+ c8 d" E5 c* U我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    + z4 T* H! J; b# Z4 _6 c请教是如何实现的?& J( J) u: z- f9 D* J% _2 J
    ' y; H0 h  v8 W2 y
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    0 `- y3 C9 K3 n& c- q0 |0 V

      @, ]4 t4 M' I6 _& H我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    1 ?( k5 N  _1 [/ r文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ; L5 i6 x& w( A# N% P美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    " h6 P4 A$ o  G4 v+ h- F; t

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    - r% t) d' x* b请教是如何实现的?0 i! s7 D  e- v) }) i, u

    % U% B" R2 S8 F' k1 B我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    , J0 p4 n8 l: b' n" C& A) k, Mhttps://chat.qwenlm.ai/! a( s# L% h5 W3 I/ e( I5 t
    试一下千问,估计美国人没有攻击他,所以资源敞开用。- g9 O* P! @2 b1 O& @
    很稳定,质量不错,好像最多一次处理15页。
    & b1 {- U& ~) }8 S: o* L我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 2858 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    * k' h2 Y6 U7 w- K/ c: X处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。% E' {7 c6 M. P1 o& V
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
      N1 S, h& k$ `0 K5 s- H* ~* O8 S3 x& k& v" e  A! W* E
    https://github.com/oomol-lab/pdf-craft% c. `, W8 Z8 |" W' d6 j  P0 R9 g# l
    : a' P1 ]: P1 A$ c3 ~
    1. 这个工具要求装 python3.10
    4 L$ b' f, Q# `1 U1 O- @0 ?- A2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    ' v' [! D( W4 d1 L# _3. pip install pdf-craft
    # S3 S, M" f0 \( F. P4. 把下面的内容写到一个文件里,例如 a.py
    + Y! y: _3 E7 [, R, ]3 O4 ^5 B: W# A2 N6 C& G  G
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter& A2 _. I5 H' z4 G9 n# h

    2. 2 g/ v' \+ Y2 T; O/ U  W5 Z
    3. extractor = PDFPageExtractor(
      ; P2 e& B2 c# T
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.' v' G5 f/ Y! N. h) N
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed: }; y" C0 f  i8 X4 m
    6. )/ L! @1 y; l' a2 Z! J* p
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:  |2 C! `1 C% ^* C: L8 n5 w9 k
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):% O+ ?5 x! H* g7 [" [1 `- e, J$ ^
    9.     md.write(block)
    复制代码
    6 s, i; ?: m: a6 k* F

    - f* \. b+ t/ z, N& y要修改的内容:2 S& _+ O, f" o
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型3 E0 t7 _, N0 T+ g5 d
    4.2 markdown_path:输出的 markdown 路径文件名% j8 [- Y  }! p; u/ ?; p
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ( A/ Y- T3 X) k! o" u6 y8 V9 e
    # z, e: d% @- X  [: o1 G/ Q5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    6 J8 f6 N/ V) B+ ~  a; i5 I# R  i' @- j" e8 h" f- L
    目前为止PDF转纯文字的最佳办法。
    6 Z5 U9 O+ u$ T7 C4 V1 G- @0 C先写个小程序,把PDF按章节切成小的PDF。% A7 _" `. A% v; y) ?* e
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。4 `% ^* u9 d- P  F$ M
    效果非常好。
    . W6 i3 ]8 }, S0 h* ?: v
    0 i! P" D- V+ T- h6 U0 Bdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    2 p6 w% X0 V) w  ?' K
    0 z/ S; [+ _$ E8 t$ Rdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。/ b8 e( i1 p9 Q0 E9 _
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    8 V6 {1 ?2 ^1 g我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    # U$ }2 U0 Z; c) N# ]3 P+ {6 Y* m2 @* [$ i; O
    API到目前为止,差强人意,不如网页版本修得干净。8 P- `; R# R+ d0 V
    9 Y. a3 [% h2 d7 G$ s
    deepseek可以同时开四个。; t2 N4 f" O. S! A/ c

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    / U2 {' q3 m9 p9 j- N5 [4 x+ a  ]
    % S5 B$ Q( e4 r! d" y% C% |+ Y# f让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    & x2 K& }1 _9 K: E% m8 o8 O; s; }让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    8 @! r- |) O! H; O* y细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33+ g9 ^: ~: r. j7 S: u5 p8 S2 F
    细说一下,听上去很不错,多谢。

      R8 H9 b0 n5 N( Y; a直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    7 Y+ M+ G( ?+ ^  Q
    ! x, o& B- }2 s+ H6 l已经搞定." A; w, V$ g, S2 E
    , i, F# e6 g1 w
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    $ {4 Q2 F- e. Z, D  b
    . ]( W3 ?: D* P, L2 m: ^/ ?1, python + pypdf 按章节拆分小的PDF5 h" y# Z- I% L$ f

    6 Z" \, M( n6 }6 Z2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile: |# d/ g" ~3 b( e+ S' p2 g! t

    ' r- Y" n% o+ Y; I6 O* i得到text file
    + n+ d5 U7 }, v
    ; V6 Q5 p% |# L' Q7 b3, python 读取整个outputfile,丢给deepseek 矫正。% U$ n& s* T3 g2 V: r  R
    9 [1 d& ]. J! |( j' A8 q
    模型是 deepseek-chat
    $ U: K9 [1 E5 L# H- m# Z+ w2 g
    7 E& e- @& y* p/ i( x# @# O' _max_tokens 最大是 8192,别的不用改。
    / z: O2 L% Y/ \& U
    ( m) n& ?! p4 g' R1 }  Q参考:) [8 q/ k3 @" p2 W
    https://api-docs.deepseek.com/api/create-chat-completion
      l# `# q4 U8 @: k3 g9 X: Y5 ~' v5 F( }; a4 Z+ z. b
    4,费用:+ {7 S7 b  X! L
      G  W* p2 p) r0 \4 [
    实测:  N8 x) `4 U6 u0 D9 `" [2 x+ t
    ) P: W! q& T7 @# l
    296K 字母,用了 9 美分。: a4 [0 x) n8 v& k# V; _# c. J0 `4 R& m
    $ B# c6 V* N/ o& C0 b
    英文字母 到 token 用量大约 1/3
    * e" S( g9 A4 ?  A, `3 w  F; V- E$ H% x/ u; F& d- f
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    , J5 _9 w6 a; Q& Q1 g: Y4 @7 R/ n2 v: g9 U4 a4 p
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    5 t9 S( ~5 H  s$ Z  o
    - C8 J8 D6 b3 ]9 l2 }价钱,非常非常便宜了。0 S& m  C3 N1 P' V
      W) e3 O) G9 m6 c$ H+ j
    参考如下可以计算,懒得算了。
    2 f5 W" z( n! o2 }7 s0 ]5 I# C8 q& N- E9 I7 u; `
    https://api-docs.deepseek.com/quick_start/pricing5 n$ a# u) ^3 A- A- q. O: w
    2 [6 @1 d5 t" R# n' T" C
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    6 ?5 h  z: o4 j* E+ |9 o+ H1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55, c8 c! M! r) w0 E
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    * P8 C4 |1 [, F9 h8 M  _$ d# t$ V9 X8 @# f
    5, Balance& a" O) e) u% S2 V) U( {
    - D. D5 q9 y! t4 f) a- A" v
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    " }, q# c' i, O参考:- Z2 j! c0 R% s7 R# I* s
    https://api-docs.deepseek.com/api/get-user-balance6 Z& v' Y  ?# y3 e
    ) ^  q+ R/ B/ t5 B
    6, Models+ g" H8 m1 Y7 E% ^; ^8 Z  \6 Y
    7 |( V9 B! t4 @
    目前就两个; ]2 }. B$ H' w8 I3 G# N4 B
    # deepseek-chat
    ) N1 U7 T1 |, K- J# deepseek-reasoner
    3 _2 i- E% z1 c& Z  Y5 a$ ^- @, N% R  f" P1 n% N6 G
    参考:
    , t3 h4 W3 ]  O8 ~https://api-docs.deepseek.com/api/list-models
    0 ?2 @1 }# o4 m  g# z9 a; r1 w% A6 T# K7 {9 a: f

    ' z. q. E  k, o; Q9 T1 v. p7, 问题, {4 \" ]# N* l" x. c) h$ c+ ?

    : Q; K$ }; |5 R& f* S& @# m8 `' Zdeepseek 会将前后两段合成一段。
    : ?9 G/ l6 u2 k6 {6 q特别是那种大量的对话的段落,deepseek会给你合成一大段。
    : p6 F; [4 \( ~' \" U2 b+ S% G  O. g3 S
    8, 钱说了算。
    5 K9 {5 e( @  }3 m. Q' H. D4 S- P! L$ C$ u& I1 Z
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    + K( o( M5 U$ l7 x8 D' {+ ~7 \! g但是API就不会出现这种情况,毕竟我们给钱了。
    , |8 \( j* \; ?chatgpt也是这样的。
    & \% k9 V8 C& n$ u! a$ j+ X0 y0 }$ f& F. k1 b
    $ b7 J- G: p# I: [$ ]+ X! }  {4 H' E

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-9-17 22:51 , Processed in 0.044597 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表