设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1903|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
* _, j  m( W8 v3 }% L) |0 e/ i5 S9 L' S" i5 o5 o7 }8 G
把PDF上传,然后让他抓取文字,并修改可能的错误。9 Q" B/ l! ?9 M! n- w7 t
然后deepseek完美的完成了任务。
2 {/ N0 D7 s0 c( Z段落清楚,列清楚,页眉页脚全部去掉。
7 O7 s7 G! z) f" N' ~我要疯掉了!) c5 k' w. d' s' y
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
' y( Z. m, [* ?' B/ p====1 n  v$ j% ~& o2 E; o9 ^$ i
中文也很完美。
5 N9 Z3 K3 S% z- i经验值,每次十页比较稳定。( R# N3 J: b5 q' m. K9 \) u6 }' x5 f
现在我这里API还不能用,等恢复了,全自动了。- u) N* }0 B# j* {' U" u' F1 k% ^1 J
====' \& b. ]! B2 Q4 L: P+ K
第二次疯掉了!
$ b6 c! o0 Y1 _8 p# K& g4 ?我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
3 }8 y# B; e9 S0 Z: S6 x====1 g* e8 s$ {4 U* Y: y- L5 C
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
% n8 k  d# B) [0 Z: q但是任务多了后,每次翻译的页面数是减少的。
# e6 i3 X. q9 P/ }, B1 h" S- y好吧,我五体投地,继续探索。
- P: o0 ?: s1 O- P9 E====3 K+ Z% H  ^; B7 I6 J' Q
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。: ^5 T. x& d, E! N) ^, _: K
====" s2 X$ U, i3 @
好吧,有些东西是不给翻译的,哈哈。
# ~$ n4 x/ v: w2 C+ F, Z8 Q) K9 C7 @& i1 [* t* P) k
Sorry, that's beyond my current scope. Let’s talk about something else.
2 f- e- K/ q( \7 Y4 ^====- \- r1 _/ w: W
然后我的英文命令也让deepseek 帮我修改,呵呵。
: R( d3 J# N/ `* N====$ ?8 T+ N' Q. }/ h, ~1 a+ j
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。' N# c4 P/ o9 T4 s" m3 `7 K
====
6 _/ G! @- m% U* T) C时间段的话,北京时间的下午和晚上用比较好。' L. u6 k/ b! M1 y' o' a( e
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
. `8 Z8 W1 e/ S( y9 e====5 k' _( q9 _: D/ E* r& y+ |  g) x0 M
用千问吧,非常稳定,非常强大。
* `9 q  Q+ H4 W: ^https://chat.qwenlm.ai/2 z% G; C- \! y3 U. S5 u$ h; Q% \
====+ ]6 l& t- h# l
Deepseek,API 看上去可用了,但是不给充钱。" q: A! }3 |# l9 E2 {( \+ y

. I% B( ?( z- O3 x
* Q+ ]7 L  b4 ^5 z% v0 \! c, r; B2 Y9 Y* U: l) A

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 3567 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:532 h: F% s/ F6 g6 l" M7 ~6 c! x! r
    这功能很赞呀
    . F/ C. \7 d# T1 v9 c' O9 B
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:136 L+ U* w! |* i) ~4 z' T
    有没有上传整本书试试
    " W% U- u. I  i) `/ v
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 3567 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
      N5 k5 V$ @. r* |" K2 K& l
    2 y) W! t* z" v6 o以后让deepseek 读出土的竹简
    2 A9 _, b- j2 B2 S& M
    ) w8 h5 V6 N5 _7 B# B. H还有把古文翻译成现代白话8 C  x, q% Z" _' Z9 V- D
    & F/ T, [' v$ ^* N/ G3 c
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    12 小时前
  • 签到天数: 2716 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    2 A- D* _$ {8 k8 G  L
    % |- E! [# M( i, P我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23' g: p0 l/ _3 L0 b  d& x0 g
    请教是如何实现的?
    . T9 n( i* _1 W: @' ?  x# A; `0 |6 B/ E- q1 j- j" |% ^
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    7 j3 L' q$ j. A8 o  `; b
    . S  S0 W6 q$ i& o8 G) b我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。) p& u9 p9 K( o, V0 j3 [2 G
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
      u8 b7 ~# J5 I& m3 A2 }* p; J美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。0 ?% V$ {9 Y! ?$ z* v3 f# l( r# u! ]

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    8 [2 i3 ~, _0 |# Z: Z3 ~请教是如何实现的?
    + A, y7 S& Z: [/ H  C8 Z( f; e: B& A
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    : z+ R9 y; J7 w  S; a4 a
    https://chat.qwenlm.ai/
    $ f) n# D, H+ E) o& b试一下千问,估计美国人没有攻击他,所以资源敞开用。) |$ }: @: g4 j9 X8 t. E
    很稳定,质量不错,好像最多一次处理15页。
    9 ^. E! ]. ~, C0 U  {' F我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    昨天 00:02
  • 签到天数: 2850 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    : t5 ]% @$ @1 H  k处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。; \% J$ @3 W: Y* r
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。6 j+ r/ r, G/ n# r4 s

    6 P) \/ a9 B0 ?* ]4 `5 M/ _2 D5 ^3 Qhttps://github.com/oomol-lab/pdf-craft
    : e' J9 j4 g+ \* V! c6 V5 {
    6 }& V+ d9 v7 O9 L. g1. 这个工具要求装 python3.103 N6 g8 k& M0 k4 P- B
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    * @6 Y- b' w6 P; Y3. pip install pdf-craft
    : J, p0 R2 N2 v% a/ u4. 把下面的内容写到一个文件里,例如 a.py
    2 K1 d, ]' C) I+ m
    0 j" F8 s. T* {  V$ s! a0 Q3 m+ V
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      : Q4 o8 ~* B2 V6 H/ k! g
    2. 4 j7 e' k) Y9 d4 o# E% O
    3. extractor = PDFPageExtractor(5 q5 e+ D" B3 g6 T
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ! C. G& T6 ^4 a1 u
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      3 }2 C3 H: j) I0 v
    6. )! u9 y" R9 H# ]8 T
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:: y$ Z: I2 e+ m
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):. t" a4 B5 P$ \+ Y2 ~9 O# V
    9.     md.write(block)
    复制代码
    # c% y4 A% P3 m; ?3 f% H
    2 F/ S/ u8 v) K: Q& _9 N
    要修改的内容:/ P8 ?* x$ S/ ]( D( P, c" x/ a5 n
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型. j1 D6 A3 q- S: `
    4.2 markdown_path:输出的 markdown 路径文件名9 ]! e# g& J9 D  E+ K7 ~
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名" B. l" c& ?8 P8 K  @
    6 G9 e; p6 u* m6 E/ h. t! j; N4 W
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
      n& @7 n9 z$ i* Q( P2 N* J& T6 O7 P* ~4 i: p
    目前为止PDF转纯文字的最佳办法。
    ! z( ~  e! |0 M3 c8 U! d8 a0 r先写个小程序,把PDF按章节切成小的PDF。
    0 p/ \* G. f% D, Q( v- R然后,把PDF一个个传到deepseek,让她抓取,除错,输出。" s9 Z- }5 s; H; |
    效果非常好。( x, p9 ]5 m+ v& }! q# P, M9 S1 F

      s2 M6 R8 C/ g( B3 k5 d/ n) `deepseek,qwen,chatgpt 三个,deepseek是最好的。
    4 K3 N) \3 M: G3 L* |3 x' u$ w9 N1 g' M4 Q3 ~7 D6 q
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。/ G' F9 T. ^+ p4 r
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。) W2 ]% v+ H) g! M  J1 m  d+ t
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    & T4 v6 [# s8 R, d7 a9 H1 z. N+ ]( n. _4 l8 d! \/ ~3 m
    API到目前为止,差强人意,不如网页版本修得干净。& R1 [. V9 `+ g: {* S
    * Q, r/ A3 z0 l/ g
    deepseek可以同时开四个。
    , p1 J4 X3 C! B# E+ d# i% {

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 $ y3 {9 e# e, V

    * U" t* e# F. i$ n  Z3 n让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:264 ~3 c  ]! v, Z: E* @* o+ A* j8 s
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ' H$ p6 z, s& r; W7 X3 G. u8 d. u) @细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
      Z; T) U& {/ i6 o8 r细说一下,听上去很不错,多谢。

      z9 ]5 j* Q6 V1 F直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 , S7 N8 Q$ L- ]1 p
    * I0 G0 G3 ^  x1 H: O" g
    已经搞定.6 m5 v% l% W1 [+ U' {3 h

    + A2 a8 j1 c: d6 m$ G7 p首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。4 g" W) [0 T) Y9 X$ e3 X+ `
    7 A1 M- W, ^7 f0 D2 d
    1, python + pypdf 按章节拆分小的PDF
    8 X! Q: j0 x/ c4 t( D/ Y2 R
    - l% w, H! c5 M+ v) ~& h; h2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile) g+ T+ j9 x& N3 f! d2 s
    % Z. b) E$ |( [, ?9 U$ L3 Z
    得到text file  v* `/ U! I% f3 Z. Q5 ]# P/ B
    ' `: u. u( a8 C+ }1 t" i
    3, python 读取整个outputfile,丢给deepseek 矫正。) t1 G$ n& E" @8 J
    5 l) B) H" c# x
    模型是 deepseek-chat& h" Z$ K8 n# R7 s

    6 S6 D9 ?9 m* Y8 `, Bmax_tokens 最大是 8192,别的不用改。
    4 S' V  j( s, X
    4 f) D/ u' ~( g, P参考:# ~7 M: e! e3 S( G' K
    https://api-docs.deepseek.com/api/create-chat-completion
    9 b! ?4 K! Y4 @$ d  j
    . O) n7 Z  O) @  t4,费用:
    5 b" R5 A, Z: m: V! A+ z$ E0 x9 f* T9 h5 z) i
    实测:/ ]& e; q# X7 A$ }

    4 f# Y/ M- L1 v2 T% c2 y2 i3 h296K 字母,用了 9 美分。! e, T* N: b1 D: U2 e
    9 b- w: q, L  l) I+ m# L
    英文字母 到 token 用量大约 1/33 s0 b$ c: o9 v) l9 o4 j& Q, b

    % U6 I& W0 b; r* U. stokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899& e' ?# c0 g  z$ R7 g+ e4 r

      @# X  n% |9 ?1 j* T* U7 S$ o32899 个字母花费 11782 tokens,包含输入输出的 tokens" ?  P1 g$ c3 }

    1 z  |; V& T& A' U价钱,非常非常便宜了。: b8 l% P* S8 J5 F# ^

    * M0 x# l! O/ w2 @参考如下可以计算,懒得算了。! @$ r, U% L0 N' m0 ]# v" y
    # d3 _" @& L. F3 a" R5 |
    https://api-docs.deepseek.com/quick_start/pricing& f# g! W+ f1 I7 U% G! ~3 ~
    1 P" C. B( s2 ], q, z/ x
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.146 l. ]; B' x- ]4 b& b
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55- f6 s" K: a' Q/ d) A
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    + S# a3 c& u, z# {$ b3 ]9 |( a6 n6 b; Z* j1 J$ a, I& w
    5, Balance
    - C( b) G' |- K; [$ I+ y: ^7 X: y5 ~% n
    可以在程序里调用,知道每次运行结束后,balance还剩多少。& z# C- L) v* t5 Q! M
    参考:
    . s; j' L5 |, y5 ~3 \+ Uhttps://api-docs.deepseek.com/api/get-user-balance0 z3 @3 O, \* x$ x- w) Z8 T6 ~( _9 Q

    9 ]8 e0 O  }; h/ j/ c: `2 W6, Models
    . x+ i0 x; s; n, y  r
    7 _, `; w) ]5 r! j  V目前就两个
    3 ~* P. I! K2 L5 S9 c5 q# deepseek-chat3 U4 k8 H; d2 z& N
    # deepseek-reasoner
    2 E2 W1 D8 e' _7 f* e4 S: o6 F: Z; S% T7 g8 D4 `: E
    参考:
    + L/ f% ]4 H/ G6 R9 z1 `# vhttps://api-docs.deepseek.com/api/list-models; }5 w9 D! P7 {% O4 t/ `
    $ r4 _3 T0 M0 U) b/ c$ a

    ! `3 I& h/ ?& P1 m) J5 e7, 问题) Z' i, y  _$ k7 m
    + A; r: C- `, h- B/ \5 h( P
    deepseek 会将前后两段合成一段。
    0 L0 |) |. w4 C. }特别是那种大量的对话的段落,deepseek会给你合成一大段。
    6 s- i- @( I/ S5 I; |& R2 o$ j7 X5 |1 e8 D, v6 ?, U
    8, 钱说了算。
    3 x# G$ X; ]. T+ P& G
    % W3 u, d9 T5 ^! Zdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。4 `  r( t7 U' ?- Y
    但是API就不会出现这种情况,毕竟我们给钱了。
    4 O7 u& H. F2 e4 F- k! ychatgpt也是这样的。( t6 \) A" j5 U) P. \, \
    2 X6 C  \4 p9 n' r% C5 k6 K
    / h4 G, g0 M' R- ~8 f/ b# i+ P8 [+ t

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-9-8 18:39 , Processed in 0.043087 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表