设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2869|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
, x9 k( p5 Q$ A% W1 v
  c1 {" {5 C% B% L把PDF上传,然后让他抓取文字,并修改可能的错误。
2 h% n, J0 a4 }: e6 [然后deepseek完美的完成了任务。+ p( ?) `2 O, p: `/ c5 K
段落清楚,列清楚,页眉页脚全部去掉。& _+ A1 s1 j: L. d7 Z% h8 N8 r
我要疯掉了!
8 T5 T! l9 e' T3 v赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!# O9 q6 P0 C9 z' P# {
====
$ `' d- \4 e: P, l: x2 E' f2 H中文也很完美。% e# t+ Q- K9 h# [9 I
经验值,每次十页比较稳定。8 X9 L7 X. r, Z$ ^
现在我这里API还不能用,等恢复了,全自动了。( z) [  z5 `9 D3 q, u
====
+ ^2 r0 M, z/ Z* x2 Y0 [第二次疯掉了!
- \. L# Z) [% H) A$ |6 i6 h& g我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
% W3 L7 A$ z; R4 r4 Q0 M====% x0 j" [& ?) B3 m7 |$ n* f7 d  |
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
2 ]5 z* X& {' ^! y- ?但是任务多了后,每次翻译的页面数是减少的。
3 V' w6 T2 P  D8 e! O3 `好吧,我五体投地,继续探索。
! U1 m+ h6 s% F7 g; E- L" u====
5 _8 i  b# n- K: z8 Z为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。$ @8 t: ]5 W6 ?' |' R
====
  b9 }6 D/ @% b/ i好吧,有些东西是不给翻译的,哈哈。" n7 S0 n, z% X+ e
+ a' n3 k$ C6 I8 n5 I( v4 h
Sorry, that's beyond my current scope. Let’s talk about something else.  |- w) l! f6 ]7 E+ \( C3 F: H
====0 l$ Z$ w( l. m6 W# g5 _
然后我的英文命令也让deepseek 帮我修改,呵呵。$ ]" L4 A, x) d" v8 g" I
====
* |4 S0 B; P0 v' W日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
; S; }* t2 g! R; x* c3 S( L====  e' A7 U& \! E6 P: l% o
时间段的话,北京时间的下午和晚上用比较好。5 ?1 `" w! N4 R
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
( K9 p& J% {3 z" s% t====" ?. g/ t, f- {! Z. y
用千问吧,非常稳定,非常强大。
* a3 q' }& `1 a/ Mhttps://chat.qwenlm.ai/
$ F: e2 Y" }. r# H====
; l  H" E5 f, E% Y. Y. NDeepseek,API 看上去可用了,但是不给充钱。; {; [& s( I" l

, O: D9 [1 r4 _; ^! H3 }3 D" y4 B3 R
5 R6 |. V& Q' }" j$ S) M

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    20 小时前
  • 签到天数: 3747 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53, J  y5 z- L7 w, c: L( A( q
    这功能很赞呀
    $ O9 V% U, d2 [( L
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    - p7 K! P# r0 I有没有上传整本书试试

    8 T- c/ ^. j: \) Y3 W# I1 `+ X目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    20 小时前
  • 签到天数: 3747 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑   j* ]7 c$ M- I3 D6 D4 P
    ; O7 s3 Z$ q) ^: Y! f9 f# r6 u3 p  L7 I
    以后让deepseek 读出土的竹简; \- ]4 o, B* P7 h' ?( }

    0 H  C9 v  k8 j) z% O( h还有把古文翻译成现代白话
    0 @6 u$ S3 A- }7 o
    ; M7 @3 I1 L2 _5 _8 l! f/ c以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    16 小时前
  • 签到天数: 2908 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?1 `' ~* i/ i$ s- e
    # P7 I/ p3 r2 s. j) B
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23; w5 p  R6 d4 K* i' Z, Y4 |  ^( R
    请教是如何实现的?* o3 H/ x/ d! E* [3 L7 m

    3 O+ n0 c4 C2 C+ L" c7 t, N5 F5 t我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ' G9 O9 O2 u0 a1 c8 n3 {1 C: |% v% g2 t( x2 C5 r4 o- A
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ) ^; w1 r$ j3 U6 a& x, O- `; w; G6 ~文字之类的没问题。估计deepseek现在暂时只保证主要功能。" t% q- B2 N& C4 `' x, k. [/ r% S
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。! P9 P2 O% D# Y$ e' T. i

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:233 l. r3 ^! m* e$ w2 L& N
    请教是如何实现的?
    ; T4 I) {: }, J& q. s/ p5 m& ^' g8 Z! @; @8 G4 A
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    " E' E9 w. q$ F3 @- O$ Q7 ?( Shttps://chat.qwenlm.ai/
    ( O; c0 M+ X, a6 P9 F! @0 W试一下千问,估计美国人没有攻击他,所以资源敞开用。; z! S: j7 J9 ~( v1 Q( N5 W
    很稳定,质量不错,好像最多一次处理15页。
    . r1 d6 d/ \: m  r我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    20 小时前
  • 签到天数: 3020 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    7 s3 L+ |4 F' ]% b6 ^# }! h+ q& \4 D处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    ' q8 I' l' \  w% X8 |这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    * T$ u3 A( `* C7 Q# e
    8 a; U% J% E% o2 _& shttps://github.com/oomol-lab/pdf-craft
    + Z3 ^0 B, S( q; e+ M3 j# {" @! c! I/ @" @. d; f0 m
    1. 这个工具要求装 python3.10
    + b1 Q1 t6 s% I0 W  j' ]. v6 d* U2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0; @- T" R" f$ p" _
    3. pip install pdf-craft8 y  @" g: R  c7 _
    4. 把下面的内容写到一个文件里,例如 a.py
    6 ]* y7 p  _6 B! M6 \4 B# D. w% Y7 g6 w2 O5 i7 {  W7 y1 P
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      ) Q  ?" P: T8 z

    2. ; l0 @' E! n2 J' K% B# M- G7 f: b
    3. extractor = PDFPageExtractor(
      / x# n  t1 w: T; F! |" ^
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      # x+ m; u2 z* W9 n
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      . Y' F  {" b- p
    6. )+ Q! h8 }5 K8 ~$ {, t
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      2 I- `. O# G+ |& U5 D2 r
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):( [4 k# ^) @+ \4 Y
    9.     md.write(block)
    复制代码

    " W2 J& [$ t, O/ E, z, [
    , H7 j  t- S. Q要修改的内容:
    / q/ k7 Z$ W; o2 t# v& M4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型1 b; g- D/ O5 T
    4.2 markdown_path:输出的 markdown 路径文件名( _/ n# t# U! V9 V8 D
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    2 k6 X$ C- ]2 b6 k
    / i, Z3 z0 b4 R" s  w/ E1 j5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    , O7 T4 f' f% Q, m0 I" k; K+ U
    7 ?3 M# e8 p/ a8 Z* G% Z. U8 m目前为止PDF转纯文字的最佳办法。( w& A4 }4 j7 b& J
    先写个小程序,把PDF按章节切成小的PDF。* D0 e, @3 u/ J3 C: M1 `, e! U
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。8 q8 K( c" \9 b3 Y, o) e
    效果非常好。+ c( S3 M: E9 {% J8 @% m
    * p4 f, [, e0 H4 p
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    ( v8 N) S) `$ D- e
      z! j+ u; a) o5 ydeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。! B# g: S4 E" B% g
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    1 G! M" I. G- q2 j9 s我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ! V6 |, d) x5 o# [8 X1 g4 X4 x# a! `; r3 @) u; m
    API到目前为止,差强人意,不如网页版本修得干净。* M1 u% S/ Y2 [# Q# s0 N" w

    # b  t% W$ f$ n/ y- j* sdeepseek可以同时开四个。
    8 @! _* g7 j/ Y* Y& D# U

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 $ L. ^0 J0 e$ _7 ~% Y8 g8 u+ g. D

    1 E! w) N& v" Y3 |. |, L! c让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    " J/ t' H  }4 G8 E7 `7 w- F+ C5 P让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    2 Z  V) H# U+ M: z" I- P6 F
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:330 T. s  V/ f# P6 T: f, R
    细说一下,听上去很不错,多谢。

    + N) X* m: s. Q7 w3 I' E2 a直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    3 o5 g6 N0 ^2 D/ A) B6 t( U
    & Z. P# B( @) i已经搞定.5 X. T: o( s3 E- W, b
    7 V1 B) E8 v; d% r" N# j
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    2 z4 W$ Q% S/ R& i# \7 p8 O0 L& p5 T% G
    1, python + pypdf 按章节拆分小的PDF" i5 A% H: N7 T0 o( \; [0 I

    ' u$ d% ^. ^* R( s  ?. z5 }1 @2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    % W! Z4 G- W9 P% L1 T# }2 M8 c8 |
    得到text file) R% T2 R( {1 w6 _2 v
    ; I0 r+ ?* S/ z' S( L$ E
    3, python 读取整个outputfile,丢给deepseek 矫正。
    . ~2 `. `8 U1 T4 L5 F
    ( L1 |4 p5 n/ b5 S5 W( h模型是 deepseek-chat
    0 h1 N2 z% V- X- j( y; G5 L, `9 f, D# h& u. }7 J8 a+ J% K
    max_tokens 最大是 8192,别的不用改。9 s% v, z* ^5 A; g
    ' o" a4 f  G) p) L5 V, C* I* J( W
    参考:: G2 [! p8 T( u# w& m+ l
    https://api-docs.deepseek.com/api/create-chat-completion* }2 S. N0 a3 e6 q! h% d

    ) |# w4 w2 D  P+ c) f& R4,费用:
    : \3 q) D+ O/ F1 H( }
    ! X2 S! K$ D- R8 I- x+ K* X; L实测:
    1 }- s0 G  H* d0 B1 L1 A7 G+ C
      Z* ~4 S, B; d& d296K 字母,用了 9 美分。: e6 {$ O1 m8 U( i0 m! ^* j; d: z
    4 h7 o" g2 Q- c
    英文字母 到 token 用量大约 1/38 t. O4 O; e# q7 i! K* h

    $ z$ k) ^6 V9 Q6 `0 ptokens: total, 11782 completion,  3729 prompt,  8053 | s:  328999 [! Y, k( v' ~4 L
    ; I. B' U) }8 \
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    8 Z: v1 l1 m) f7 |& k3 W( L% ?
    价钱,非常非常便宜了。
    " z4 d3 {. z; ]7 t$ C6 `3 k1 v4 z. v# _  f/ t
    参考如下可以计算,懒得算了。
    7 f3 G! R1 o+ ^3 T9 d$ @
    : k' _) Z+ X! E  s# o: whttps://api-docs.deepseek.com/quick_start/pricing, e# [1 f  }% P2 [& W: z9 X
    # c5 ?; r5 A/ h
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.141 F7 c9 O8 ^& |, u
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55+ [  m+ R6 X* z; {
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    5 J+ w" d7 x! a, a+ m2 ], q& G7 W
    ) W1 r: M2 L  a7 T0 B# S  K5, Balance
    $ i, r) |1 b0 ]; d4 ?  H) P' Q* T, W/ |, i* n+ N1 ?
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    % d& M' d( m( w& `7 z4 Q) x% k" Z1 t参考:
    ! c3 r. `! U& g; @) L& x- shttps://api-docs.deepseek.com/api/get-user-balance
    0 a% r8 w7 {! V
    " h% {+ b2 M# f* i6, Models
    - u( [* v8 T" h1 o3 z6 R
    , Q2 o/ v  g6 S# a& U# a4 G目前就两个
    - p2 c) y' K' Y+ R+ L. A8 X8 B- w% U# deepseek-chat
    8 U% D1 i. S' C8 L4 o! U7 q# deepseek-reasoner8 M0 S; F- w  |# s

    9 G; ?$ ]  e  p参考:
    ; \  e! G1 k5 m; a- M3 ihttps://api-docs.deepseek.com/api/list-models
    ; A; a6 e  n# l2 {8 E9 [8 C& s
    # S: K" D4 H" C: Q$ ~# x) `3 Y: G! s3 s
    7, 问题
    8 @6 j, c0 B; L! j; r0 @6 d/ i, g0 E+ C/ G3 j! L6 J
    deepseek 会将前后两段合成一段。, h+ D2 V& a% L% ^4 I3 i
    特别是那种大量的对话的段落,deepseek会给你合成一大段。- H- n# x  G0 s7 E2 y, s. M  a

    ( ?/ l- q. n2 G- L+ q0 j8, 钱说了算。3 s, Z; `( I( q  K( j9 I: j5 b5 U
    1 C1 y4 G, q, l* `) k1 ]
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    ( z" Q9 s& c! D4 d1 d* k# B5 b但是API就不会出现这种情况,毕竟我们给钱了。
    ) |* |& R9 S, i+ f6 |: Dchatgpt也是这样的。
    , Q. r- K" W$ f) `: Z8 _
    2 h! h  n0 b3 S+ o) U0 q5 c3 T/ d0 t- g# |. T' E( c2 i2 D8 C8 u4 b

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-7 20:07 , Processed in 0.065510 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表