设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2867|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
# H/ ~. x9 W! v  Z  S
; x1 P2 q% N# V6 N把PDF上传,然后让他抓取文字,并修改可能的错误。" F; ~% q' K7 k0 l; r9 y/ t
然后deepseek完美的完成了任务。( W) Z# K1 A! [! _8 Z* F' C. V/ o
段落清楚,列清楚,页眉页脚全部去掉。
; {/ w# c2 o7 H0 i& m) \, M我要疯掉了!
7 n) ?' j" \. A1 K. ?% g赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
2 l7 }+ X6 `% ]0 M5 |5 O6 r; g; s/ ~====# Y4 ~" ~3 O* |% h1 q' c
中文也很完美。
+ b6 i( S- @, B" `" \8 e经验值,每次十页比较稳定。
; F+ c# a! T8 I# z& G$ Z" i现在我这里API还不能用,等恢复了,全自动了。: H- P$ o8 {5 e: H( }: J# [( F
====
7 l" @" J$ j! p; v第二次疯掉了!& F: b7 j+ M" ^3 G6 A1 e. H4 X3 I
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。2 Q  ~' j$ u' L" j
====
/ A1 J% b# g% F# b4 q- H' X现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
2 v; n: [+ ~. e. l但是任务多了后,每次翻译的页面数是减少的。, v1 T2 [$ r8 t8 k
好吧,我五体投地,继续探索。
" d  L( v# x+ V- V  r3 y3 ~====9 P& Y) p9 H2 W- _
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。3 S+ ^- E( U  w8 h9 s+ L
====
0 [; O2 |0 y. f5 Q  c# T好吧,有些东西是不给翻译的,哈哈。* u$ d9 @" W( ~% L; \
5 x5 Q+ B# H% ~* N
Sorry, that's beyond my current scope. Let’s talk about something else./ f- S9 [4 m# U8 n
====2 ?- p5 Q* @5 ?
然后我的英文命令也让deepseek 帮我修改,呵呵。3 n" c" q5 Q, y( T0 ]+ B
====( n! k8 i/ H. ~3 g3 F% O
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。0 H* D4 a  l) v" X
====  C" a, `- X3 i& h. y5 G5 @5 O
时间段的话,北京时间的下午和晚上用比较好。& J5 }; |! @2 k& ~! b6 L/ D2 ~8 \
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
# G2 ~9 ~0 z8 G8 |3 k1 m5 T====( K& h8 J9 O) e9 g
用千问吧,非常稳定,非常强大。
% b3 M6 G, P& t* Hhttps://chat.qwenlm.ai/
4 g) P# u2 c) N5 n$ w4 q====
! @. B  E) p& {& M, d: p: i4 WDeepseek,API 看上去可用了,但是不给充钱。0 D+ F, O, `( q8 y9 |
9 R  _/ m! L  q- i
/ X2 H1 E6 \0 \( T1 L& y; Z; D

, ^5 w& L; h. E# v9 U$ B5 D

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 3747 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    7 L  r; o! ~. T3 n这功能很赞呀
    : r9 @: F% L2 i
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    3 [$ X8 g$ @) l0 e0 F, e# V有没有上传整本书试试

    % U( K9 X0 E$ w! {" c% M目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 3747 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 1 }- y9 q( j7 o  a2 l% S

    ' R, E/ c! v$ W: `" c" b$ e以后让deepseek 读出土的竹简
    1 j- ?' G2 m  d6 Y4 d, f7 V1 g& @2 P8 J
    还有把古文翻译成现代白话& V# E5 `1 a6 [6 H

    " x5 b# A- E6 u( {4 ^0 j以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    14 小时前
  • 签到天数: 2908 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    8 ^4 l% V, O0 ~1 D, X+ Z
    " D1 ^9 F1 m: R4 Y4 i我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23( ], t7 e. _) a" R
    请教是如何实现的?  I% u8 k3 f& L; Z
      l, Q1 i* F* e7 I4 _
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    , x8 }" b: Q3 }5 Q# b) `  v) `
    & ]6 L" {* G/ ?; J& A
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    , [: E8 W  v8 Y文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    , p; s- U8 x! j, i. Y5 ?0 b9 `美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    0 F4 x, H3 A8 a; x

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23. V) e0 C) n# ]# K: S" z  [4 Z- h
    请教是如何实现的?& p# Q- ]* I% n$ G/ t+ x

    % y- i8 w4 i$ N# R; N* c- K, t我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    * f9 m+ `5 h: K+ {4 r& D
    https://chat.qwenlm.ai/  f4 |4 f4 i* d. a0 P7 y
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ) m" E1 v& t' |( @1 Y* u很稳定,质量不错,好像最多一次处理15页。6 y% e8 ~' ?. k( A0 b* H2 z/ l7 ]
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 3020 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。" i% q" r1 @& ]2 i; Z
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    7 Y) J3 ]/ u. u$ B, S$ g! f这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    9 y/ A5 y+ I, ]
    / m0 y: m2 `/ A7 M. ]https://github.com/oomol-lab/pdf-craft
    : E  i) G; E- D: f3 d. M7 j8 K
    , E* }5 g! i" R& G3 e1. 这个工具要求装 python3.101 {2 ]0 L5 c2 y8 J
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    . ]6 v( ~2 z' y/ n! m3. pip install pdf-craft
    ) }, y& x0 g/ N4. 把下面的内容写到一个文件里,例如 a.py
    8 G! Z% |3 u% n" D! l. B' L( _9 _. p' i2 F5 z4 a2 D
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      : P& E+ J# f* F; V' o0 d+ m
    2. 6 m5 T. l9 {. w* }) q) A; ~
    3. extractor = PDFPageExtractor(! f3 P7 J0 d) d; W' ~9 n  k+ O
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.+ d3 |3 Q0 o2 Z
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      $ |# c! t3 U4 ~
    6. ). ?% ^; t1 m# K( D8 \/ M  i
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:2 j' l; a- R; N7 t6 |! y, P
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):3 z* b+ Y+ N, Y- u1 Q+ {& W
    9.     md.write(block)
    复制代码

      w% w& d0 `! `& p/ |; v
    : n  l  _! N. `/ b要修改的内容:
    " T- Q: h2 W) H4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    1 L; N7 V( v9 g9 @) ~4.2 markdown_path:输出的 markdown 路径文件名
    0 `9 t6 k1 ~$ ]8 c( g4.3 /path/to/pdf/file: 输入的源PDF路径文件名4 f9 {1 H- I0 B. A" m0 L; Z, L4 m/ A" D

    8 j9 n, q* ?0 O7 F* k- ^, @5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    7 j5 ^; J9 }/ x6 C+ g
    6 f! b* B/ c# t6 y2 I: I目前为止PDF转纯文字的最佳办法。+ F" d) `/ z. U! r: Z1 N* Y
    先写个小程序,把PDF按章节切成小的PDF。/ O/ l: j: X5 X0 `) _  R2 g( ~  Z
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。% Y# u1 @& p4 g9 g
    效果非常好。
    5 f# o4 z' {+ L% t- n
    , ~3 k/ `- G# E5 s; n! ]! X0 adeepseek,qwen,chatgpt 三个,deepseek是最好的。+ v/ l" c5 {$ T) q6 H) X

    1 v/ m, F% a7 d$ j- F6 z( Gdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。, J; j9 S8 Q/ s0 `
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。! ]6 b0 i; s% m) m: T
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ) ?5 N* _# X, M8 o9 A
    7 a2 X0 \& ^+ y) ~API到目前为止,差强人意,不如网页版本修得干净。6 D& }" h4 e  D, z0 H& U7 f1 D

    5 t! U2 i! }. R0 f* T6 E* [8 Gdeepseek可以同时开四个。
    : ]! ~8 u0 e7 T9 M0 E: z" H5 S; W# }

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 . w8 `, X/ l0 o7 C( ?

    4 i% d$ ~* s. a让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:264 f  W" u0 I$ o% n# }3 [6 z( c1 @
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    8 A1 K" }9 ]( c3 l. ?* a4 e
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33& e( s# J& f- @4 q% j+ ?
    细说一下,听上去很不错,多谢。

      A- c+ E# Z( g8 g8 w2 t: w直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 & T0 n$ S% e2 b+ P

    " a1 _* c/ |2 L3 R! A+ F% y已经搞定.
    9 F1 \& C( u- L
    / c( P5 M" u% e& z: e首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    8 K+ k3 U+ d' Y" Q/ N. C! K) x) d) i6 l- U2 k7 }
    1, python + pypdf 按章节拆分小的PDF
    ( ?& N: e& s' ]+ m% Z2 u* n# q  {& E; C- [. P9 y$ g
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile. v0 _2 M, i1 a4 v3 D% s1 r4 ?

    5 `- r( F& n0 u& {* L得到text file
    - b4 I3 e& F3 a7 x; Z- J- @6 `7 _! R
    3 @# Z8 ]9 }* T3 K9 R3, python 读取整个outputfile,丢给deepseek 矫正。# i+ F/ {2 p  _: ~

    0 ~3 G4 b& N" o  T4 P% Q模型是 deepseek-chat) }7 N3 y0 s# n5 \' y
    5 ?/ [1 J9 N- Q: L& C! ^, Y
    max_tokens 最大是 8192,别的不用改。$ e' B. f. L' R$ \
    4 I- ]* q9 I3 ^, N1 D0 w
    参考:
    4 t7 U( c) S# S4 [https://api-docs.deepseek.com/api/create-chat-completion7 I. u; i5 T+ A% ?/ V
    $ F6 X0 `. M; d" a/ }. Y
    4,费用:  F2 f: \5 t8 H  ]7 T  [
    9 E$ J( G4 k/ O6 G" _6 Z4 z
    实测:
    - I' a) R, i, s. U, l' G! J" u1 c- @  w! X
    296K 字母,用了 9 美分。
    ; l( R) h, V5 d, \$ Y
      B: a' Y- ]0 _英文字母 到 token 用量大约 1/3( Y! [. R6 c# [" J+ a$ v

    9 i3 C3 g# u, {; v) }: s/ ], I% A& Qtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899( g( I8 a, _9 P8 w2 T) g- e

    5 |8 W6 d. B: L2 G  V32899 个字母花费 11782 tokens,包含输入输出的 tokens
    , c; o  L3 @8 c0 z7 ]7 W9 d7 I
    " e0 ~- C2 y) t% s3 U( v  t3 }价钱,非常非常便宜了。9 Q+ t5 I2 S" W3 j+ B7 e0 d
    - J7 t6 p" W4 Z
    参考如下可以计算,懒得算了。
    ; w: A& e* s; U1 r8 v! {1 ~) Q& \
    5 b9 n" J+ O. k2 A5 t: H! I4 s7 ?$ Jhttps://api-docs.deepseek.com/quick_start/pricing( Y- ?- Y" \$ B
    3 Y; Q$ Q4 g9 ]) M
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14% Z$ w# y$ L; Y3 j3 W
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55" ]% K& g* f" d
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    4 `. L7 }+ f+ o3 q4 S0 n6 D. K! H& k& o
    5, Balance
    1 h; G6 H) S# E  }2 n: H$ E& c
    : ?9 z% v0 P; c. q可以在程序里调用,知道每次运行结束后,balance还剩多少。
    & `; @. {6 ^0 P+ E6 V+ D/ p; R* {# m1 p参考:
    5 Z8 t! T- L3 F5 e7 hhttps://api-docs.deepseek.com/api/get-user-balance! _0 m& Z4 Z" }- Y- o

    # C# [/ L, l* d9 O9 P6, Models8 c# Z' K: x+ x7 J) X) U

    * O2 b* I: s/ _! r5 _% m7 F目前就两个  x0 l3 w" T; o9 t% L, z  \
    # deepseek-chat2 o& K$ L" U" p" B
    # deepseek-reasoner$ |; o$ C+ q% l: I. a
    , v; V% A6 T8 B
    参考:
    8 X  ~' e, l; m7 Q8 Nhttps://api-docs.deepseek.com/api/list-models" w7 p! j7 L6 n* u: G1 f

    1 W- [4 F( u" n2 p2 v
    3 X# B# y+ E( j/ z% M0 q( I* F7, 问题
    % Q' e" w( x9 w* L
    . c5 X0 f9 d" y  e; mdeepseek 会将前后两段合成一段。
    8 C! T) Q+ L7 o/ x9 J  ]9 D7 O特别是那种大量的对话的段落,deepseek会给你合成一大段。) V2 `) \0 n: m! R9 E' _

    ' C7 |% I, o$ ~( y" k8, 钱说了算。, Q) e( [% @, G8 c+ C! B/ _( b: D$ j- P

    # ?! \7 i0 g2 I# @. h3 ideepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    1 E/ Q% h, ?; T$ t$ A9 C' U但是API就不会出现这种情况,毕竟我们给钱了。4 g0 r, P7 m2 k4 M
    chatgpt也是这样的。$ W8 n* W- a% C% G$ Q4 \9 W! g
    : ]  t; M, l, G& w$ w, V

      i5 T# n" m5 @

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-7 18:14 , Processed in 0.063284 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表