设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1671|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 6 R! h0 c! b$ R4 k# y$ R
" N8 E! o/ ~2 ~. V6 ^' ~( c
把PDF上传,然后让他抓取文字,并修改可能的错误。" A! U# T3 d& W
然后deepseek完美的完成了任务。
) b% N) [* Z: N9 W8 e. u  E' ]! z段落清楚,列清楚,页眉页脚全部去掉。# R$ c$ g2 W1 z* f2 O$ _
我要疯掉了!, L5 @0 |! n0 t3 ?- ]9 h
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!+ D5 A" y0 }6 h9 x3 f
====* W* \* M3 C5 G+ Q) O
中文也很完美。
( e7 K* A9 z# S2 n经验值,每次十页比较稳定。/ i: J3 ]. z" Q5 E2 _
现在我这里API还不能用,等恢复了,全自动了。) E* ?: X: @1 f+ T$ `" N
====
8 [) W) D, P' {$ ?第二次疯掉了!7 m* _: X. {' t9 g
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。! U2 G: R7 n( i  D% r
====) p/ j6 Y2 E  G0 u, i5 e
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
/ Q' E: R/ g  m7 v$ [0 P6 `8 S  s但是任务多了后,每次翻译的页面数是减少的。1 P% A+ ]; c5 L1 _
好吧,我五体投地,继续探索。
+ ]* l6 M: Z1 Z7 ~5 F% P2 i====
, v# O6 }" m1 z9 P. c2 a7 t. @2 B为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
8 Y1 R8 f* L9 c2 S====4 E  {$ T  A; O  o
好吧,有些东西是不给翻译的,哈哈。7 E* p6 C! g( Q( E

! k6 M& h8 s" W5 h6 iSorry, that's beyond my current scope. Let’s talk about something else.
/ t! d9 a  \. ^( O9 C====& ]. r, ?$ h. m
然后我的英文命令也让deepseek 帮我修改,呵呵。5 m; Z+ \# A. R+ A1 U& Z
====
8 e* N2 |% I# J; p日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
! u( Q5 V0 x% H4 ~. N! [8 d$ {/ U====! U/ Y) {2 n! h, e. D$ n# Q
时间段的话,北京时间的下午和晚上用比较好。. u( A' v9 r# m" h, A! B
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
  l. x3 H; x+ ~; V. c* [; |====
  N  ^# ^  G3 V# l2 ?& k( v用千问吧,非常稳定,非常强大。
# }0 U. v3 D1 \0 M2 L' W% e! \https://chat.qwenlm.ai/& T- N7 C1 ^4 A5 i/ [! p& L
====
1 s+ n% f8 E5 L# O1 yDeepseek,API 看上去可用了,但是不给充钱。
( }* h7 `6 H5 F/ D9 x& l
5 {2 k* \, x$ M7 z$ r2 t5 b: [
  J6 C2 u1 U3 }) \% E6 {
/ |5 S1 U5 A& B  [

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3523 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53& x, E* K( |0 Y, v" s
    这功能很赞呀

    5 z- E- z& d/ A; y- V简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13: d/ m9 O& E4 }2 A2 E1 M
    有没有上传整本书试试
    0 i9 z# H( A' e4 c  i. v2 r
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3523 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 1 C% O6 F: h, a  L- a$ \& i9 J
    ( g0 l: }' {' h9 s
    以后让deepseek 读出土的竹简- P/ T/ P3 P  M* \9 j* N. I

    * ?- I+ z6 F% w3 m还有把古文翻译成现代白话0 n* t/ S" _9 e4 r

    2 p) z/ }2 t) Y7 A  Q% @以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    19 小时前
  • 签到天数: 2673 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?0 n. s. e" }: y, V8 E

    / _- p" _4 k5 X* g  V  C$ `* }; ^7 n我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    1 T1 I+ O: @6 q, N3 x+ ^, `! h请教是如何实现的?7 C  u) s  Z( h  }
    : Z+ \- k8 w* b, K6 y1 m( x
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    4 {" x4 C, G! c6 _  u9 f, `
    ! x8 j+ k6 e. B9 X0 W: x) `3 d4 j我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    , V4 d( j+ O+ }) v3 M文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    9 F* q# _! M% j' G& F/ T美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    . ]+ a/ t3 \2 X* u! V

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23$ C9 Z* T2 T- B8 {/ F- y
    请教是如何实现的?8 G* }# {; x6 o6 l5 d

    ' O7 L0 a0 C6 ?- M& W我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    6 R0 n; o2 _* W8 I$ @https://chat.qwenlm.ai/
    % n( O2 R- ?7 Z. o) Y试一下千问,估计美国人没有攻击他,所以资源敞开用。
    2 r9 g! |. V, _5 C! m很稳定,质量不错,好像最多一次处理15页。  Y# d. l0 B3 _% A; t
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    昨天 00:04
  • 签到天数: 2809 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    * i$ N3 o- i" P1 S$ }; J) |" v处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    0 }0 ]; Z( I. c0 p% b这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。- T, _7 V8 ^5 g$ |/ j
    + I8 E$ Z/ l4 `, B9 Y
    https://github.com/oomol-lab/pdf-craft
    ' F0 X* f& y$ Q$ s- c* Z- R1 M+ y6 ?
    1. 这个工具要求装 python3.10
    , Z+ ^: B6 R5 @2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    . y8 W) K! Q; f! k# Z1 {3. pip install pdf-craft
    ' E, U( i( w' {! R! K9 K" a' \) t: ?4. 把下面的内容写到一个文件里,例如 a.py0 J8 M$ V3 L  ?

    0 z' k: a9 s9 Y2 @9 o* Z; A
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter& R" v9 z$ v! V" Y. P4 e: j9 g
    2. 4 H9 x% _( f/ R! S, j, ^  Y/ {" C
    3. extractor = PDFPageExtractor(! u  d2 L& L' o6 O1 O) d! I
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.' ?% ], @8 B# q7 m) ~; Z
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      # P# j' _, Q5 h
    6. )
      ' J$ u' j1 Y3 |4 d
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:7 C# I, t8 F( R8 y3 `+ o
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):1 `5 {- h1 I8 Y% ]( H4 j/ g; [2 ^
    9.     md.write(block)
    复制代码
    8 J: _1 E9 w: v; v6 o* U; Q3 O

    9 P) E: \+ Y3 Z/ B2 L2 }% k% K  \要修改的内容:
    5 T: L  `6 R$ M* C5 h; @0 u; e4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    1 Q; W4 y5 d% g9 R; G! L+ q4.2 markdown_path:输出的 markdown 路径文件名9 o4 s8 j% l) y4 D; I
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    , G  s( i- J$ @/ k6 t5 Q4 {% F8 L0 P6 v
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    2 o& M4 `0 n% S5 t) |, R2 t: g, k' |0 d( [, @* K: u
    目前为止PDF转纯文字的最佳办法。$ ~# p) D7 m  e6 R8 ~
    先写个小程序,把PDF按章节切成小的PDF。
    9 n2 E0 Y, K, N然后,把PDF一个个传到deepseek,让她抓取,除错,输出。, c+ D% R" R7 \  H- @
    效果非常好。
    " d% n( R  U$ E1 q" d
    5 p* U/ j5 D9 w- ~3 jdeepseek,qwen,chatgpt 三个,deepseek是最好的。3 T2 `: [# U& G2 h% H  c) `
    7 I$ d" B' J) K! i$ ~# p! @/ x5 `
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。" [- x. ?" Y) H1 p6 @0 o
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    8 `% n3 i/ F  \9 w( }我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    + N) \* a7 j' U$ ^" |/ n8 A, O
      [: C7 k7 [( x( aAPI到目前为止,差强人意,不如网页版本修得干净。
    * M) S% E# h* A6 R: J
    " ^* z1 ]5 A9 S- [: `deepseek可以同时开四个。
    ' s  M; H# D7 V+ t7 {! {( `3 M  G9 Q

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 1 {- W+ Y; E# F9 U% J2 O5 ]% R
    ' Z# Y3 J& m. J6 T7 n9 P
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26# \1 w+ B+ f  Y
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    , v: V4 w, V/ R* L. j& u
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    % L2 T" n6 n( H- ?! `细说一下,听上去很不错,多谢。
    ; G  _$ H( z  J% S  i
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 0 a& Q2 C0 {! K

    : u  z9 V( d# s( X3 X已经搞定.3 O3 ?" r+ C5 S! i

    ' P+ P7 n( B9 M+ \8 b: |首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    % n1 `8 ]. k9 m. V7 J% @
    # h- E7 I" I1 e7 b) p/ P1, python + pypdf 按章节拆分小的PDF
    . T) |1 q. I# i8 N6 O3 K) a: R+ v' l# t& I. I
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile7 s! ?1 ]1 a& e) N: R% B) C  Q

    - s% D+ S/ I  y得到text file
    + _8 r) J3 _2 J9 l: v6 r1 ~7 B/ v1 t6 G1 l. r" ?% A
    3, python 读取整个outputfile,丢给deepseek 矫正。
    ) a- h7 v* h* G& M# c, v. L: E* C+ T2 E# `) f- I, k$ {$ z
    模型是 deepseek-chat
    * z+ Y9 K) s1 u  ^& d1 R! r- T8 j; X* U. v' c$ g4 l( J8 l
    max_tokens 最大是 8192,别的不用改。
    $ G& x1 f" \- [% K5 o
    * ?8 P. ~. z$ i" _9 v" u$ Z$ P参考:+ K* m  D' s# G7 ^
    https://api-docs.deepseek.com/api/create-chat-completion
    ; g/ ~  ^, J' K4 Z
    * ]" c3 M% J6 _: a' F8 B) A4,费用:8 {# q1 t4 W2 l! J9 d

    , L( A" u2 q4 U+ x实测:+ L  M9 Q/ K; I4 L8 X, d

    : S9 q8 F3 s$ w296K 字母,用了 9 美分。( U4 D1 E6 c  h; P: v

    # }- k$ X8 w* y英文字母 到 token 用量大约 1/3# U$ k1 P9 w( d
    ( l1 g2 |5 i$ K  k7 I1 y
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899. x1 x" z7 Y, m9 w

    8 P$ r+ ~# ?! `7 u6 V9 k32899 个字母花费 11782 tokens,包含输入输出的 tokens
    * U1 a7 H" N& E7 e3 t! j+ n5 i2 x6 K" X) S
    价钱,非常非常便宜了。+ t9 _9 Q; S8 H* f
    1 v/ ]( f) N4 j8 g# n. S8 e; C
    参考如下可以计算,懒得算了。9 Z3 _2 Q/ l1 o& D) h  ]6 f; E
    ) m5 {' t( P, a% u( V* ?' U% B, @1 \
    https://api-docs.deepseek.com/quick_start/pricing
    7 r5 l" I+ a1 u9 z5 O- J6 R
    + G/ R! S, q, m2 N6 L+ g5 z1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.145 o) s4 x8 C  x% R7 o: G# y' W
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    6 c- k. F+ d- c" c1 I. l) }$ l( G1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ; v$ w  D! a  K9 }) u" L9 Z2 n2 W" D; y7 X
    5, Balance8 q3 h6 d# K8 [( R( J( }& L2 I

    ( [2 a: M  t' L( Z( d可以在程序里调用,知道每次运行结束后,balance还剩多少。& q$ w# @! Q" [/ `
    参考:
    6 u/ c/ A: ?( ]' e. f; j& `  qhttps://api-docs.deepseek.com/api/get-user-balance. B! v  A, |& `) b8 w* R. }0 e
    ; f3 D6 ^& g. H  h# b
    6, Models' R. k* p- T) Y% H

    2 I5 J" M  B$ J1 v! d4 q5 j目前就两个) y* E# N& @% V2 ~8 B. ?( a
    # deepseek-chat  Z3 M: N  Z4 z# n: D
    # deepseek-reasoner$ x  A% c7 M, ?8 J1 k

      c; M1 A7 z0 b# j+ S  _9 T3 o; h参考:
    8 m+ |6 @9 i; Q6 d5 e- @/ Ihttps://api-docs.deepseek.com/api/list-models
    7 {& U6 Q5 a' T
    ' W4 i9 o! Q7 n9 Q3 o- p: ^0 [; m! A+ e, s9 U
    7, 问题
      f1 O3 X3 W- `8 P" a0 U
    7 k" E7 ]$ O6 @# Udeepseek 会将前后两段合成一段。; Q4 T. b& s" o, e
    特别是那种大量的对话的段落,deepseek会给你合成一大段。, s& j0 |5 ]8 r1 k4 S- T
    * j& }. J0 O0 B2 M# Y4 s8 @/ o1 s& w7 k
    8, 钱说了算。2 @' }/ G+ R( y; d3 m! t! u6 z' `7 Q

    0 C- p9 H5 {# X% R4 o% ~deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( z: I/ _( _" h& G9 o. V. i
    但是API就不会出现这种情况,毕竟我们给钱了。/ M7 h: P4 z- R2 H7 \- b
    chatgpt也是这样的。
    $ i2 F/ z( c! ]* _8 S
    + y; A6 _* [5 a& H8 }: C4 u6 ]2 `7 Y2 o+ |! U

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-27 19:21 , Processed in 0.081090 second(s), 29 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表