设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2683|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
: u" h/ S8 @7 h5 C" w- F; T6 Z$ P8 R+ P8 f% g! z
把PDF上传,然后让他抓取文字,并修改可能的错误。' z) }, ~8 l. r0 V& i1 T* E! v+ u
然后deepseek完美的完成了任务。
9 J+ @& N! g* C8 @段落清楚,列清楚,页眉页脚全部去掉。
- W& l7 R+ T4 P- Q, r+ ?我要疯掉了!
& c' T$ [7 L  l2 h4 v赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
) f7 R! N7 Z( H$ c0 c9 G1 c====/ c6 v5 G. U+ h7 k4 Y6 Y0 N4 K! Z4 G
中文也很完美。4 i# C- a1 E2 {/ b
经验值,每次十页比较稳定。
4 a/ N! Z3 `5 d( i& c现在我这里API还不能用,等恢复了,全自动了。! |5 u$ V$ C  L# _- s" W/ K
====9 V$ [( e3 s2 e# X9 x# S
第二次疯掉了!
6 q8 B. d: X* u8 c8 `) V6 e我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
. t3 T) S. R8 K0 |# U/ `====
! s) e$ ~5 E  }& O6 i8 J7 _现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
, s  y9 P2 ~! G4 @1 ^! ~但是任务多了后,每次翻译的页面数是减少的。+ ?- I8 \1 o6 X9 `+ N$ B+ s
好吧,我五体投地,继续探索。2 |7 ]$ ], h2 e  A! l+ `
====
* X5 s% {' k6 f为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
: M7 G+ q2 d( U3 k====$ E8 Z* H7 G5 y0 Z# ]
好吧,有些东西是不给翻译的,哈哈。; u( X% u+ n) E8 y1 S

' D% Z1 p9 e" M! a5 e+ ~7 aSorry, that's beyond my current scope. Let’s talk about something else.
4 X1 e9 f+ b5 u& O====
1 ~2 o1 P" `8 L: ]/ J0 C3 L然后我的英文命令也让deepseek 帮我修改,呵呵。. W+ A+ i' B0 q' D( I
====
/ T5 x, ?, G1 b日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
4 E: i6 N; z- G4 N4 e5 [) C8 w8 O5 ]====
4 m# a$ C8 M9 c) o时间段的话,北京时间的下午和晚上用比较好。
7 E" Q4 f8 ^, R) Z7 |. s6 J. w后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
4 A0 ]2 y- W' Y. q% F2 A====
, n& M. o  u; n- E  c0 ^1 q用千问吧,非常稳定,非常强大。
, c+ G' W4 ~9 Q: N1 Whttps://chat.qwenlm.ai/
" ]) i) E7 D. ^: v& b' x; t====0 _; G- `5 ^, n, h3 C
Deepseek,API 看上去可用了,但是不给充钱。
0 g& r- Z% z/ T/ `9 K9 T+ J: L0 A5 S6 k: `

( L+ i' m' j; X: P8 D$ {. s; Y) [5 d- B' E! Z  a

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3702 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ! c7 [: }+ O" l这功能很赞呀
    1 r8 \5 L/ U0 E. r8 }1 K
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    $ }& J( G) w# _: a有没有上传整本书试试
    - S5 Z, W, m) a; R& f
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3702 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 / ~# [3 A+ {/ \* y& ~2 O
    " a) T* ?0 k- O
    以后让deepseek 读出土的竹简5 L8 C( ?7 N8 W( N" U6 z% o/ @

    / Q4 @( v/ r1 C还有把古文翻译成现代白话1 Y6 i& Y' F  s) p" X
      R$ }0 N% o) N5 m
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    12 小时前
  • 签到天数: 2864 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?5 y( x# R7 Y  b+ K
    5 ]8 P0 Y9 J, O- z  b8 I
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:230 Q% }8 S) k# [, R$ e. Y. U
    请教是如何实现的?' _- d- C* e. X. g$ f) O* [
    0 R  z' h7 ~+ w( F0 ~9 w
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
      Q( N) R) G& {3 M1 V" I' ^2 U

      Q1 W( v6 B* A' R& ]) l0 N' g) d5 q我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    & l8 v% ?) _3 l; z. G3 M: C* a文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    2 e/ U; K8 }# {/ Y美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。$ q. F8 ?8 Y* P3 q& A0 K

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:237 f: K9 K) D  _
    请教是如何实现的?, h& R0 w" G/ F( Z
      I" J* z- K) ^% I9 I7 {
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ( @( ~+ e7 ~# @6 L  y% |' W* i3 g9 f( Fhttps://chat.qwenlm.ai// ^3 D2 X/ J# o$ u: P
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    % e+ }; @& k! p6 [很稳定,质量不错,好像最多一次处理15页。' @) l+ `. \, U2 W6 e
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    昨天 00:31
  • 签到天数: 2976 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    3 E/ j( I; }$ t$ [1 R% I% ^& I处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。! g' h* ^' m) C/ W6 Q# X
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。" `/ A  r4 t2 ?8 y3 L( O

    $ e; M6 D) W) [https://github.com/oomol-lab/pdf-craft8 ^& T! ?, H2 ^$ i; m8 o
    6 l* v; ?. \  x( x
    1. 这个工具要求装 python3.10# \9 m+ `7 [% x# I# G. m: @
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    5 [0 s2 P. |- q# n* G3. pip install pdf-craft
    8 z5 q& J3 k8 d. c4. 把下面的内容写到一个文件里,例如 a.py
    : X8 E+ A; [! l' Q# y
    / H8 V" F  n% k$ K4 b. \
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      6 ^6 v0 T4 W% L' K

    2. 3 D' Q3 |& r* J9 V/ @1 u
    3. extractor = PDFPageExtractor(: c" I* x& ~# I3 O  q9 }
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      1 w) a7 H0 i& R- o" k
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      # ~3 D& l9 z1 y" X
    6. )# w; m$ w1 i+ `2 w+ z+ J8 U
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      * K3 V/ D7 h( W" E7 R
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
        K/ U0 h4 b. o: c, T( ]$ A
    9.     md.write(block)
    复制代码
    : v1 T: ~; p  N, L* K# ]4 v

    - a  o! g: T8 w; \% C1 s: B要修改的内容:, ^9 N  e8 ^* h
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型( R9 H  w! U6 ]4 \- }
    4.2 markdown_path:输出的 markdown 路径文件名
    ! [+ ]3 h2 [- Q8 {( _" s9 }4.3 /path/to/pdf/file: 输入的源PDF路径文件名5 G* k; y# R* h

    + v; \0 Y; @$ r+ i" d8 }' W* d5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    $ E+ M5 c$ |2 ]8 M; u8 b2 j
    ; ?: X6 n0 [; F: R3 O目前为止PDF转纯文字的最佳办法。
    & p+ @' Z3 @) R: G6 {, |先写个小程序,把PDF按章节切成小的PDF。$ X3 r+ Y% x+ P' w$ h" a" e
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    ! q8 b* l' s& x. H效果非常好。
    ' @* o- r# J; }: [4 w
    & o# K% ]6 W2 Q. bdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    ! ^* X- L) \5 B) ]2 E
    , m# n/ m  z* I) Vdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    5 s, S/ X! S- M. }7 X' p7 {而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    7 \/ Q" ^6 A6 r7 k% G( ?* b; D5 j我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    6 q% e/ W" `  e7 _. y9 X
    / m2 l+ v6 J  m1 t1 kAPI到目前为止,差强人意,不如网页版本修得干净。
    ( ?- L2 Y  `: _* q; `6 w) U/ u5 n; U4 [' E8 a& K
    deepseek可以同时开四个。8 B  q; d* t% G* J" |

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 $ J; @, P0 b' T( b

    ( U# ~3 {) a; a2 ^& M; P" `3 F, K让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26' @* \* r( ?9 e# h, c
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    0 t/ K; G9 z8 `6 U细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    / E, ?/ Y% @, m5 ^8 Z2 U# T细说一下,听上去很不错,多谢。

    6 ^& N' m6 r* O3 t/ U直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ! ]' T0 O  _7 P$ h* J( a2 z% T0 X# C! G
    已经搞定.
    / j' U% \2 K- o2 ]0 r) K( u0 q; U! L2 |: E! F
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。: ~, k, [/ g9 V  |$ E# ]8 N! i/ d' I

    9 p! V1 L7 f1 o* j1, python + pypdf 按章节拆分小的PDF
    2 x+ w' c2 r3 s* l  ~% p6 K+ L+ d+ N+ v; h! [1 A
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ) c; I7 |8 d& }' t* e8 `, R# D- D6 C9 r, v6 b. w( m
    得到text file
    4 m+ s% t( o' w! G, Y: O
    $ m# W1 i+ S" g6 k" H8 s9 G) ?5 R3, python 读取整个outputfile,丢给deepseek 矫正。3 H! W. K. j  W/ p, h: {7 B

    % V: `8 \+ V$ D  f/ p5 I模型是 deepseek-chat
    9 Q) H. C2 {: m; g. z& f8 t$ W- Q1 I6 j* e" L" A
    max_tokens 最大是 8192,别的不用改。: L6 U1 h& V) R; g

    . S4 k* g* X* j0 [5 j# V参考:
    ! j- C/ v: r8 r, Hhttps://api-docs.deepseek.com/api/create-chat-completion. D( q& \( }5 e- o
    / }$ P0 ~# s& `3 H8 m# l# g0 t4 k
    4,费用:
    1 p3 j* L) Q' u' ]- E" {' `# Z! v% ~% C
    实测:
    2 K+ T( e1 z9 g* k' \
    ; Q  j: K4 q+ R0 t296K 字母,用了 9 美分。; W- ?! v7 A2 h8 h! L; C/ v3 A

    ' W; t2 v0 A3 y- x4 j9 _/ ?英文字母 到 token 用量大约 1/3
    ( o! ~+ u1 C! y; J: }2 }* A* ~, m- I7 T; ]( W: G& {( d/ l7 E) ?
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    ! F& n7 {5 j2 \  L/ J0 g3 s7 c, G! E* G, p7 H
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    # ]" x, J. N: W+ s5 J0 l- ]1 W, t0 ], j: ]. k2 C
    价钱,非常非常便宜了。% Y" `9 U( }% [. N1 J9 b
    ; `8 S, Y7 c3 n1 u3 `
    参考如下可以计算,懒得算了。& V5 ^' q  `$ t1 j

    2 s8 B* H0 E5 `$ s4 F5 V, Ohttps://api-docs.deepseek.com/quick_start/pricing) G# m9 A  {& I
    ( e7 R3 H" Q, W# V1 o
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    , t" s% f0 v. q4 O" T1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    . A6 A) g% B* s! l1M TOKENS OUTPUT(5)                                              $1.10                $2.191 N& [  a( R/ c& ?& L

    0 G9 E* i; P, ~" d5 [6 e# x5, Balance
    ( k# w' V# t2 v$ `7 M" ]! m5 m
    & w5 D* E8 o6 Y6 [( [6 ]2 G可以在程序里调用,知道每次运行结束后,balance还剩多少。: D  \( U# j$ S2 x* N1 P3 t
    参考:! f6 p: @5 Q. `0 z5 |
    https://api-docs.deepseek.com/api/get-user-balance& n5 `  L: X: a4 g5 J2 ^) U* J  p8 _* e) ?

    % ^% m  F) e" {! u5 ~3 h+ r( \6, Models$ }; M, h0 o3 j! _- n& Q
    ; M% N4 z5 e$ l- ]/ ^) u0 Y) E0 m# ^8 k
    目前就两个
    . D( d/ Z3 ?" m% N  `# O# deepseek-chat
    7 }; P, ~/ W1 v! }: H# deepseek-reasoner
    # ]) q. X& `) v
    ( o; W# i& t' D9 u! `& v2 o+ M, M参考:
    ( }) |# q$ y4 u4 N/ hhttps://api-docs.deepseek.com/api/list-models
    ) J3 q  z: X$ z! g) C" Z& I* N+ p: B! y, S

    8 g( Y' X) M6 I/ b2 q, n7, 问题
    $ y- R  ?  K, T3 E$ {* f  B3 b4 t: \, T. T4 G* s
    deepseek 会将前后两段合成一段。
    ( V: _6 o1 g' _# \2 w特别是那种大量的对话的段落,deepseek会给你合成一大段。- z7 H1 L8 T  a+ s- ^, V/ Y
    3 K) ^; u$ b& k9 T  e! G! s
    8, 钱说了算。
      {# j& ^. z: Q4 c+ ?, `' {$ T  S3 m* O2 b% V6 H- W
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    ! v) R" N  A6 N2 {, B& V' ^/ V但是API就不会出现这种情况,毕竟我们给钱了。
    4 L: f) o8 p2 ?; H- W. R% Dchatgpt也是这样的。6 c2 ~9 _3 w: f4 r9 {2 k2 S$ T

    ! k( `# {7 L' R2 ]. v) T  s: @! }, g2 ^. ]  R. F) D

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-21 19:18 , Processed in 0.061757 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表