设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2511|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
2 B# X2 q) K, f8 Y# w8 d4 r5 x2 a1 W% `& R, J9 J7 k
把PDF上传,然后让他抓取文字,并修改可能的错误。
5 P2 h7 C+ b4 L" O+ L  z然后deepseek完美的完成了任务。
1 @8 P& @. J8 Y0 o段落清楚,列清楚,页眉页脚全部去掉。
! a1 G5 k8 M1 P% ?我要疯掉了!
; n  L% u5 t' a! x- {赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
4 A8 O' z0 O% v2 [; _$ Q2 t====* R, G7 g. ?% }6 _  ?8 {( S! P
中文也很完美。
  I& R7 _2 u) [2 d+ ?+ Y1 x( M' j经验值,每次十页比较稳定。2 [! e) H9 R$ c; {; B
现在我这里API还不能用,等恢复了,全自动了。1 s# o6 ?/ p$ c/ P6 p3 |
====5 e' F4 _$ T; v
第二次疯掉了!1 r  }) e4 D% K7 o8 y5 X9 h* ]
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
4 W3 _) H: J& [3 J8 d====. ]* U# ?% @: e; R' Y: n0 Y; L6 y
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。& q3 E3 o9 T7 k- n: \
但是任务多了后,每次翻译的页面数是减少的。8 d7 b! u# }, l7 S
好吧,我五体投地,继续探索。
; v$ Q$ X" U' G& t  X====
1 X; h* @) g! r9 d为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
( a  f* Z/ o; P6 B, m% D====& b' R6 U  z$ C; [: {  Y. ]- M
好吧,有些东西是不给翻译的,哈哈。
1 f  `  v" W& l2 p# @8 M' O0 \# m7 X" U. o6 H' H
Sorry, that's beyond my current scope. Let’s talk about something else.
0 U* }9 t  K0 |. m  `. N" E& O6 l====3 C: r' V7 C7 W8 z
然后我的英文命令也让deepseek 帮我修改,呵呵。
; b- @5 z; K: ~: s1 [7 L6 b6 ^====
5 A# R  B2 H9 R# U日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。- J8 p& i% l+ W% X' r1 H
====2 D8 u& R! o+ U1 M3 L
时间段的话,北京时间的下午和晚上用比较好。
# d9 ?! }7 f; ?& P& C# i$ T' l后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。0 i6 Q: n5 J; d5 _
====- E8 X. h% B8 C4 E% S( R
用千问吧,非常稳定,非常强大。
0 b7 z( ?0 u* J  o9 D6 qhttps://chat.qwenlm.ai/
$ h% ?0 s0 ~% z; ~# X" Z====
+ N1 F  o! }6 Z( _Deepseek,API 看上去可用了,但是不给充钱。; a) J5 O4 ?. d; a, q

6 |; P! ~( ~" i* a  o3 f; D4 s8 b# \3 |: C; L  X/ p- K! N) {
/ n/ }. p: ^% r6 g' G& ~

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3664 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    " H& j2 b# e% I! ^+ m这功能很赞呀
    / I  m; y  E" Z# f% w
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    ' x3 A0 Y  k& i有没有上传整本书试试

    & ]- {( g- B; R0 c目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3664 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 8 w, [$ U; b  T5 Z% c* W+ [$ L
    8 N! m" ?& Z" X! }. z9 n
    以后让deepseek 读出土的竹简; k! {0 \  [7 J- F+ W2 U

    5 ]& e; s/ `3 q/ x) K! g" w还有把古文翻译成现代白话
    ; |- J8 k* p& T7 H, [
    ; G% j- E' n: b4 }+ b以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    7 小时前
  • 签到天数: 2826 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?1 z" H7 ~& t' F7 C

    9 y# L6 ]3 o( T我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    2 t* `/ M: m& n, z$ {9 b请教是如何实现的?8 t( X6 `: I+ e/ o
    6 T" O7 d- m6 `9 q
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    8 [7 G2 `, a; u' q# r

    " y+ Z- e; g, N; W我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ' F3 d8 H2 M1 R' G0 E文字之类的没问题。估计deepseek现在暂时只保证主要功能。9 x5 v8 c4 B$ r! c  L. y
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    4 T1 ~+ ?5 g2 q( u# _# a# ~

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23* t% C6 B- d2 z2 x% P
    请教是如何实现的?3 `) z1 R* [: d2 V( O; H
    & p% ?/ h1 z0 B- i0 V  h
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ; r8 Y7 m& ?( p( T+ ohttps://chat.qwenlm.ai/
    ; d, o- c1 E  B& J8 X, O试一下千问,估计美国人没有攻击他,所以资源敞开用。/ P* q0 j3 y5 t, _
    很稳定,质量不错,好像最多一次处理15页。
    , b/ z8 x7 ~0 n* P; K  t" l我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 2940 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    " y, t0 ?: k5 Z2 E处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
      g9 C3 Z9 p! i: p) ]这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。* ^; l" |5 s+ p
    + [5 B9 B9 Y& G( h! {. r
    https://github.com/oomol-lab/pdf-craft) F! F, o5 V; a. p/ W+ H

    1 A5 i4 ?% ?5 l" L" ]8 v& t1. 这个工具要求装 python3.104 e0 i1 K" W# P  l% O+ \
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.06 ?9 P3 U- ~2 [# Y' T% ?
    3. pip install pdf-craft
    3 ?3 I  C4 J! F% v0 \" U9 |' J' H7 e) \4. 把下面的内容写到一个文件里,例如 a.py& u/ k7 i7 ]6 D7 p

    % X8 x5 J% E6 Q4 @6 x
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter' u6 \" u: g0 B' ?" U

    2. - ]% e8 u3 O0 Y! [; D' O7 }
    3. extractor = PDFPageExtractor(
      6 m9 m2 @7 g" A- r. f
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      3 M" B) j: Q( T% c3 i
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      $ t. x- x- Z& I5 ]! t$ o  o# @
    6. )) }, `7 N& V" g6 f( {
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      ' q  ^0 P, A  @7 @' J! O& M6 [  n
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):. ]! W$ g$ r# l/ H
    9.     md.write(block)
    复制代码

    ! ?) D/ `) Y1 t+ R* I- P* k. n/ d8 Q  @* h4 s# V/ H& q4 R  l
    要修改的内容:
    ; G$ {7 J& H, Z3 j9 V2 s4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型9 p4 h" D  M) n4 M/ a
    4.2 markdown_path:输出的 markdown 路径文件名
    9 f. ?! j# E) K$ q2 }4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    % {0 }3 {' W' k) E* z7 }$ S4 a6 D9 d7 M+ d+ ?
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑   Y9 l1 ~- Y4 B% {+ z( i5 m
    + C5 Z) L8 U; E8 B  D
    目前为止PDF转纯文字的最佳办法。9 s9 q/ z4 d0 p" S( e+ F
    先写个小程序,把PDF按章节切成小的PDF。/ L3 x' H6 k! Z+ Q: l$ q
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    ' _0 v# k: X. R# n) K! a效果非常好。
    & c4 L6 t4 t3 r, U$ L, @
    ( o/ G  Y" ]2 ]% c+ Odeepseek,qwen,chatgpt 三个,deepseek是最好的。( d: E& }+ P: [* K5 [+ V5 L
    & Z' z& y  ?2 n, F/ y
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    ) X- P! i+ j1 x$ Z# c$ Z0 \# v. \而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。: U. T- W. ~+ i; U4 C- D8 w! ^
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    # _! _$ l' ^" ^; b: A
    " i" A3 w; L, e. A2 k/ J, ~API到目前为止,差强人意,不如网页版本修得干净。% |4 R. L9 F" G0 Q  N- {
    ) w7 P& a9 R6 b5 x8 N3 c3 j# ]; z
    deepseek可以同时开四个。
    6 V6 a( R* X& v  |$ }% G

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 & e: N$ F5 u" B7 t: ]# L1 B6 s

    4 A  J, P  e9 A/ a9 F2 C, g. x让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    2 B; w9 H1 r6 t8 J/ w让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    / B; `1 F6 ?$ v- s* g, }) H! D) G
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    " j0 i' P" O3 q# H1 c+ k6 M* A细说一下,听上去很不错,多谢。
    ' W4 v2 b# q2 {& V' y3 @
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    8 T- L2 I! t3 B3 s9 P) k! `# C- R5 t4 f! @5 |
    已经搞定.& t5 t0 t$ y  b2 g+ a$ \
    # A2 z+ t8 k( R8 ^6 B0 j9 J- f
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。8 q) U1 E) @4 ?. M
    * q9 ^% _% V1 ^. [% m" w
    1, python + pypdf 按章节拆分小的PDF
    - M+ Z* \9 D! ^/ l" F- s2 h8 p7 T7 B4 a4 {4 d! g& N) U
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile+ M3 [) Y. D; D* S. p
    9 x! U* v! ^5 U  H
    得到text file
    & e2 R" U+ w6 G2 p+ k3 }" ~# @/ _4 H  C( F+ [) }3 H& e
    3, python 读取整个outputfile,丢给deepseek 矫正。
    8 c  w$ l: v" h+ K, R0 E
    . W. m- Y+ V: d: l9 }" E& B* J6 p模型是 deepseek-chat
    ' O8 }& y% x* ~# e6 a( ~5 `, a! B# V" T4 U
    max_tokens 最大是 8192,别的不用改。
    7 r8 @% h: h5 W  W) `" K: P8 _" I7 a3 m2 K( G- W
    参考:) l5 e& I7 p: z" h7 I& y
    https://api-docs.deepseek.com/api/create-chat-completion
    : d* [% N& c4 k7 k' V  N- _
    3 R' W( U0 ^" K0 b- f3 X, M( h0 g4,费用:
    4 [- L8 C' E: b8 X" t6 f7 u/ v0 R# c5 _/ h7 L
    实测:
    * k6 ?& K' T* H
    - ^; J/ n9 J/ i- }296K 字母,用了 9 美分。
    ) C7 Y( z6 k. X/ K" D6 L& h& V, U0 Y% `' Z
    英文字母 到 token 用量大约 1/3
    % f& C3 H+ r+ b* t% _- q/ Z9 w; X. G
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899+ ?4 R- c, J( a" {5 A$ ~7 l( K- F
    ! C4 h7 s7 u/ o' V5 C4 `" V
    32899 个字母花费 11782 tokens,包含输入输出的 tokens' }% o, v: s! y- X2 ~8 l
    ' h, c# V; _8 T, {. P
    价钱,非常非常便宜了。
    4 e" H9 m  W4 @3 b8 G/ V' P& s4 ~( q, b0 Y! J- C3 Y7 o5 Q
    参考如下可以计算,懒得算了。
    3 u1 `% f/ K% J& i
    + z) [! F4 A; w* xhttps://api-docs.deepseek.com/quick_start/pricing1 @1 M. @* j- j' t2 p) R' r+ x
    5 l2 k1 _* L/ }' g1 h7 j) h
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14; m- s5 e  m* U! H
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55- \; H- q, n+ t
    1M TOKENS OUTPUT(5)                                              $1.10                $2.197 H, B+ g+ n+ R5 b9 W# j2 J$ ~

    9 O. P; x$ Y& z: L& d& }: ]5, Balance% r# q$ P( r. X6 s4 x3 i
    6 c4 W8 @1 H3 p
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    1 q" v' l0 m3 P3 |. \  N: T7 g2 i参考:
    * F$ w8 p* i9 j& ~9 a) Uhttps://api-docs.deepseek.com/api/get-user-balance
    7 }% A; {9 e; \: e2 y' W( A' W+ o; A; x! j% ^
    6, Models8 B# o" U8 x: c9 W" B  T% q
    0 B' d5 ?) w7 r, k1 j
    目前就两个1 H" b2 d% Y5 _# w
    # deepseek-chat
    * ^0 Z, [/ _- }. a$ F2 \6 ~1 h/ {# deepseek-reasoner
    $ m. R; X8 U7 m* S# f
    4 m0 N; W7 I  K- M/ M* F参考:
    9 x! J8 n1 M- K) l; \, [3 ohttps://api-docs.deepseek.com/api/list-models& [/ q+ t$ x7 T! Y, Q1 _! X/ E4 ?

    " j* M' k0 _+ I8 M, @  d9 J
    8 t1 |- x9 U8 O0 n0 Q7, 问题
    : N6 p2 O/ H4 \3 T$ c; A/ ]" q# k3 A/ x+ ~% |8 h9 }' t
    deepseek 会将前后两段合成一段。
    0 \* r" b% W6 e特别是那种大量的对话的段落,deepseek会给你合成一大段。" f( V: c2 _2 P2 q% F& j
    ( f$ q9 s6 [7 [& c. \+ I
    8, 钱说了算。/ E' @: m, M  j1 \
    8 v2 T; f* p' g* K4 b+ ~/ b; ~* [
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。8 g/ g: I6 r4 x4 ]' n* ]/ u
    但是API就不会出现这种情况,毕竟我们给钱了。
    # Z" {1 ~& H, r1 H; |chatgpt也是这样的。0 ~* }& J/ o0 H5 @+ f. U8 N

    & I  h, s5 ~0 P4 Z: ?7 X% x
    1 G& v* z9 `, _' G. m/ t5 |6 A

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-1-13 07:47 , Processed in 0.038116 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表