设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 933|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
' ]. N1 ?2 i# Q. t: S& ^" n; V1 w; s% C# j' I  B
把PDF上传,然后让他抓取文字,并修改可能的错误。  k* r5 o) E) ?$ G! X" V
然后deepseek完美的完成了任务。
2 ~  M/ ]8 G8 _$ o段落清楚,列清楚,页眉页脚全部去掉。
2 b! g" m* L$ h# b8 }; U. H我要疯掉了!
% k8 q: l' Z6 J' V赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!& @! ?1 m' I! |+ ^& K9 _  G
====
2 f, X; d; y) H; Z- I- O+ k中文也很完美。! j3 \  [+ ?: b) Q, E
经验值,每次十页比较稳定。
+ M0 @5 O; Y' i现在我这里API还不能用,等恢复了,全自动了。
# x+ y) U8 X$ ^$ O: S====" K8 h: k, e: j9 A
第二次疯掉了!, P0 E# `, ^, P/ s
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。; d# D* ?  z8 o5 J* q9 V
====
" ~9 z: H( [  y* t现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。* |8 p+ p( t# a/ ?, n! Q) Y: D& T! s
但是任务多了后,每次翻译的页面数是减少的。
" {" G* p2 N, s4 L& a好吧,我五体投地,继续探索。
& Z' ?+ c6 [7 f0 @====; a; s: Y* R) m3 T. Q& T% E
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。0 \1 z$ w$ D; T5 H7 U. x
====) M/ U' b; @8 M& }; {
好吧,有些东西是不给翻译的,哈哈。; F' S: z- S& H0 n& R/ |

2 L$ j# I$ ], h0 w7 x, ~! T/ lSorry, that's beyond my current scope. Let’s talk about something else.+ C- f8 D7 d. d' ~4 S* L
====
/ u- l* z, n5 ]然后我的英文命令也让deepseek 帮我修改,呵呵。
. S$ _% T# {5 V7 V6 a====/ u  ~7 ^% Z. w5 K
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。8 p9 q9 j% B, d. V* a1 D. a- b6 Z
====- Q  u4 N1 [% O
时间段的话,北京时间的下午和晚上用比较好。
& {, Y# Y  c, H) L后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
9 T4 {' ^" p/ }! q2 z1 Q====! X& v9 W8 K+ ~1 V" c
用千问吧,非常稳定,非常强大。7 @' X  J* }- `& W4 O
https://chat.qwenlm.ai/
! V: d6 n/ m# L  W====4 ]5 I, n0 e5 ~. o$ U( c3 h
Deepseek,API 看上去可用了,但是不给充钱。  [/ y! D! [: U% C  \

. M8 E& B$ R, J1 _; p2 @1 C; `, ?& V1 \

) `& _4 U" y$ W  C/ \6 [

评分

参与人数 10爱元 +92 学识 +2 收起 理由
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10
老财迷 + 8

查看全部评分

  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 3424 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    6 m% d* {& G  X$ n; i8 }这功能很赞呀
    ) w3 s; i7 \% _9 N
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    2 @: L" j0 g( t, [有没有上传整本书试试

    / I$ a% H/ b  y0 W目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 3424 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 2 e" m1 \. W- r2 Q  w; z

    " c9 F2 X0 b) f5 C% R% V以后让deepseek 读出土的竹简
    2 K! l3 l/ `, p- P8 U# F1 `/ k9 S
    % Y- b+ _; g4 R+ l2 J' l. P2 P还有把古文翻译成现代白话
    & f3 D& v3 |( y) g4 h
    4 i( u: s* ?1 M8 g以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2577 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?5 M0 O) z6 |3 o9 Y" @) C
    , E- k; R- J( U/ E
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    - y# x' B. z! ^9 R' @8 i请教是如何实现的?
    5 Z/ k" @' e/ J) z9 _+ W/ [" b$ k9 H* I  @4 O7 _3 x! |) w6 C
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
      B% t8 a9 _! E8 f  t7 u
    / G5 Y/ Q9 J4 t2 ?! i! d
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。& B  s) L& R7 `8 P( P8 N( `
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ! x% m+ U2 e* U2 d- W6 H美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。6 [8 J7 U; E* k: m

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23$ X" l3 m3 U: O4 X
    请教是如何实现的?
    " U8 ^- p+ h9 O/ v, M& M7 l& N6 Q: s% ~. U2 j
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    + t% _5 h- J/ V' k' |! X7 Yhttps://chat.qwenlm.ai/" S: Z( O% W( F7 b. B
    试一下千问,估计美国人没有攻击他,所以资源敞开用。/ W2 ?2 @+ Q, R) F5 j9 ^
    很稳定,质量不错,好像最多一次处理15页。
    ) R" Q# h8 K& B( s我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 2717 天

    [LV.Master]无

    10#
    发表于 3 天前 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    * o! U' |! k! Z处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。  ~  T3 D# `) W6 E/ q7 u4 _) Y
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。* Z* {4 E9 ~+ C, ]4 d2 i

    / _1 W! n  ~7 lhttps://github.com/oomol-lab/pdf-craft
    # c+ b- ^; K) A2 n0 [. X5 C
    & d+ N2 U2 w4 t6 Z/ a( D4 Q0 u0 l1. 这个工具要求装 python3.10
    ' T  ?- e% S* J7 n  z4 _  A2 L2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0* q" K6 K7 _4 X  F7 U
    3. pip install pdf-craft; L1 }: [7 b! V  ]8 R, w
    4. 把下面的内容写到一个文件里,例如 a.py7 _7 n  h, N* C( O

    2 X! g( v: c  Y
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter+ c# h) ^& a/ ~$ h
    2. " z$ L# g( b; g. E" [- q& \, q
    3. extractor = PDFPageExtractor(
      9 C9 ^0 Z' j$ A
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      2 L5 g. D: X8 h& n
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      8 {% C# y; j  L. }' Q
    6. )6 d- R' R& u8 N/ M7 w  E
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
        ~' T4 h1 o, T4 Q* K* \
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      6 u$ L; Y- L) n, g( U+ N& L
    9.     md.write(block)
    复制代码
      C6 q2 J# t  U7 Z5 x9 m

    - R6 E3 |- a; @0 P" Q9 Y要修改的内容:# q5 ^, R: m' C1 z3 t) }7 E$ u
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    # e+ b1 i3 H5 |  V! T" f4.2 markdown_path:输出的 markdown 路径文件名
    ' ?3 X$ R% x) b" [  o4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    , X! t8 K4 v) l7 k; V, [9 @: x# Z: `: W: L0 |' ^
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 3 天前 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ! `9 J4 P9 l; v* n0 d" h$ k( s2 J

    : H2 \2 s9 I! z) s) L" N目前为止PDF转纯文字的最佳办法。
    1 m8 w) [9 F, [先写个小程序,把PDF按章节切成小的PDF。
    . p& s  a* Z/ |2 @* t/ [# h6 q然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    0 F) r0 u8 v  i" U6 g6 F效果非常好。
    5 N1 C: C& `! A2 `) J+ t+ [- _! C6 l! O: t' i8 z2 x' k
    deepseek,qwen,chatgpt 三个,deepseek是最好的。- |- f9 N) m" a6 m

    % S8 l4 R4 x# w6 ^% sdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    1 \) J% l% ?' i8 M' g- ]* Y7 X$ v而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    1 u: M1 L4 J" G' j9 [+ T我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。" |5 T1 ^; O! d- ?. b3 r. t% W

    2 d# K: a6 ~1 X. I! N& lAPI到目前为止,差强人意,不如网页版本修得干净。9 H6 k) _& g: u% W+ F# a! h
    , h  h: m' ^7 h% Z
    deepseek可以同时开四个。, k5 K. M" R. P% ~) X

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 前天 12:26 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ) ?9 @! s( W& {8 x7 w7 i8 z) _

    " F* W) ]6 R# A5 N7 _6 J让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 前天 16:33 | 只看该作者
    三力思 发表于 2025-4-17 12:266 {% U$ K- P  [
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    8 A9 J2 a8 N) Y: {  u
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 前天 21:22 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    0 w# A  W$ V3 l# T细说一下,听上去很不错,多谢。

    % k, c7 V4 J* o1 D) U; k直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 前天 21:55 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 $ Y2 P: m; x8 y5 @

    ( Q- h4 t7 b. ^3 M2 R7 G已经搞定.  n, P) P4 I/ o4 j0 ?, G
    4 C; d5 v- g/ P& Q- ]. k2 K# Y6 m2 h
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。; V3 F* I' W/ {9 L* u' v3 P

    ' k+ J7 s- [0 V  H% g' y1, python + pypdf 按章节拆分小的PDF# b0 w6 U6 B7 t+ M: r

    6 Q7 h+ ]; }. p2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    : }1 @! H3 b2 `8 Z1 J8 V3 J/ A7 @0 I; `% K6 Y6 ]
    得到text file/ y4 \1 T) j$ P% M! l. }

    . j3 x( s: L; w5 ~2 w3, python 读取整个outputfile,丢给deepseek 矫正。
    ( h: E  M5 b) ?0 e; r- X
    6 K, y: Y' l% w7 d3 R+ v模型是 deepseek-chat
    3 B) {3 U0 w& |" V! _3 u  @5 C* |, q; e% S8 F
    max_tokens 最大是 8192,别的不用改。
    7 u! I+ p: P6 q9 ^0 q! h, ~* s6 x3 n1 x- [! k
    参考:
    & i) O- Z: u  F2 @: ihttps://api-docs.deepseek.com/api/create-chat-completion  O4 h- `" l& A
    5 ^% Z5 n8 t' l
    4,费用:  O* z' H8 r; b, l# p
    ' v: ^& P4 m0 \! T0 e" e! h! i: _
    实测:0 m: D$ B3 u- ?/ B" G. l

    , w1 f" i  N% v8 Y4 m+ {) u296K 字母,用了 9 美分。
    4 `7 g) ?8 ^  u8 h. d/ e8 ~) w( K, v% I1 a/ O2 g2 i
    英文字母 到 token 用量大约 1/3/ w4 Y- W/ }1 c& g0 m
    5 ?) u8 }9 {2 o# Q" P: ^: r4 X
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328992 ]$ w2 h) `; ?: G# w1 U/ F# I& S

    2 Q" A1 X  @! K: S6 _32899 个字母花费 11782 tokens,包含输入输出的 tokens) b! @9 Z; D$ y! j
    0 ]2 a$ h; E7 }
    价钱,非常非常便宜了。
    2 _' @! C1 X  v/ s, Z  z- Y9 J' o* g9 b: x7 ^  ?
    参考如下可以计算,懒得算了。
    . G  a, k3 q3 ]& l# v3 \
    , ]/ t( l- C4 _8 C0 N; h, Thttps://api-docs.deepseek.com/quick_start/pricing* Z2 x$ W8 k% ]8 A, E

    6 K8 B! q7 G, V) {  Y% m1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    1 J5 y, ~# g' }" z- ?4 }9 y6 E1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55. ]+ r; n# t) H) Q* I- T
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19  A! ]' H0 J: W8 n9 ^
    . I) ?5 s' a- }
    5, Balance
    1 e* N! A- X/ D' R+ l
    ' N, C# `. a  ~. S5 M5 Y$ h可以在程序里调用,知道每次运行结束后,balance还剩多少。
    , }" B) O7 J  A: L% I6 b参考:
    6 S5 Y" q+ Q6 @3 Ehttps://api-docs.deepseek.com/api/get-user-balance
    ( @, T3 ~6 L4 {7 |, R/ i# c' ~. W. e; E5 }2 ~/ o8 h
    6, Models
    5 V/ ?+ B: q3 r& f8 [: Y, f, v2 o! r! I6 K+ m0 |2 K; J& y) `
    目前就两个  O% y3 ~) _! Q8 l3 e
    # deepseek-chat
    / R1 H' F& b$ |; d0 D) S# deepseek-reasoner
    & o+ ]% \; [- t6 x. g
    + y: ]1 o, r$ R" ]参考:
    . L- a. t' @( U& b1 q5 v7 Xhttps://api-docs.deepseek.com/api/list-models7 `/ G' G( Z9 r9 t' _! e" W- O

    * t. b: p/ F( y7 Z' F& A1 N
    7 B2 m0 x) F) S* S2 H" x4 K' J7, 问题1 D) F# C' b2 J  m0 {- \) J5 J) b
    6 J0 Y$ e# `9 f: I8 E' `
    deepseek 会将前后两段合成一段。
    9 d/ l8 K3 w( J# k# r特别是那种大量的对话的段落,deepseek会给你合成一大段。$ A. H! K+ T4 U9 C, z, @+ Y
    . A; S2 ]/ D1 ~9 h, p' D* n; A
    8, 钱说了算。
    3 l+ y9 E3 }# S7 }* h/ o% r3 P' m6 {8 N6 u
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。, Y  {% R' k  G8 ~- Z" ^$ Q
    但是API就不会出现这种情况,毕竟我们给钱了。
    # l$ C& W  e1 U/ A& I9 B2 @chatgpt也是这样的。
    5 P" u. M/ l" K8 j7 D& d$ [, v. E1 [5 a. c  m7 @3 D' x

    ) a+ p& l0 S& E

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-4-19 04:42 , Processed in 0.052748 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表