设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3094|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
/ K- u: @* [1 F& l+ O5 |0 K+ p7 N) o+ m; {7 i+ W' S
把PDF上传,然后让他抓取文字,并修改可能的错误。
% u2 S6 x7 W9 m0 o然后deepseek完美的完成了任务。+ a9 T- ^8 w( M  r" W7 d
段落清楚,列清楚,页眉页脚全部去掉。
) \- r. B% o& m) s我要疯掉了!
4 T/ T: S/ d2 l8 ?! @* q赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!- n2 L4 {$ s% ?. q
====" J4 I; T1 k% L1 j: G4 k9 H( Z/ [
中文也很完美。9 p* r7 A6 r: p  i/ J: T
经验值,每次十页比较稳定。6 f2 y( l1 W( E( }
现在我这里API还不能用,等恢复了,全自动了。
; J- v& \$ x% v/ a) i====* e7 ?2 W2 J0 x" \5 r
第二次疯掉了!
! T1 s4 X9 }. Y& f我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
4 l1 ~' v* B$ k1 v- q4 F====
3 K7 t- H4 F/ N/ u; T现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。  p6 J9 _! Y( E! x' |- O
但是任务多了后,每次翻译的页面数是减少的。: a! |, O# v8 q( N
好吧,我五体投地,继续探索。
, I% s+ y- S1 a0 `: u====3 d3 M) F; R6 e7 n. i
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
# W) ]& J& v) P" x) Z9 a====
; @4 t& j" @( G2 v7 q. L好吧,有些东西是不给翻译的,哈哈。
& [8 \- g/ d7 Q# H# y
7 S3 @0 Z* i: i. RSorry, that's beyond my current scope. Let’s talk about something else.
" D  C2 B  L, Z3 b# E3 p1 O====( H& E# N/ A# [, F1 p
然后我的英文命令也让deepseek 帮我修改,呵呵。1 p' C2 \4 j- j: m1 A* _& a& F
====& F0 S: A) [, V/ N# p! Q
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
3 v4 a. u# N5 k8 \) ]  ?: d+ E====+ Y5 F. M& p3 u7 @& t1 z
时间段的话,北京时间的下午和晚上用比较好。
! N: o# ~7 w( r  }! `4 G后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。" U( \' a' W$ e( N; f
====
/ y" c/ T5 K; x# F) U- l. d( B# Z用千问吧,非常稳定,非常强大。- ?3 ?9 T4 d( G. L/ w" F' j
https://chat.qwenlm.ai/4 L$ P3 R+ r% l$ \9 F- r
====4 o% t# L1 Z4 @2 Z
Deepseek,API 看上去可用了,但是不给充钱。7 r. Q" K' o: x6 D% B& D- u& G
% D3 r% P( W- E( }4 j

" ?8 s+ ?% b( _- w% P& t
0 R& [7 O) a- U# O8 _% `

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3789 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53& Y% ?! K& \6 m  X3 ^2 g
    这功能很赞呀
    ( X3 ^& @& {6 E& l
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    . Q' I: U8 i  @& |- o有没有上传整本书试试
    0 E7 ^/ F# _# w3 p0 i
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3789 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑   E6 f, M( \5 D6 Z; }' O* A5 J  H4 R
    : @+ x" Z4 l, @1 U1 O
    以后让deepseek 读出土的竹简. K3 }# w" n1 e$ ]1 }
    4 Y. G. F4 H# w1 u, R6 E3 D
    还有把古文翻译成现代白话
    " w' _! p4 n0 J0 S0 C( P: {# b8 [. Y+ e$ @# O8 _* x: e
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    7 小时前
  • 签到天数: 2949 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    " _1 r* n5 C8 r
    " Y/ y/ v9 B  ^! J+ q我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23) e/ a5 N- a: ~: D9 X4 I" K
    请教是如何实现的?
    0 {% k$ t- I. f
    ' W3 I! J/ B- p. i" h我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    : }0 P& S% y% t4 i7 M0 k+ m  ]& {# R
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    $ `8 l! v+ ^( D- g# S8 D* J; Y" X文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ! Z# j' L. A) G/ e/ B& ?$ }美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。8 ~- g+ k- x- S6 y* Y+ h" [

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    1 z4 P' C+ Z6 x! A请教是如何实现的?
      Z- T; q3 }5 J9 X' a
    . @9 |9 R" g* [: Y0 p9 b* H# M我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ) l5 O3 E8 @4 \
    https://chat.qwenlm.ai/
    9 H$ m) O" H5 x, U试一下千问,估计美国人没有攻击他,所以资源敞开用。2 E7 F0 k8 V* x5 `
    很稳定,质量不错,好像最多一次处理15页。
    ( e8 U1 g7 m1 V  v* \$ Q. i我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3061 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。' o) X9 j5 Z% e+ F' v4 m
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。* ?4 a: y) y6 c5 ^3 e8 n
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。0 ?3 h( E& y& L! @5 T  k

    # |; ?5 [# z9 i' s2 ^- X# V4 `+ lhttps://github.com/oomol-lab/pdf-craft* N" O, k) S4 v" y' p

    - r4 b' P- e- }2 K: E) s1. 这个工具要求装 python3.10
    ; M2 p+ b8 ]/ T) e& }  n$ k! n7 ?  P2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0. [/ I2 d4 r  \7 v5 h  V: t+ T
    3. pip install pdf-craft
    ; @. m- t' j- f3 ^4. 把下面的内容写到一个文件里,例如 a.py
    3 m$ ]% n6 W8 w0 S' `' I
    + r1 a/ h6 i" R' Q
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      / g2 B( I! D. Z+ M, }
    2. 3 _1 r" D. [( {# x8 ?+ g: n' X
    3. extractor = PDFPageExtractor(
      8 n* s  G' N( I$ j
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      . A% k* L- F. z/ I. M$ ?8 G7 ^
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ( Z+ }9 E+ L, x% Y& N8 G) V
    6. )
      1 c$ X; i5 i2 U/ H0 c/ q8 C2 o+ ~
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      2 \1 C3 P. w* N( l; F% O
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      * k" k0 K" X* o2 x0 d( T  {$ Z; c
    9.     md.write(block)
    复制代码
    5 @- W' d( s/ N' W1 z. y

    # A8 C/ l1 o# B& h% |要修改的内容:4 _0 C7 G% m. W. ^0 J* Q2 u
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    % ^  ^* \9 Z& q) {4.2 markdown_path:输出的 markdown 路径文件名
    ; ?$ r1 @/ R# k& ^1 k! }4.3 /path/to/pdf/file: 输入的源PDF路径文件名! q  C" Z9 K+ q4 t2 N6 Z

    $ i- o# ?% \9 ~9 C" Q  X9 _" ]9 {5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    1 p: p. h# ]' z2 T" I2 |# i2 F3 I- a$ X8 t" U3 ?! B
    目前为止PDF转纯文字的最佳办法。" s: ]8 N; W. ~1 s
    先写个小程序,把PDF按章节切成小的PDF。$ i3 t: L) G, d! W6 W
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。4 M1 j5 `" p" b7 w  q
    效果非常好。- O3 }3 w, D# Z6 @% C9 [+ _$ @8 y
    - Z# j1 d* k3 a
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    5 r( t0 g, O7 P; o/ Y- h# r2 o" c7 }7 u2 H
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。) h% D( x+ @+ W: o- u# o
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    % W- W7 y: {8 P我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。& t! K* n) ]( G8 a7 D

    7 x* [% S/ n8 ]1 H2 NAPI到目前为止,差强人意,不如网页版本修得干净。6 Z# w+ {7 }* x8 y6 F! x+ J

    ! T) ^! g8 B$ M$ pdeepseek可以同时开四个。
    8 e7 v5 ~* u8 ?& T9 l8 g. U

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    , s' k( [% a1 d6 W% v& G+ ~
    + u1 e( b: D# }; W" ]1 l. ~) u让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    ; n( ^/ i$ b1 j" G) q- o让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    . a  O* y+ a! @细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    ) `" ?( l1 n' \4 U7 x% l! B细说一下,听上去很不错,多谢。

    * }& e3 n# N  e7 h5 ~直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 , X: E- X, p9 ~  y! m% \& t  ^$ |, y

    2 V0 q" N4 Q5 x8 V) e2 I# @已经搞定.
    - j# ~2 F9 y: M! ?1 g0 p: T7 d
    0 m. U5 A+ `& s  {) k5 G5 o首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。1 X$ `9 n1 Y$ M: m; c+ x0 H1 ~. j( X
    / B$ ?" u  {3 m4 i7 }
    1, python + pypdf 按章节拆分小的PDF/ B& R* o* Y& \+ |& k8 Q4 {

    % E, A/ f6 t. v/ U# W2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ( U2 [: x3 q, o; {, e
    + z" c( O6 G% s# U# S得到text file
    4 y# I3 ^6 c4 ]! J3 A) Z$ m; c6 T: M# A: f
    3, python 读取整个outputfile,丢给deepseek 矫正。6 M+ S* V4 K  r4 R2 F9 T
    2 b& `( q+ U( K/ d
    模型是 deepseek-chat
    ' {  ^6 s% C  B# I- j7 j
    1 k9 v4 ^" Q" u! c/ \2 x" tmax_tokens 最大是 8192,别的不用改。
    4 e  W! q+ N* }0 L4 _- F$ s$ a. M1 d$ p3 @+ Z
    参考:& W8 R# Y% d. ?& o
    https://api-docs.deepseek.com/api/create-chat-completion
    0 H$ D% Q, `7 I* p) s  `/ z0 {+ E9 T5 I
    4,费用:9 K: a( ?' l" l+ f9 W
    ; a" L) R# Z% X* j1 B
    实测:
    & o9 g& _/ d: G( E
    ) D6 v! ]+ `3 w% b296K 字母,用了 9 美分。
    # z3 T# v) w8 S5 f2 ?( x
    ) G; d4 g8 v7 W$ P3 T英文字母 到 token 用量大约 1/3: p$ D6 c" C. R4 M3 E- [

      D+ Y) ]. s" M1 _0 K. Itokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
      ^4 v' u# Y) T& T3 @2 E& D: z3 P
    9 _9 ^4 Q% X9 D+ R( I- E* E9 Z" ~32899 个字母花费 11782 tokens,包含输入输出的 tokens
    $ E/ g; B1 i7 B2 i  [# s0 R% C8 h3 D4 A) j5 S9 d3 @
    价钱,非常非常便宜了。
    ) t9 ?/ B7 [& K# V9 b. p0 Q$ z" W5 E2 @. U3 q
    参考如下可以计算,懒得算了。
    ) B+ X  h: v) E8 _0 S6 l- N
    & @6 `* H" n* e$ ~https://api-docs.deepseek.com/quick_start/pricing, ~" |* q* A( V/ a* m6 ?) P9 v
    $ {9 B' N  J$ N) x3 ~& j) Q
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    - Y' s; [  W# a& [2 M# u1 w1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    % t8 r8 a: M2 P7 Q/ Q# T1 {0 Y; @# ~" E1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    1 c2 F4 `( g) t0 J; N# C" @0 y$ t9 g2 r: @2 a
    5, Balance+ \* q1 q, x; T# G& G% W

    ' B8 U4 V+ X9 @  F+ @8 c) |可以在程序里调用,知道每次运行结束后,balance还剩多少。! J8 p) A. ~0 f8 d' y
    参考:
    8 o# m% Y5 [) `https://api-docs.deepseek.com/api/get-user-balance
    ( i5 [2 k  P7 ]5 e6 \; g
    & R# H, z' R: }+ P) v- s6, Models! n4 X8 L; F: R0 @8 B
    * Y1 s: S9 e7 O
    目前就两个
    2 Q/ X: f; a1 R+ }. j2 I# deepseek-chat4 e3 O& k1 N. v& ]6 [
    # deepseek-reasoner
    ) i( ]- L+ A' ?; ?2 w$ c
    & D- w: z+ `, f参考:
    : q' A* h! Y. ~% v+ \1 E8 rhttps://api-docs.deepseek.com/api/list-models# K4 ?; a0 {, t
    . S* q. Z5 S! U$ U$ o' p1 }2 l$ v5 J

    : t7 T6 X/ S9 ]7 K6 H8 Q7, 问题
    , g: l! K$ Z6 A: P: |9 j: `
    ; j+ j5 S6 y; Ideepseek 会将前后两段合成一段。; }2 O8 }8 l/ p' S# o. k
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    " c; L/ D# A3 R6 ~# A( M6 E. K/ r1 V$ j8 ^! u; c* A4 t
    8, 钱说了算。
    & Y) x. r" B4 ]$ d2 N% r4 Z
    + L: U# _6 }# |5 ]deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    : B+ g# r+ Q5 b! o但是API就不会出现这种情况,毕竟我们给钱了。
    ! t5 b) _7 b5 L' R3 `+ ichatgpt也是这样的。. G4 E5 W4 q7 G& g6 W7 B# w
    % R* d% H9 V1 D

    * o% d, f- R. Y, n

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-19 11:58 , Processed in 0.066444 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表