设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3106|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 4 O! D  f5 _' V% @- Z3 U9 A' L

; }2 _' C0 h! a$ q. g& d+ E把PDF上传,然后让他抓取文字,并修改可能的错误。
% [2 a* N9 R: E: S0 c然后deepseek完美的完成了任务。0 |; V2 v/ `1 n6 ]' d6 a5 d' V
段落清楚,列清楚,页眉页脚全部去掉。
4 H! p, Z' T# q1 X3 Y* S6 ^我要疯掉了!$ l2 o: f2 L3 n* G
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
4 ^* @8 N8 {, A. ]* Q" _3 l====' F! j# h) b. U' X5 \# M
中文也很完美。3 y# g9 m& U# ?) x4 n
经验值,每次十页比较稳定。/ ^1 i2 n1 f$ G5 ]
现在我这里API还不能用,等恢复了,全自动了。9 H' C5 ^4 g- A# M
====4 `( `# w! x  i5 M; w  u- T& R
第二次疯掉了!. m6 q7 }9 v. F$ Y6 i( o) n; ~
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。* R* b% h& [$ k0 S7 Z* h
====
2 [, n0 d* ?! J7 N现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。( K! y1 W7 z- N$ U! Q+ a
但是任务多了后,每次翻译的页面数是减少的。
. r! {% i( X8 g' P5 e好吧,我五体投地,继续探索。
) ^# f- _! [/ p$ C====1 t1 u" H% T5 z3 d1 a. |
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。5 A; y9 O) f9 C6 v/ L' v( y  v* f6 V
====% W. H, ?4 n- s5 V
好吧,有些东西是不给翻译的,哈哈。
0 z, [$ ^2 g! X) v& z: _0 O& `# M. a$ p7 O, q. v4 \; ^
Sorry, that's beyond my current scope. Let’s talk about something else.+ ^- B9 c" r, _0 x# `. _
====/ G0 e/ e- L6 }; r0 {% e- V
然后我的英文命令也让deepseek 帮我修改,呵呵。
9 \9 o/ f0 J" x0 |& H9 d====
7 s) `5 X. x; Z6 p; M日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。) P0 r  k5 W4 X& E
====
) D, f5 {* e( i* V& I+ K, ]时间段的话,北京时间的下午和晚上用比较好。
. w1 U. l) E: b; `( N3 ^; R/ r后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
( ^: J4 s6 E2 g6 v====
1 V$ N) |8 L( H6 D- Y1 f用千问吧,非常稳定,非常强大。
& u3 _& P7 P8 @* D4 {! J8 \, W! \https://chat.qwenlm.ai/
; j" N6 k8 D+ ~4 ?- g====7 z9 a3 X) D& a& m$ G  B. i! U
Deepseek,API 看上去可用了,但是不给充钱。
, K$ s' F; o) g8 o6 \" P) C" a% l4 j$ a& u$ y3 s, [5 y# V: E1 U  F& |1 o

0 q; }" a# s) c7 @- r. ]# n+ c2 `3 d7 X& k/ a% }; I

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 3792 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:536 t9 w/ E8 p5 Z- P% w6 \- I' L
    这功能很赞呀

      s  h  L9 w6 K6 [3 r" V简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13; V" X, Z3 x* y" H, J  y
    有没有上传整本书试试

    6 p9 M+ {% u5 v. r, x% v目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 3792 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    / h* ]7 t; H; p- i) }7 d: `4 j' I/ C* j* S
    以后让deepseek 读出土的竹简2 @4 M: a& T9 @1 ?& p

    3 h2 M; `9 n% s6 F7 l4 w% O5 G还有把古文翻译成现代白话0 L) F; P1 j$ l

    4 i" m7 W% Y% u4 u: Y以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    3 小时前
  • 签到天数: 2952 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    : I' v/ v6 J, W
    , a+ Z6 ^) z8 Q# s/ A我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:238 ^( T- u7 X1 ^" \+ A- |# \6 L
    请教是如何实现的?
    0 J" Q7 ?" k' [/ _% C4 P: M  O+ [) C0 ^% U# p# n
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    5 v* U( I( a. W& b3 H; H

    1 h$ m# H* b* X& E% w  e" t我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。% \' z! ^* u/ N/ t1 P% T( W; W
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    0 y! z5 E  q4 G4 H美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。- h% w. \9 e; s0 o7 S4 k

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23( k; P6 r9 L* m# b" w
    请教是如何实现的?
    + S) B* {6 U1 l8 R. B5 c+ l' h2 ?6 z- F. w" R
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    - ?5 @" x  J  ^; J  Uhttps://chat.qwenlm.ai/
    5 d6 g5 }, [/ N7 J1 m试一下千问,估计美国人没有攻击他,所以资源敞开用。% k. w$ U$ n- V
    很稳定,质量不错,好像最多一次处理15页。$ m( a3 K, b" M* i
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    前天 00:00
  • 签到天数: 3062 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。: N# P) N0 L. \4 Z6 T$ A
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。4 ^$ W; s" g9 v* K
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。! R; ~: s* ~# s6 a

    3 ?2 `# x7 a: nhttps://github.com/oomol-lab/pdf-craft4 `! B  d; k# q+ r' h

    , F' A( D0 S& J  [' j- y1 U. z1. 这个工具要求装 python3.10
    8 M* U4 _& d. K. w, l2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0: K" Y7 R7 s+ i7 V
    3. pip install pdf-craft
      X8 L( a% @/ Z6 D4. 把下面的内容写到一个文件里,例如 a.py$ i# Z3 x* z# U* o2 _" `9 K

    6 o# z6 I1 H# {
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter& `" x# F, j* n* F

    2. + R( g/ l" }  A3 |% A2 y0 e) t
    3. extractor = PDFPageExtractor() `/ z3 g9 S/ k0 a# `
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      " Y* L* T5 Y7 p4 V+ R" I
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      * t& `+ l+ _# I- F1 f/ c/ _: H
    6. )
      5 ]9 @. R) K4 A# r  b5 p4 v
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:( i; T; Q  ?0 Y! o) f: S
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      ) N& w  i  b& i
    9.     md.write(block)
    复制代码
    6 l5 Y1 ~  u' y1 U1 n3 P
    7 l- t0 f: K" X( K
    要修改的内容:: ^- n4 N! I' n( q+ J. i- Z
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型2 f, [/ I2 G0 C( p! g: e4 }
    4.2 markdown_path:输出的 markdown 路径文件名" y  g: l" P) L6 |/ v" [0 C1 P3 }
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    9 q  z& M- r4 S7 @' Q$ r+ T* P! I* r) K) H" E
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ( D/ B! x7 n& [
    2 j) Z% d1 x1 j& `, h4 K
    目前为止PDF转纯文字的最佳办法。- x( ~  D8 v' ^2 i
    先写个小程序,把PDF按章节切成小的PDF。1 [. j4 L; z) r- ]0 h& C; n
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    3 ^. ^- l) N& O% u1 H+ v) u效果非常好。
    : |  B$ O) y, \! h4 P9 r5 F6 l# i4 S- q9 D
    deepseek,qwen,chatgpt 三个,deepseek是最好的。9 v+ U% E2 ^  {5 d0 A$ ]$ |

    1 B$ ]9 u7 P$ ?& g% A1 u: E6 v  ldeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。$ |# {/ R; Q. A4 ]' v, Z
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。5 i- ?. v$ @& f- e! _. }
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。2 N4 \# Z+ N5 P
    * e  B5 A/ G$ h2 k
    API到目前为止,差强人意,不如网页版本修得干净。: u5 D5 V  \* F7 g. x- c' y! }

    4 p  n) p/ Q! rdeepseek可以同时开四个。
    ; |7 M# A/ ]3 }* z7 U! v+ U0 {

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ; n* H! i( p, W2 ~" Y( R
    1 o1 {7 J3 G9 S8 e4 K0 K* [! ]
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:263 U% ?$ `3 I9 a1 w) r  u1 `
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ' ^/ y- V$ l& K% j细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33$ ~6 G: h2 }, s
    细说一下,听上去很不错,多谢。

    4 D, D5 e5 {4 `, @, s. q+ l直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    0 g7 w& `* ^! ~9 Y  X& @% E; f% y. C% h! c
    已经搞定.
    6 i6 D+ E, c2 g, @5 M& E/ ]& t- e7 H1 _3 a6 @
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。. O# U6 s* n' C7 ^9 k

    ; T$ [! @/ d" S5 D1 p5 i& }1, python + pypdf 按章节拆分小的PDF
      L0 n2 Y4 L) M6 u( w
    0 f& _( o8 V" D4 |' F2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    & @& w- w) X! [9 ^5 J+ J
    0 o7 {$ h: m# ]& Z0 I. K得到text file! F& }+ y3 n2 |8 A( |7 u

    " y0 `% |% ^. K+ s- ^) p0 c3, python 读取整个outputfile,丢给deepseek 矫正。
    ) L& W* e* e$ e8 `1 g, D
    ' k* @3 K3 P# C5 ~) y5 j' h模型是 deepseek-chat
    / d2 y' N1 H& w3 N" ~; `0 [8 b& T9 {  C% a" `* E( p0 L  J+ g
    max_tokens 最大是 8192,别的不用改。" A2 g) ^  c4 {8 I
    $ H; u6 ~8 Z; F! S+ \+ G, ?, Q
    参考:- ^0 ^5 W$ E3 f1 L& V$ Y. `
    https://api-docs.deepseek.com/api/create-chat-completion
    5 }% K$ h* E: V2 U% q' \0 b( ]
    4 M1 Q' |6 Y0 z# \" _2 {- Z4,费用:
    / C4 M" N3 a& w' K" f* b+ F$ {# \7 B
    实测:- o" `) Q" O' c$ @( d; M) L: e" c
    & c, e; g& [2 u1 W1 Z; a6 ]
    296K 字母,用了 9 美分。2 T/ T. E: i+ L+ m3 e
    ) [! n" G% q/ p
    英文字母 到 token 用量大约 1/3
    ; K2 C$ J8 `% A, z1 }
    5 g' O0 q1 h0 \$ Y8 Ztokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899; d! q' {7 x; `# W" B
    , T0 v" |0 u! U4 D/ s
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    # E0 A, `2 @# {1 T2 U6 G% l" Y# L' a! @1 l) y1 `: u
    价钱,非常非常便宜了。
    1 z# ?  {% r& D4 u* ?
    % b4 J. _. y/ o2 {参考如下可以计算,懒得算了。
    8 W# c) y" v; J2 x  {; M/ E- d
    ! Q1 Y0 o4 {1 v" }' ~. ]https://api-docs.deepseek.com/quick_start/pricing0 {% C& y0 r3 _$ g$ U
    8 N& A' J3 P7 E* a$ \
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.143 l  {0 |8 P$ o/ b; u' n+ {
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55& _* ^& c5 z0 Z6 j) o
    1M TOKENS OUTPUT(5)                                              $1.10                $2.195 B( o: l9 g6 I3 c- K, U

    7 v, ?" b! O1 x- ]5, Balance' w. d' {8 K# y
    ! Z# I* g9 J0 d. K0 Y4 x* q* ]
    可以在程序里调用,知道每次运行结束后,balance还剩多少。( A* @" ~( |; \; D9 ~! x6 x
    参考:$ ]' U; [8 ~: }$ E# x! _* p
    https://api-docs.deepseek.com/api/get-user-balance7 a& a* I" f1 w+ c7 f; o+ Z; q
    : _- \4 A; E! l9 R1 K0 Y; l( T
    6, Models
    $ Z, s) H- Z/ ~, F- G$ R' E
    1 A6 o$ W4 q+ W( k目前就两个
    8 x) ?! c0 D1 |/ ~& K; m# deepseek-chat
      X. X4 i+ s8 R( v0 l% I1 `6 `# deepseek-reasoner
    5 E3 S- d3 m  ], |) B- S) \' [# H- q' }0 o8 i: G1 b# p' U* E
    参考:$ v7 M5 Q1 W8 s+ j/ U
    https://api-docs.deepseek.com/api/list-models! v7 w# E+ x$ R' s# [! n" X  O
    3 V8 u; L/ V- D% p

    4 m. u! n8 |) |: h7, 问题
    $ g; G+ s# Z; I& D* z+ {: M6 m: K9 u0 T$ y7 b
    deepseek 会将前后两段合成一段。  a. ?( s0 z1 _) |8 m7 R
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    " `7 k  G( d; ]. V+ F
    1 @' [! ~6 o7 u& {8 y$ `0 |8, 钱说了算。5 h1 [4 J& L% l' V
    + h0 r: m2 V+ e  S; X3 P) B
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。2 e! n' O3 A; q9 h! ~* K
    但是API就不会出现这种情况,毕竟我们给钱了。
    3 _( c0 j/ h) k2 Ychatgpt也是这样的。
    , d# p/ O! U+ n( L
    6 z, m+ z" v/ e& u1 g! ^% ~( K3 U  u/ _4 |5 v

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-22 05:33 , Processed in 0.082731 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表