设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1656|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 2 Q  S+ H, z/ K7 ?' n
3 H5 S0 A7 \6 g3 z: o$ z. w
把PDF上传,然后让他抓取文字,并修改可能的错误。
. m  m- G7 r4 e( g3 h5 U! k' d+ b0 ]" C然后deepseek完美的完成了任务。
5 b  t7 J6 |9 t& ^+ p8 o6 U段落清楚,列清楚,页眉页脚全部去掉。: y2 W1 x$ j* _% [
我要疯掉了!2 }2 d; M; z. F5 Z; ~4 B5 Q! m( f
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!+ V/ h0 s8 I$ C
====$ W: q8 {. d0 t& |6 L& a2 ~% x
中文也很完美。( C( r7 ]$ ^( a9 l. N7 ^
经验值,每次十页比较稳定。& j4 p" |0 v& B. _) f
现在我这里API还不能用,等恢复了,全自动了。
' ?6 D, q7 F0 a3 w. d====% d& }( k2 |  R5 O6 |* l% u% C
第二次疯掉了!) Q9 D* a; i& C- K& v( [7 a7 `
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。7 m  v, W% X) R( N
====
# _) o+ K! c4 P& P5 ?" z现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
, q/ N- I1 _8 ?7 ~  n' p但是任务多了后,每次翻译的页面数是减少的。
, B0 J* h/ u8 v# |2 q4 x' J# g8 w好吧,我五体投地,继续探索。
0 U' D# c6 V. w, ]# ^4 ?9 e0 O2 O+ u====
$ X* X* f" v$ j2 k' Y# B为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
' [/ m4 t. R7 r1 v7 r) \3 m====) y+ t4 v6 n4 V$ l8 \
好吧,有些东西是不给翻译的,哈哈。
1 b; }& ]- m2 I# t
; m& q" q3 o# wSorry, that's beyond my current scope. Let’s talk about something else.
. r+ s7 O. ~* C" c/ P0 B====+ W' i% J4 N. X; D
然后我的英文命令也让deepseek 帮我修改,呵呵。' p, \* T' \1 f7 d% l+ T  E
====
! e4 F7 o& x% Q( z. M  R. l日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。& v7 G1 N( m4 u6 A6 t( B5 b5 T
====
$ I3 a$ w) B/ H时间段的话,北京时间的下午和晚上用比较好。" {( L1 {3 \1 U
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
4 j+ @; w9 x3 f. s3 }$ M====( l4 _9 v0 K% h- D4 j3 C
用千问吧,非常稳定,非常强大。/ J, S1 s. _' H
https://chat.qwenlm.ai/- A7 Y" s8 ?6 D5 ?6 }+ F
====* J, ^9 M# w% R6 p# ]& i
Deepseek,API 看上去可用了,但是不给充钱。- E$ B7 d. T4 T3 S
% A+ q/ ], t5 c- b; X

1 w5 G0 l- O3 c- J, Z9 g5 G7 n- \2 V! X0 I

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3521 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    9 j+ J) o! A8 Y$ o这功能很赞呀
    ; Q7 {" N0 f  n9 M/ x6 E7 h! q
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    & ]; p, G; W; E5 L3 _" @有没有上传整本书试试
    . b1 T+ |* J1 Q+ F6 w
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3521 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 $ U  ]) W) W1 V' f  e. P
    + g7 }' m# \: u# I: ?2 ], ^
    以后让deepseek 读出土的竹简% e! r% l& b/ V- J* Q7 ~  v' Z0 u% I

    8 O6 [2 a' b" J! B5 b  B还有把古文翻译成现代白话4 |% B* _0 Y; A5 S; Z9 ^( K% a

    3 k! \+ |* H, X" K! u: v7 ]  ~* D以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    11 小时前
  • 签到天数: 2671 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    ' I" {4 x2 C  T1 @( V* o/ w/ c
    , ]  q# }, ]* F+ E8 S我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    1 X/ R3 N' U8 {% g0 o请教是如何实现的?
    4 @: i3 N$ Y- m" \- q. A3 v% h9 F6 B/ a" w. p
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    # L9 Y% U) ]6 d: \" |
    9 s5 o% f5 r- e7 F  t3 J  I我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ( r2 r* Y* F. b3 w7 E, [0 W文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ; B. F0 q% i4 z美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    , r) n' L; ^& ~! k

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:239 q$ t. {3 |! }" i
    请教是如何实现的?
    ) @& l5 Y" F- f& `9 a: s! i+ [6 B5 U7 a$ H- @3 Q
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    4 f9 n/ @6 L! Z7 g& d( u2 G, S
    https://chat.qwenlm.ai/
    ( f: n  ?9 s2 P0 [试一下千问,估计美国人没有攻击他,所以资源敞开用。! c5 |+ {# C6 I9 X, |% y  x/ x
    很稳定,质量不错,好像最多一次处理15页。8 k5 u9 o* k' W4 O; `3 u8 J
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 2808 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    2 M0 _+ e- _+ h处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。8 I7 y! ~' w5 J
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。1 ~* f+ T& Z8 V  o$ y) A

    5 F; a; `- d1 o# H  u8 F4 ^7 Fhttps://github.com/oomol-lab/pdf-craft) N. S  N0 \5 R+ N, ^
    - [9 `  O5 y$ G1 h
    1. 这个工具要求装 python3.10" B1 d8 p' E: a% R- u. Y
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    , p5 c3 Z% {0 H) |' V3. pip install pdf-craft. v# U$ _7 K* ]
    4. 把下面的内容写到一个文件里,例如 a.py1 M8 w- e- G0 h, G

      K+ m2 r' x! Y
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter% K2 ^5 F* L2 q' W

    2. 4 [% [+ ^  \6 t1 V2 t" [
    3. extractor = PDFPageExtractor(
      ) U( a* d% L' \; v' ~4 F' g% d
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.) R7 |! m* ^& q, n
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed+ h* p6 P; g0 ~( A) G* @# Y
    6. )4 r3 k6 z; ?* F
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      % [) [* {8 v. d& c; W9 ?- P
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      . e  W$ b' P4 t. G
    9.     md.write(block)
    复制代码
    8 I# e! e. V0 E2 n

    9 Q; N: e! _* W- T( A要修改的内容:
    6 u! }: d0 x, v, w4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    / y, }; O) X+ k# F1 h4.2 markdown_path:输出的 markdown 路径文件名+ c4 W7 Q  n( d  L4 f
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    " ~: P' ^1 Q/ N1 y: K- O# i& g7 g% c
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 6 u) K0 F' k( E5 r& t8 e
    : W/ m; P) i% Z, R, P
    目前为止PDF转纯文字的最佳办法。
    # `8 A) l7 l3 b/ G* g先写个小程序,把PDF按章节切成小的PDF。
    6 X( |1 C% t& y% f0 p# o: O8 Q然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    1 u3 z$ P. J# G) w7 u' w# u, ?6 _效果非常好。
    5 t, |; ?2 U/ l$ X3 k1 ~' j% A7 O; z
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    ' _. \+ s/ m9 z0 Y# _' L6 C( r( M) e3 I4 ~
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。* L- r- n$ L+ s1 _/ A
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。! p- |# Z/ Y$ z1 y
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。* ?  J0 a7 z) `$ R2 J4 O: |
    3 \6 M* z; r4 k2 S# N
    API到目前为止,差强人意,不如网页版本修得干净。
    $ }1 l1 s4 B- K
    ! M' t. X% j) Q3 X+ ldeepseek可以同时开四个。
    . V/ b7 [8 f% g

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 5 L% C7 W7 K" J$ i" S4 y

    + }, G: r& z+ m4 U& q; k让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    5 B* s$ F6 q0 l$ }4 l3 W* z让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    % X$ `# O9 z2 C1 \5 ^细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    9 H8 T4 O) ]9 M2 Q9 B1 E细说一下,听上去很不错,多谢。
    5 g& s6 ]- y2 c# h4 a( v) G: ~0 y
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    " t. K4 {/ i) g6 u  A0 ]0 }" j
    + D) L' g, R1 h2 v3 r; ~已经搞定.% Y$ Q1 C$ I1 u
    : n5 C/ {( E" Y( G0 H, k" d
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( O- P- @' w. {, i9 L

    2 ^2 w3 o; R8 u1 j1 W: w) P8 K1, python + pypdf 按章节拆分小的PDF
    . q% J) ?' u8 g3 o- K: g- p' w. d+ y
    8 R4 R* E6 x7 T" e$ F2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    , I, {+ v4 D8 V7 P) [6 C
    ' O) o* o3 \  h0 o! R5 w& D得到text file+ W7 _. {" l/ r4 a8 y- p
    ; s- B- t  m8 J& G
    3, python 读取整个outputfile,丢给deepseek 矫正。7 `2 W* m7 `$ f6 @
    1 J) }! F( c$ ^, ?8 P
    模型是 deepseek-chat, ?% T6 u7 |' y

    " J* `6 q0 i' v; G1 D6 I$ U# Z: Amax_tokens 最大是 8192,别的不用改。/ ~- f2 B* r3 F

    + Z  N7 k2 j8 ~9 B, }! U* t% K参考:) I7 p# `- }! G% C, `0 w7 ^+ z
    https://api-docs.deepseek.com/api/create-chat-completion, a* o: _& o7 O# r& t. |% Q7 j* W
    2 ^. L# t" @9 A% w$ B
    4,费用:
    * y" ]5 A; \+ Q. d
    % K/ _( Z8 K) @# k: C* y实测:& N+ [1 h/ L6 v6 f( r* R

    . m* A% {" `' P" w6 o296K 字母,用了 9 美分。
      L4 i/ Q; X% t, b" i
    2 }# w6 ?* V: z, x  `4 ^英文字母 到 token 用量大约 1/3: t3 p$ W4 [- i) s

    # K5 j% q. u# r2 m/ ]7 O) i4 E4 Ltokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899: R0 l1 Y) _, s6 q) a
    . y6 i- \' H0 H6 W
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    % O0 I, g2 ^/ A4 _( t
      T# }/ R2 A8 h3 K; C价钱,非常非常便宜了。2 Q6 W# ~6 W2 S5 @
    . Y* h# ?- z, B
    参考如下可以计算,懒得算了。
    ! q% A& k) b0 m( J. V: E5 x* X4 z6 `; K. r% f+ `
    https://api-docs.deepseek.com/quick_start/pricing
    7 Y# O  k  w# D) M! ]
    2 F; j5 m* @% U8 p; f! n1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    0 s/ \" s% a" }. w( Z" f" \8 M* c1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    0 B: |4 w% _, M1M TOKENS OUTPUT(5)                                              $1.10                $2.19/ U( L$ A- ?$ r' }/ d, w

    5 n% q; T; @+ w5, Balance  P7 W3 N" n' H
    $ ]0 n* @: S9 h% s
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    5 y2 h2 a& a' w. ~: o参考:
    2 b( q3 w( T8 X5 n! ~' P" y- Zhttps://api-docs.deepseek.com/api/get-user-balance' [: t0 z- M0 n6 w/ B+ ]6 I

    - Y' F5 C8 K& l" w# D# y6, Models0 T: p: y/ u6 s$ x
    ! A) H/ s3 x7 q/ ~- g% s
    目前就两个- j+ @* B6 ]5 e8 b' L
    # deepseek-chat
    % J; ?1 L6 `) K# `5 b: T! @6 N# deepseek-reasoner
    : }* k: }# G5 c! [* g9 j
    , B. D) P# |* T. e& S参考:1 J3 I" w% R( ~( I( _  s+ c9 Y/ Y
    https://api-docs.deepseek.com/api/list-models
      t9 H+ E5 ?6 ~. j' ?9 x- Q6 W/ L1 ~9 T; x, L" G& [; Z  K
    : F9 C! e: x5 u, A0 H
    7, 问题, [- A* u: O/ A% {" W% L. r/ E
    3 I9 k( u: \$ `, d
    deepseek 会将前后两段合成一段。4 c7 g' n& b& {3 A( ^" s3 _) H
    特别是那种大量的对话的段落,deepseek会给你合成一大段。( V, H! F( n( _1 w* V
    ( E4 h, i) s6 ?2 z% _* ?
    8, 钱说了算。$ R) O* u( T1 ]' U

    ) z6 @/ d$ J; g. H5 J" G# E9 s* Zdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。- d# y9 a8 F4 D) e5 b" F1 S" }. F
    但是API就不会出现这种情况,毕竟我们给钱了。
    # s7 j. p4 r: e6 y  A1 M* Fchatgpt也是这样的。
    / Q/ y( s+ i! g" D( w+ N$ R" c' G/ X) v# o# G  ^
    " @& y' D. {$ X; }/ M. C

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-25 14:12 , Processed in 0.053479 second(s), 28 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表