设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2668|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
# V- \$ `- g2 m$ P# @: ^) o) `2 m1 p2 u6 A/ }0 ^# `
把PDF上传,然后让他抓取文字,并修改可能的错误。
8 \. F0 \1 i! p然后deepseek完美的完成了任务。
! P( q9 a0 x+ N8 |6 D段落清楚,列清楚,页眉页脚全部去掉。7 g9 c1 s/ c2 B, x
我要疯掉了!) U  h6 j5 O3 w3 @) W) h
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!' D' O+ H" V% J; Z/ y/ l2 ^" |
====# P& }5 |5 W" m0 Z- R! T
中文也很完美。
& P/ [* K& s5 A经验值,每次十页比较稳定。
( j7 ]1 r$ B- q现在我这里API还不能用,等恢复了,全自动了。! q2 I+ e+ u; Y% Q
====2 j& W8 m/ V% s; m  m5 |
第二次疯掉了!; C* Y. Q6 r( P) t3 s: M
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
- T( E, m- T2 t& e3 a: C====. t; d9 |$ P. H( A# J
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
! K& W5 u0 v! H但是任务多了后,每次翻译的页面数是减少的。0 _  r6 J7 ~  L- j: m' b2 p
好吧,我五体投地,继续探索。: I3 i1 J- M  U# t! f6 a, p* i* \
====3 z/ D4 v4 z3 S8 ~8 P* K' V, ^
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
- p7 J7 f, [3 ~9 t; e- M# H====
8 O9 x+ b9 [4 V, G$ q' A* {5 @+ a好吧,有些东西是不给翻译的,哈哈。
& E6 w( l) |+ i. e, J
6 f1 W3 `  }! s6 d/ JSorry, that's beyond my current scope. Let’s talk about something else.! ]8 A9 A3 X7 E
====
& y. }0 p6 @# n6 s' u: G然后我的英文命令也让deepseek 帮我修改,呵呵。
8 `' b( r0 O- Z  [; e====
) f9 ^% }4 d' f9 O1 b4 e9 g6 C日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。( V: _3 z; s" O2 h
====* b! [9 `1 n; E
时间段的话,北京时间的下午和晚上用比较好。7 k# o  J9 x  _! k; n2 y7 ~5 c+ ]
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
" ]& E$ d3 X0 r$ _+ ^====
& }9 Z. z9 I% U( ~' q用千问吧,非常稳定,非常强大。. {; J, e) B: P1 A8 G+ r; o+ P
https://chat.qwenlm.ai/8 S% I0 M6 N1 u9 {: d0 a2 A5 @
====' ]6 U5 S, H% y' X
Deepseek,API 看上去可用了,但是不给充钱。* s8 I# K1 `" ?7 c8 ]
& k/ V- {) @( O# o

: |( N* g5 g( K+ Z( a$ `
' v7 w% U7 u: {0 a

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    17 小时前
  • 签到天数: 3698 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:534 g% K% V$ Q7 g
    这功能很赞呀
    & Z( F3 H) E. [+ ]5 S
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:132 f0 p! u, H: q: c
    有没有上传整本书试试
    9 C2 }$ f/ O/ l
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    17 小时前
  • 签到天数: 3698 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 7 t8 _  d7 s5 P' J
    & [- q% g" J1 _  C% h8 t
    以后让deepseek 读出土的竹简
    9 q7 |3 \5 q) _6 q( y
    ; [6 O5 I, ]! {$ z7 B还有把古文翻译成现代白话
    ; p. l  k: L+ g3 b+ F- B. N8 T7 N( k4 w7 ], H
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    16 小时前
  • 签到天数: 2860 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?/ Y, g; @9 D1 z+ ]  U7 S+ x+ I
    ' h( a0 y# o" P7 a) @
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23- a& u1 f% Z3 |1 ~6 {& ?. \
    请教是如何实现的?
    : P7 a3 l, h9 G  K/ M; p: Y: ?2 X
    ! k, H, ~/ J: p2 |  D我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ! ^/ l+ m9 W# x

    - Z. Z6 ^5 e: j5 B) F我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    3 Z/ k/ O/ A# ]4 \; Y8 O5 V文字之类的没问题。估计deepseek现在暂时只保证主要功能。7 |, d% @9 I' ^5 ^
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。' X6 {! V$ g9 M% ^' A- M* V( W

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23; B3 O" \. ~: q, u- O, t$ b, X7 i
    请教是如何实现的?0 r. z% L  E7 T5 ?2 e# n# I) n

    ' g8 r. J- y: ?5 s9 h1 }我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    " @6 s6 k2 L  l# h
    https://chat.qwenlm.ai/
    - Q! l1 l. x# Z* l. l% W9 M试一下千问,估计美国人没有攻击他,所以资源敞开用。! ~+ H1 r7 R- T! L" D
    很稳定,质量不错,好像最多一次处理15页。1 x0 }+ ^- y  B% @' |) O. J
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    17 小时前
  • 签到天数: 2973 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ' b1 ^5 B: X# a( y. F1 ]  S处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    0 P/ J% t4 T. N/ A这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。) T( N' Q6 `. V0 y. D$ J
    % {  K5 W5 H# }! f$ }$ G% W' m
    https://github.com/oomol-lab/pdf-craft/ L4 I( p! e( M

    " |* n' k' ?- a1. 这个工具要求装 python3.10$ C2 C. [0 i8 D* o1 p
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    9 F& L  ?6 G4 e  g/ g3. pip install pdf-craft
    ' C+ o! Q$ p, X) X! A' r2 t5 C4. 把下面的内容写到一个文件里,例如 a.py
    $ z, [5 s% q+ U( j
    , o& |& R, ~5 {4 H/ a
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter8 Z3 g; ?+ l; G+ Y  l0 R
    2. " R3 N$ e: c% t& \2 O  s% Z! X
    3. extractor = PDFPageExtractor(
        \8 W$ h0 ]5 K
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.1 o5 E0 N6 C: h; Z
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ) J+ [, _% f" T# v/ K
    6. )7 G2 @' \9 n" H; E# \0 m
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:! H: n! Y, w+ q7 g4 I4 f
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):5 d( g& E) g# _9 W
    9.     md.write(block)
    复制代码
    5 g0 _( Z8 O, i3 z- q" w+ F
    ' h* L1 N' B0 D- v2 ~
    要修改的内容:
    5 k: M, p8 t. b- A/ [* {4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型6 D2 ^" M5 I6 e3 [
    4.2 markdown_path:输出的 markdown 路径文件名
    * m9 }' ], h$ m& ?4.3 /path/to/pdf/file: 输入的源PDF路径文件名6 E3 \/ }  s0 N  z$ P: ^: ~6 `

    : p% I" R" a8 U5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    0 s( L' Z' k, ^3 o  o' U
    & M8 N& G+ e( W目前为止PDF转纯文字的最佳办法。
    4 ~& r; T2 B- D& k6 J, l先写个小程序,把PDF按章节切成小的PDF。
    2 ]$ S5 z- m) m) R8 W! H然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    / y1 U" z3 b- k4 B7 C效果非常好。
    & v6 l: _/ `- T$ e5 F5 R' ]$ U3 x% {% p
    deepseek,qwen,chatgpt 三个,deepseek是最好的。- u$ h2 p6 J$ l/ a- t

    6 {! T% v4 j1 edeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    6 e( L& A6 v4 Q( v9 `而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    " G6 \0 i7 c' s9 X我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。$ P! |. P3 H8 I: a& ^# F+ b8 }4 Z* i
    4 {% l* X2 c  u  y) R4 X
    API到目前为止,差强人意,不如网页版本修得干净。  Z: r* @. j2 K" a1 w# X; Z
    ' F3 z" T* r& `: f% ?2 K7 d
    deepseek可以同时开四个。
    4 S' c5 {% J+ Y

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 / K! ^$ {$ z- p, p: [( |. Y

    / c. s$ Z. w! Y让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:263 R- m2 l) P0 o, l: h! |3 L" \/ W
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ( \# {, s& A6 o, t5 \细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    ! q% Y" A5 }5 S( M2 Y细说一下,听上去很不错,多谢。
    " H8 ]) d, p' D+ ^$ x/ z% v7 z
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    1 q6 A$ p2 W6 u) [
    ; y: h4 [" X8 e# E已经搞定.$ P1 m; d  F. z* L+ N+ M. ]0 `+ U) }
    - s8 O: h% Y7 r1 Z! V
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    * f$ x& w  b$ r3 u7 ?" `! S  O8 z: {
    1, python + pypdf 按章节拆分小的PDF: h9 ^- [0 e( w. U; D8 I! X
    & o+ h' j1 t2 y; ?: I6 `; ^3 s
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile& i  Q1 V( O! G0 c% Y2 W8 u2 @+ p& E, l

    ; ]0 F6 X7 {4 A; N. [* I% v得到text file: }+ Y4 p4 g. A) o: V. b

    2 n8 t7 K8 s9 U) L- w# i6 l: L3, python 读取整个outputfile,丢给deepseek 矫正。- Z& s3 S+ ]( D  B  y% F

    & C3 l% B1 [) Q. u9 |+ a模型是 deepseek-chat
    / i* E/ {. ?6 N$ A, Z( S: r6 h$ F4 P" p/ m" q# j2 W8 X: k
    max_tokens 最大是 8192,别的不用改。
    8 p! J$ P2 B7 r5 |, N
    % R0 x6 r# x) L- O+ h6 ~参考:
    9 [, d' v! \( H0 Z* p; d6 Khttps://api-docs.deepseek.com/api/create-chat-completion
    ' P/ o4 a- h4 ~$ Q
    0 \! y! H- G8 H+ h1 m& l$ L" ?4,费用:  D' F0 r* k+ A  g% z
    0 T" c- D+ `6 K8 O
    实测:- b( e. R2 W3 {

    % A7 I) U8 q& m  j0 [+ T296K 字母,用了 9 美分。
    / @4 X8 ^. s! V
    , t% t) _8 T1 o$ `1 j& b英文字母 到 token 用量大约 1/3
    . \* \  o$ A8 J8 z9 u) s/ C. f+ R) \% G1 x4 |9 M
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899& p1 v- T2 |2 v$ n7 U4 L
    . D/ T' O! X" ]) @3 Q( G0 ^# b
    32899 个字母花费 11782 tokens,包含输入输出的 tokens$ p! O/ X& I; F% m. c
    9 l6 p  m) z+ h& H( X' n+ E. n8 L
    价钱,非常非常便宜了。
    ! d3 W6 _4 Y" M; u0 o: r# p! U" T( W8 |2 ^1 s* p
    参考如下可以计算,懒得算了。
    ! P* U: |$ i  }1 F$ Z4 Y% M
    ' v+ F/ S0 m! U* ]0 Phttps://api-docs.deepseek.com/quick_start/pricing
    $ V! k. q7 ^$ b% X# l6 p' D! e/ T& w- C- w) t4 E) u
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    5 R" U" E1 a7 l) Z0 l1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55) |9 t1 S7 i6 O! W! i: b8 @
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19& H9 {. r1 A- p) t- e# R2 S, P
    ! w+ g% \, v1 y- S
    5, Balance
    2 j$ c; ?- Z/ S; \
    . i4 y! p6 e' ^0 ?: F- l可以在程序里调用,知道每次运行结束后,balance还剩多少。( }- C( R! Y0 H% ]4 x" M& Q0 s. y
    参考:" I- |* z/ v9 R- @  A9 r
    https://api-docs.deepseek.com/api/get-user-balance
    ' {& R. \+ O1 D8 X
    9 h' L. y. p. Z) d% I6, Models
    * Q. ]& j; v. Q  ^8 H6 f4 Q$ T. ?- v# P! x: C
    目前就两个$ G9 ~( V, u* B( h' H8 c
    # deepseek-chat$ @: V% k/ r/ p, b% x6 y: o
    # deepseek-reasoner  V2 r: J3 R, G
    ) p$ ~) J) K) F9 O3 Q, L
    参考:
    5 F2 }. G3 q# `. M! b9 w% E" P. b2 Thttps://api-docs.deepseek.com/api/list-models
    , f9 X4 T: \4 j9 X  g) W7 G! {6 o) V+ {3 L# m8 C
    / w& a/ ~) b" X) ^
    7, 问题
    0 |5 B: k2 a1 D$ h4 C; f/ m/ P$ i0 w. {% e9 m. `* U4 U
    deepseek 会将前后两段合成一段。
    7 G, t* _  x  J+ ?8 U特别是那种大量的对话的段落,deepseek会给你合成一大段。
    , B( U/ M& S' I3 W2 `. [- c2 ]; g; l- M$ Y/ H
    8, 钱说了算。$ @5 P9 G& R2 j* ?- [
    % V3 n& X7 \1 T8 g9 V' e# y7 L: u0 B) ~
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    4 F) k0 }2 y8 B. Z; u! W但是API就不会出现这种情况,毕竟我们给钱了。& X% x, M" X- c* w4 O& ~
    chatgpt也是这样的。
    4 l# L$ {: a  |+ N4 `+ c4 [& `- P  |5 ~- O, g

    3 w) l9 T& U2 e  U% s8 B& N

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-17 17:40 , Processed in 0.061842 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表