设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2968|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 * @. E- I' F/ f- k5 O& s6 c

5 N6 B/ v: Q9 o$ C5 p( U把PDF上传,然后让他抓取文字,并修改可能的错误。# N( b/ K1 X) a: \; f5 J4 l" u4 ]
然后deepseek完美的完成了任务。& Z$ g/ H, d3 P: o- ^. L) @
段落清楚,列清楚,页眉页脚全部去掉。
" t' I# R" [7 Q# L6 b- n* Z我要疯掉了!
* m! A' Y$ L4 F8 u; a赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
6 C2 y4 @* U$ l. f& \! H1 J* X====5 Z! s* F  n/ T( a- j9 n
中文也很完美。
6 ^3 c; J! f+ Y9 h1 i- B7 u% U7 O% L+ y经验值,每次十页比较稳定。
: b# L* s. G5 M# j: H, D2 X现在我这里API还不能用,等恢复了,全自动了。
* N/ z( g# D( h4 Z====' D1 l' B5 B, D" i. J/ K7 ?
第二次疯掉了!8 V; A) ~: L# y: C* L
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
2 R, w: D$ ~/ ?2 f( S$ W% ]) M; m====, |( o  X- }- X8 f2 W+ M
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
: I! t5 v. N( a) t/ Q但是任务多了后,每次翻译的页面数是减少的。$ g. Y) C( K$ s7 A  f2 R. P, G8 w
好吧,我五体投地,继续探索。) ?. _7 K( ~- c: |4 a$ c
====0 {% l- l0 w3 w
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。- c1 P7 z1 W8 Q: Z. M8 A5 P- M
====
/ N' s3 A# e& X2 C/ H! n好吧,有些东西是不给翻译的,哈哈。9 X( Q6 _; ]* i: ~5 N
7 f# R4 u( k" y3 Y4 t# Y
Sorry, that's beyond my current scope. Let’s talk about something else.( J; w7 I- V7 _" ~8 G
====; D6 P! D8 j/ a; J( ^4 `$ V
然后我的英文命令也让deepseek 帮我修改,呵呵。
/ E& ^; ]: O( U; q5 t0 u+ z====# \$ @* u- j& x
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
9 h/ P+ Q! \4 c3 m5 {, Y====8 k& Y; a% z9 Q. g
时间段的话,北京时间的下午和晚上用比较好。
! {/ e3 Q  _# a5 b' z后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。9 B8 Z0 {5 [# N6 H' I2 Y
====
( B0 W1 Q/ e/ |7 l用千问吧,非常稳定,非常强大。9 i; f/ ?' \- x! M: J  c
https://chat.qwenlm.ai/9 ~0 i  m9 v( @- J% _6 j# j9 [$ N
====
, N4 B7 i3 L0 [$ G* D- aDeepseek,API 看上去可用了,但是不给充钱。6 v. g" l1 i0 I  Y) z6 z
6 t2 s# m/ }) o

# q2 ^( N4 n) z, g7 d+ z" S" X1 b) o1 b

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3768 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
      r) G" P& o9 L' F9 s( X: B. w这功能很赞呀
    5 l; s. ~$ R, z  h
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    0 n. w. D* X6 A6 e有没有上传整本书试试
    4 d4 R3 m- D2 T, c
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3768 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    & H/ N+ S5 P( {9 g) \+ E* M
    ) _4 m( p0 ^1 {8 I! f以后让deepseek 读出土的竹简
      x* T% l1 N0 T0 w( J9 l+ ^3 T
      g! t7 R8 t, U# P还有把古文翻译成现代白话
    - t8 Z) T/ o6 g: J, V$ x; ^" o/ o' f7 F5 N$ `+ Z5 J
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    13 小时前
  • 签到天数: 2929 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    7 F) z" y, B" J3 m
    3 T/ j, P0 k& D5 T/ e2 x我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    1 G" Z) C# t. Y$ |) \/ }请教是如何实现的?2 P$ A: t/ J! Z  \

    ) T. @1 b2 q" I我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    * [* V! ~/ W/ Q0 h' T% _! J( Q2 k) v% l8 k
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    & V0 Z! T1 J$ T1 m4 \文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    - D+ P+ ]* ]* n4 P6 B; n5 ~8 I8 L美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
      t& \% K( f+ a+ ^& f

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23" e% _- E4 Z# {, F2 N% U0 C: x
    请教是如何实现的?
    2 J; N: E0 [6 z' B; p, k3 z7 O0 z6 v1 C* u% _
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    - B& c1 v4 Q/ N" |: ]
    https://chat.qwenlm.ai/6 W2 D2 I+ ?$ p; M8 }, w
    试一下千问,估计美国人没有攻击他,所以资源敞开用。8 w- P  s, G' r# L) c
    很稳定,质量不错,好像最多一次处理15页。% L, q/ m' @, \/ R
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3041 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ! [- M/ Y: |, M5 U$ S6 _处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。  v" ]  ^! k0 r' X1 ~% T5 }: C
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。, }& C; \2 l. c) {) z/ e0 ^
    + D& y/ T/ h' n( c
    https://github.com/oomol-lab/pdf-craft0 G5 d8 x" H1 f$ ~* g1 D; \
    5 X) B. r6 [$ U% M" c1 c& J
    1. 这个工具要求装 python3.10. }1 C; ^1 N( r0 S
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    3 d- n1 S" F$ r3. pip install pdf-craft- G3 n" F: P, q
    4. 把下面的内容写到一个文件里,例如 a.py
    7 T' O8 E; n6 S
    1 j' }% D/ w1 f* j% c% j( d
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      3 \$ ?5 X0 M$ @; r
    2. # w0 c5 z! p% S  G" F. i7 h# b* U
    3. extractor = PDFPageExtractor() F" G" G4 y" X8 ]3 j
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      8 }' I6 i% C: V6 l$ m" b  `
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed! ?+ q" L: b  B: _" J( s& _2 J$ r
    6. )
      " S1 d: h( o7 g3 s4 t" @
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:) Z( g8 [' U) U0 V; `$ z
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):6 Q' b* _& o8 l
    9.     md.write(block)
    复制代码
    . j/ W4 m' f: ^( i- p; ~- i

    * u. R9 N" S$ V$ _) Q7 O要修改的内容:
    " u( g* l, H0 M* D. S0 V- O4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    0 ]+ T$ x0 e2 G2 I$ C. i4.2 markdown_path:输出的 markdown 路径文件名, u* d: e7 n8 Q
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    # B; y" l* u: Y5 z% v9 d& m. Z2 C9 f- ]- B
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    + M! R! \+ ^, L, E- {2 F5 V, ?: G8 w6 k
    目前为止PDF转纯文字的最佳办法。
    $ ~2 {( r! I$ j4 R先写个小程序,把PDF按章节切成小的PDF。9 @5 t1 I% T1 `: O6 W
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    $ ~5 {. J  w" g2 H效果非常好。) d; Z  C/ O  E' d: a  ~4 H
    7 ^& `9 n& C* V
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    7 c8 v  Y. s- w- P: R/ W
    * N2 @7 {7 `4 c0 T' h$ Qdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。1 y/ L, K2 A. q4 _2 U  n8 y9 F9 K
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。- @3 e3 K. {1 D3 D  i( I4 q/ T9 R
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    9 Q1 c8 x' c; F6 r; u" e8 h9 L1 m
    API到目前为止,差强人意,不如网页版本修得干净。- G8 E" H1 w$ m' i5 H1 A9 {

    1 Q) M0 h" G! q$ X( hdeepseek可以同时开四个。* _$ ^* @7 I! H# k2 D& E

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    * P+ W4 y2 C; ~0 |( O( g: u8 \1 @1 K( X- s: ^
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26! g/ }/ K5 x6 {9 E+ K2 |
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    - E0 E+ |: ]0 u8 J2 A' ?* g细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33, a3 I0 k$ H3 c. G0 V% e
    细说一下,听上去很不错,多谢。
    * P+ x; Y% N) ]$ m8 h
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    / J/ ]7 D9 w& u9 t' r5 H! I- u. w4 P' Y' v8 }/ p8 {
    已经搞定.
    ! v" U0 k6 p5 z& E, x. `) \: w# @
    ! s" o# y' }1 j  l首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- S0 b' A- [/ _3 Y# A
    ! ?  m- X) p& {" ?0 z. Q6 z& W% M  c( i
    1, python + pypdf 按章节拆分小的PDF+ K  h% ]- S! V( F

    ! _. b* p; o/ _, N2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    $ c* g8 K/ ?7 f) {5 ?6 D" v
    % ]5 j: Z4 T. T得到text file; m5 v7 `3 C) m& t7 k$ R

    + @# J5 Y* U& A) s* U+ `! Z3, python 读取整个outputfile,丢给deepseek 矫正。
    % s- U) n; j3 d8 `5 U; o) {5 W. H0 e$ v% l6 O
    模型是 deepseek-chat
    ; R9 m" }* R+ C; |5 v$ s- b& B8 u  T% V6 R# y
    max_tokens 最大是 8192,别的不用改。
      ?, A) [) t7 I+ [4 H$ _9 G- @5 \- E3 z# \" _: a& E* x
    参考:
    % E+ e  r; C  Z' M+ b; A$ Rhttps://api-docs.deepseek.com/api/create-chat-completion* `! m6 p: i7 S/ B7 I
    ! G1 Z2 l9 P& t/ t* {& q# k" H
    4,费用:
    ; [! `) ?, I  s+ d# }) G/ h8 a$ h5 f
    实测:% i) x3 |7 T% G7 @% l) V

    . Z0 O7 Q+ _( C( o! x296K 字母,用了 9 美分。
    7 k1 _. i7 L5 C2 e& h; s6 o( ?, u8 j/ B9 f# r+ g( o
    英文字母 到 token 用量大约 1/3: y0 X  x& _! Y( j% |  ]2 }

    ( C) p- d9 n3 ~% l( ztokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    1 K/ k9 K8 u' D9 W* k
    & |4 t9 o/ o9 Y1 E0 i9 r32899 个字母花费 11782 tokens,包含输入输出的 tokens9 m5 h4 R/ b0 w  }) N

    - x/ B6 M6 T) Y! G+ V% c7 K3 l价钱,非常非常便宜了。
    5 y% P. ~  m$ J8 ~" Z# e) b, H: Q5 q& n( L
    参考如下可以计算,懒得算了。5 ?5 N( ?6 I. U4 O4 R$ Z  f
      S" f4 P4 M) q5 w
    https://api-docs.deepseek.com/quick_start/pricing
    9 _2 E7 w% M1 _) B; T' h  d3 B' p% c8 `) h. N$ W- |
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14) P( G( C: A- K0 Y  }: M& Y
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    6 Y0 o2 A& K+ t/ [8 w# W! W& I1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    & m* j" y' I5 E& h( p
    & p+ Z+ Y4 |( R3 H. g5, Balance% e0 J0 r7 ]& B5 \* i, b2 E0 K. A

    2 \# _6 W+ S2 q. Y' j% p; X可以在程序里调用,知道每次运行结束后,balance还剩多少。
    - ^! T9 o1 N2 Z/ `8 [& S4 Q参考:
    / d) G) R/ B7 G3 {# C7 B3 [https://api-docs.deepseek.com/api/get-user-balance$ Z/ v3 H: A9 {
    . }* T9 j  f" v- H. J
    6, Models' Q% n) ]  E: \; C# y  W
    " b1 x1 M0 D9 K) j
    目前就两个% B! n" q8 H: h' u% m% M+ `  m
    # deepseek-chat
      U. A# ?4 V0 }7 {# deepseek-reasoner8 o+ b4 h/ G7 y1 [6 o3 s
    " E0 l* Z- `) {" n7 Z" p
    参考:
    / c  |. g( M# z) ^- v2 `- whttps://api-docs.deepseek.com/api/list-models
    / y. i" |# b/ z: R4 D; x
    " ~0 k$ w  o/ j9 z* N% {* d" v: I% X* \9 ^* z
    7, 问题
    / q; N4 A+ ]2 j0 Z
    % }( `3 |$ j! Z4 W+ z$ F' qdeepseek 会将前后两段合成一段。
    $ Z6 |' ]6 ^. k4 C特别是那种大量的对话的段落,deepseek会给你合成一大段。
    9 z* X2 f  N# U$ E
    3 L6 m" M3 |- F* u6 t8, 钱说了算。" Q1 ^; W; _6 `6 g* {0 k

    ( Z9 I  W  T, G) u" }# cdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( s2 o. ^$ \( k8 D1 @, M! I7 E: g
    但是API就不会出现这种情况,毕竟我们给钱了。
    ( z  y6 o0 Q- E' }chatgpt也是这样的。; @; r1 f# V# T  @4 J8 u
    & F. \2 `" X8 Y3 h! R
    . \$ `1 \7 t# `. e  x- }, k

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-28 14:11 , Processed in 0.065139 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表