设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1335|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 % z5 Y; `7 E0 }+ n, W

0 q+ D# ?+ k+ g5 F* H把PDF上传,然后让他抓取文字,并修改可能的错误。, {# g  b5 E) D7 I
然后deepseek完美的完成了任务。2 Y' ^2 J  o" a# _; e: n! F" }
段落清楚,列清楚,页眉页脚全部去掉。3 x/ j9 e/ l+ m4 ^$ x: c
我要疯掉了!
' D" Z9 T/ {/ O! f赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!0 ^3 e6 Y. Z$ h! W& h+ N
====
. R+ b0 b1 Z9 A# ~( ^0 I中文也很完美。
2 M0 @- D; P9 R$ s3 [+ H, V' ^% L5 D经验值,每次十页比较稳定。
: f9 {, I) b6 h' U' b8 I5 c现在我这里API还不能用,等恢复了,全自动了。; s# U2 R. a1 {- |. c: i* C7 S
====
( n3 V; z. L0 q4 M* `- Z第二次疯掉了!
# u3 }( Y" A6 k0 ]" X( o我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
9 H5 T* a) Q4 C6 M! z5 R2 ~6 `====
3 ?( O3 d9 Y" J* X现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。. P3 r9 F. Y. z, m" w9 f2 T5 T8 Y
但是任务多了后,每次翻译的页面数是减少的。; @; T  l: a1 l. f
好吧,我五体投地,继续探索。
4 x  \& U' Y7 ?3 Y3 M3 B; @====
: D  f  ?# f5 T+ Q& R  r* K为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
- g! s1 r% M* N" U====; E3 v! |9 s6 x! y0 F( a2 c$ p
好吧,有些东西是不给翻译的,哈哈。
, D2 L& R3 @2 j! u& P
, C$ b) D" \$ @8 f7 RSorry, that's beyond my current scope. Let’s talk about something else.
1 M  k# F6 d' N  ?' x( v3 [$ z====
! d1 P% d- c2 N0 [然后我的英文命令也让deepseek 帮我修改,呵呵。* v% c1 H! v/ a. E5 [& T$ l* S
====
% V) _: H4 G% g+ [5 O8 a" r日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。5 Z& o9 B/ g& P/ s* K
====
, L4 T) y( h+ W! \* l- c时间段的话,北京时间的下午和晚上用比较好。
+ j8 m. B" }* Y+ `后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。; `$ a9 A6 S- a8 O9 A2 O
====) Q+ z7 e6 v  c$ [+ r" [
用千问吧,非常稳定,非常强大。7 K3 n: ^/ O2 T6 x
https://chat.qwenlm.ai/
8 Q% F' k8 t1 z% R7 E) o& U====7 |6 Y* a$ V8 o* e' d, u2 T6 d
Deepseek,API 看上去可用了,但是不给充钱。1 j. b: O3 |  _+ t4 w: C3 W
! X& L! b  ~2 W1 q) z: Y
. b5 D7 E) B5 w% o$ X% N& A

' Y; ?4 O* V3 ]- m/ f- Z, ~

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3466 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53& b( z2 ]! g- h4 S
    这功能很赞呀

    8 `3 d4 q5 d& ~. l简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13" m, }- S  L" V% Z) v4 @
    有没有上传整本书试试

    9 r2 J% j; r, s+ e: e2 V目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3466 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    ' E' a3 o8 u/ x# t: M/ F8 l7 j" m7 [& z& Q, {1 z# b
    以后让deepseek 读出土的竹简
    . K4 T3 l3 b: }  A5 {8 H+ K7 y
    3 j& U1 p! g* w5 z2 D还有把古文翻译成现代白话1 l) _- H% x6 k* U

    ( t" ^) x! [& I1 Y6 H4 X( |以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    18 小时前
  • 签到天数: 2617 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?& T1 [  T. \/ H5 i( R

    . N5 X) y5 |7 O我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23! ?" o( k/ C9 d/ O& {$ y* D7 j
    请教是如何实现的?
    ' F2 k; Y# N  m8 L; v% s2 J! V4 _& A6 k. E' D% g3 |8 S
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    , V7 Y; V( T; ]' |
      V) I# |4 l3 w我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。' O, i: @9 n5 p. }
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。3 Q, c  W4 c) a( x* r
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。+ }* d- W2 l4 A2 u  I7 q1 C6 D% Z

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    , u3 t* \+ v1 F4 Y0 [1 b) `请教是如何实现的?
    / H& X  S/ A. I$ ~
    ( w6 a# v2 x$ P2 ]* V( p, C7 J我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    . u6 P2 l8 W+ L& m2 ]" s  k
    https://chat.qwenlm.ai/; g% t) O- ?1 r6 D4 S
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    & ]) m+ E" p% _3 ]! a很稳定,质量不错,好像最多一次处理15页。
    ) i" ~8 `- w, d/ q- E2 K: c我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 2758 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。; _/ g! ]. f; [* L/ F# a& m1 ^3 q
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。5 X8 x& n3 I  W6 b: @" E  U
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    : {  M5 q* \+ L7 m* D9 O) B+ E
    3 \( N; Z! r6 C) vhttps://github.com/oomol-lab/pdf-craft
    5 g9 Q! q7 K' x& O4 ^% U! B6 y0 U0 Q5 O$ n8 l
    1. 这个工具要求装 python3.10
    ; f+ H& C/ e: c5 I2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    ' s) N" P9 \" \9 h3. pip install pdf-craft
    5 Y( j9 F0 X& b9 I- C/ c4. 把下面的内容写到一个文件里,例如 a.py
    % \; ^6 ^2 x3 u# Z0 B- k  z) x) U4 u- Q: W2 m" |9 ?
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter  e  M& @& q3 R1 U
    2. 0 k/ y5 s# ?& {# E" b& d5 z
    3. extractor = PDFPageExtractor(/ J0 X7 V5 j! ^+ ^/ l( E1 K% P
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.3 @3 [* P- c  P1 Z& p9 M7 x
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      . x# x  f3 ~  f& t9 Q
    6. )7 P: v" K! e4 l) s; M
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      - \9 U3 a: `: Q5 x
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      # u6 X. _2 W; L9 _: [( u
    9.     md.write(block)
    复制代码
    # C: R$ g& c- E2 K( A

    2 X+ {# N  F5 ]要修改的内容:
    ) e, F5 {# g( A) j4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型- u2 A2 E3 b1 ?, [
    4.2 markdown_path:输出的 markdown 路径文件名
    5 ?2 g9 y9 E  e  v/ }. g4.3 /path/to/pdf/file: 输入的源PDF路径文件名2 z4 i+ ]- [. e0 j' d( r0 `
    8 h  l% A. w, ^( I. r) v
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    & E( Q% t- I$ m* D7 y
    6 y5 H3 H  i, _目前为止PDF转纯文字的最佳办法。
    ( U1 A' x: d, d& h& o9 J' m先写个小程序,把PDF按章节切成小的PDF。8 R# a, X  C+ n8 w- S  y
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    6 m# w) c% f8 V效果非常好。
    . ?9 p& r* P9 B2 Q+ C- `, g- i& W$ d. J% H: t) o7 q3 _+ n
    deepseek,qwen,chatgpt 三个,deepseek是最好的。; S2 T3 K4 ]7 V2 I, u0 T

    ( |# W1 |6 E5 c. Tdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。  f: _* y( i0 @5 u  W
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。% }9 K  b# n, t
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。5 _  l! _- n# C( G

    . B* u4 m  ^4 w" N8 C/ V7 `API到目前为止,差强人意,不如网页版本修得干净。
    0 g- E7 J( K' ^7 x3 f# \- ]
    ; f& u2 F7 Z5 v( G1 {deepseek可以同时开四个。/ [6 w4 I2 L4 |; V  w) ?

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    3 P, f, W) {$ m$ l% J9 j, s/ n  q- G- Z) ]8 M
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
      _7 H1 j, ^: T: v让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    2 u' w; L" s6 U7 c6 K
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33, X( t) J4 J" A/ u. u' t- [8 F+ ]
    细说一下,听上去很不错,多谢。

    6 r, a) h3 J" z: n, j! T直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    # M3 f; y7 ]% a# v# G- ^3 [7 u! V$ P- e! A
    已经搞定.8 }# I# {" K3 ?, G" m

    : |; C% G; s" i. h首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。6 {: v8 Q: n9 p9 i% l) Y
    8 t" P1 C" u5 K/ t
    1, python + pypdf 按章节拆分小的PDF
    . o7 [) s9 O. P4 y
    1 T2 X. I. H- V: Z% Y2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile. H) C# @: L4 U: l4 f; u  W

    / j; t% w: q- t* W' @+ a2 ~得到text file
    - N1 u+ J# K9 l. [5 @0 }1 Q. a: T7 h
    3, python 读取整个outputfile,丢给deepseek 矫正。
    . o9 U$ M7 R! m  K
    $ u' ~8 |+ o1 O+ K7 \& e& r模型是 deepseek-chat8 ?1 G& O# ~% [0 q
    : N" G6 ?/ L& }, F0 L9 S# s
    max_tokens 最大是 8192,别的不用改。+ K& d4 H2 x8 B7 h

    : l( T, k& Q  H$ E7 S: r" M# a9 ?# m3 W参考:" w' _, k; V  r
    https://api-docs.deepseek.com/api/create-chat-completion
    5 M/ b% D! N3 G
    2 l6 N/ l* @6 l: d' u( b2 n4,费用:
    ' _. ]9 d$ q9 f# |* K4 H" [0 `7 j; v% K# P8 f8 Q9 L
    实测:
    / t9 t. ?8 e" ^( E5 c+ f/ @0 T7 _& _+ y0 o; g6 J1 ]" v" i$ a0 ^' u& x* n
    296K 字母,用了 9 美分。5 G0 {- u. T4 \$ i
    * T4 X+ b3 w7 @1 ~5 B
    英文字母 到 token 用量大约 1/3
    ! z* p3 }" g$ a+ y  l' ^9 u
    + g* H+ [1 I, ^" Z) P/ y0 h6 j4 Ytokens: total, 11782 completion,  3729 prompt,  8053 | s:  328993 w3 k! W2 x; H* j& |

    ; e' L' d% M+ f" b& v32899 个字母花费 11782 tokens,包含输入输出的 tokens- b2 K. C5 J. _2 f

    & x/ k* B* R% Z. V& c: w/ T价钱,非常非常便宜了。4 J& p+ Z) k- ^2 h4 A& e* _! D
    ( b7 t1 y7 r, ~9 c
    参考如下可以计算,懒得算了。
    " [3 Q7 v1 s  C5 l+ S* H% X5 g. ~6 p! \* U
    https://api-docs.deepseek.com/quick_start/pricing( D% T$ l0 Z# h

    3 C9 m( N9 V' ~1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.145 U& h* p+ }2 j# A9 F# V
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    6 j* d& h8 \3 m! I: Y5 _  {1M TOKENS OUTPUT(5)                                              $1.10                $2.19; B$ b3 W9 M& ]$ @& u' \
    : w- d2 S, v: `" @: U4 p  P
    5, Balance
    ) J0 H" \# c6 L+ }- g* ^/ b
    4 A( r; K4 W: `) t& F( G; Z可以在程序里调用,知道每次运行结束后,balance还剩多少。
    , u6 N/ }6 n' q参考:
    , D4 N! F. i9 k8 o, Xhttps://api-docs.deepseek.com/api/get-user-balance1 ?. H) ]3 ^* g0 o& B

    ' L5 b' A/ B7 K& \8 L' u& K6, Models
    , p, m- c  H3 D. c( _& Z- O* V/ t6 }, s: q
    目前就两个
      e3 _" H7 r0 q8 E2 s- I# deepseek-chat
    7 ]. K1 Y, a8 e1 G  [" I5 U# deepseek-reasoner
    4 z: K# L% v! V! Q2 G& \
    6 [( D! y3 P6 X1 _2 ]* ]参考:
    6 P9 i1 v6 ]# o' j3 w, ^9 f% ehttps://api-docs.deepseek.com/api/list-models
    ! f- Q6 v# l. @0 Y# m8 z7 B5 L% C% N9 I; o1 S' D2 S

    % ?. h1 v  \* P) h4 V- j+ I9 o6 A7, 问题
    ) Y' c" c2 y4 A, o; X
    ! R7 N" ^! z8 ?" n" Pdeepseek 会将前后两段合成一段。5 E# c2 K. R$ B  K, y
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    : u2 s5 K" J4 G3 n4 C2 k3 H. T, P; `
    9 z% x" T0 R7 a8, 钱说了算。
    . Z1 `/ I2 r$ i0 ~* M! Q: k4 o5 g% x
    % m* v+ p. o, L9 Kdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( Y' ]1 f8 y- @; L: N2 P3 }
    但是API就不会出现这种情况,毕竟我们给钱了。
    8 i" d0 L: U8 \+ O' Xchatgpt也是这样的。
    ) w$ \' S4 g  i# S( k
    # I9 I* O7 t! S2 N3 Z3 N  h& E& N2 ~

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-5-31 19:35 , Processed in 0.045659 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表