设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2464|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 + Z' P- j) w/ L. `. q) U' `/ c3 H

) P! D" w* |. M% Y/ q把PDF上传,然后让他抓取文字,并修改可能的错误。/ m( ~. v% b- u5 U8 l
然后deepseek完美的完成了任务。
9 N; H  c) ~# ?  B段落清楚,列清楚,页眉页脚全部去掉。9 D5 a1 F# S9 ]8 I3 S, Q6 |1 k
我要疯掉了!
8 S7 r' A7 ]4 u# t: h+ ]- ~9 u赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
' _5 A+ P$ c! U5 J====
8 b% Z7 F  s# g0 C3 u中文也很完美。: Q, L2 y% ^) Z# u: W2 x1 R
经验值,每次十页比较稳定。& E) x4 A0 u8 k/ ?4 }# A
现在我这里API还不能用,等恢复了,全自动了。4 p  w0 e! y( o/ _6 g1 A: t
====
. D0 L/ o) J) L  G6 f  q  N$ y& x第二次疯掉了!
$ _4 g. J8 u) `* b我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
$ F+ w  G2 O" R====
- X9 ^, i$ l8 o9 K! w4 y现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。6 ?# j6 y" `& \% w8 s7 Z6 L6 [
但是任务多了后,每次翻译的页面数是减少的。; m$ K/ g% F2 h
好吧,我五体投地,继续探索。
2 ^- e0 Y+ I% T* X% n====( y9 S5 u$ B3 h- }# |! L5 R
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
$ t$ V8 F" O: m% M+ O1 p9 u$ X( ^====" j/ X9 v  l' i  S" h) G4 f
好吧,有些东西是不给翻译的,哈哈。7 S+ w/ p' g8 N# ]2 n% q
3 H7 n, b/ ~: y4 R2 [
Sorry, that's beyond my current scope. Let’s talk about something else.% p. Q0 y. x7 U# D  o
====& _) p6 C2 `; [8 }6 A4 }1 d4 X3 F
然后我的英文命令也让deepseek 帮我修改,呵呵。
: @) v9 i$ y5 [$ U====4 f" ]# d) v& m, m$ K5 R- m
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。& F0 j& ?8 N3 m* Y7 C
====, G, c( d& d4 }
时间段的话,北京时间的下午和晚上用比较好。$ O" c" P- w# }; S" L6 o
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。. q7 ?- t- Q4 r" P
====
0 p& z6 J& Y+ m用千问吧,非常稳定,非常强大。
) w* K* w4 N/ l8 n' ^7 M. K; ]) }$ Ohttps://chat.qwenlm.ai/3 Z. O/ f2 W5 `
====1 ~3 b" B9 u0 X% U  H
Deepseek,API 看上去可用了,但是不给充钱。9 }; `/ w0 a' b/ P3 G
2 {* D% l) h% G: N; x( P  i" l
' J$ @5 D+ d, B* U
9 ~8 t; u1 Z6 X& D  v8 {: ?

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3644 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    . p5 `) Z. s& q: H+ U& T1 M这功能很赞呀

    9 N# z/ g- J, K) H7 K$ V简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13, y* P& h5 v- o  S
    有没有上传整本书试试
    * w2 X, a5 e4 o4 p" R4 t0 R
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3644 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    ) b! H4 s" ?8 e  h
    ) J6 a# f7 ^- ?  \2 ?! A7 i4 z以后让deepseek 读出土的竹简( g' X  ]3 v& \

    . C' n) g/ {" r# n7 k; R: H# ?' n  g" r还有把古文翻译成现代白话- W5 V0 `( I0 A- b$ P$ r. o
    , o8 m5 |& A) \% W7 B
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 00:00
  • 签到天数: 2805 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?7 R0 v2 b  e( q- H
      ?3 b$ Q5 R+ y6 J
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23; @$ P2 B' C9 m9 i! w
    请教是如何实现的?
    # \; k! b7 Y. J1 c- D( M5 N' U) t7 M: H) i" E; N& k
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    8 B- t: N" T* g$ R  d0 }7 ~' i
    5 w* u1 p; y8 S+ w
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    * [% g) [  ^1 D5 v文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    . U& M. I6 `2 G" t. u3 L- y6 G美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。. d5 P. o, i, Y% W/ o

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:232 ~/ |8 I0 p; p2 v" I2 @
    请教是如何实现的?3 a" C6 f  t- U. q

    $ C  A- M5 A" Y4 R. N" E: P我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    0 k- _- R# y( {' Z( m" V5 t
    https://chat.qwenlm.ai/
    9 M$ b' ^4 |9 A% Q# j试一下千问,估计美国人没有攻击他,所以资源敞开用。/ j) p) ^+ o3 n5 h; q
    很稳定,质量不错,好像最多一次处理15页。
    7 l9 a9 t  [5 n: J- k: N! o我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 2921 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。; b% b+ s. k% c: Q& Z8 E2 ?
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。5 o$ g) }  A9 P1 _" V& U$ c
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。$ K2 Q% k5 p* w8 g# H
    8 j+ E2 l1 e& k& C
    https://github.com/oomol-lab/pdf-craft
    ! m( `- c2 W+ X/ ]5 i* Y- r- V& t6 B! x# R9 w9 O9 Y
    1. 这个工具要求装 python3.10" Z9 f5 X1 D) e5 v* d, ]
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    $ t/ G# O0 z* T8 ~3. pip install pdf-craft2 D$ A- R' k, D0 [3 M
    4. 把下面的内容写到一个文件里,例如 a.py
    ! C7 W" ]+ O+ ~; D7 v3 w. u
    7 `/ S9 s8 s& c1 j; T6 x
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter: F. }# {7 z: }5 b0 U( h
    2. ( R$ r  `  G8 W0 s7 ?' d4 o
    3. extractor = PDFPageExtractor(
      $ V$ j2 M  S* \
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.8 _) W! S# T# Y3 D
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed5 X( w( x# q, F5 m+ p0 x. U
    6. )8 l; m$ E0 s( ~0 x& U* b
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:0 F) k6 M7 w* k! ?6 K( |
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):3 D3 Q  k+ ]! @' Y! Z. m) R
    9.     md.write(block)
    复制代码

    ! M: |: E  {. f* ^' U
    , g3 Z) }2 d+ I  R! J/ L& r+ Y要修改的内容:. Q" h/ {9 N& m1 g+ Y; z
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型# q9 b$ P2 a5 _* c% ^2 c
    4.2 markdown_path:输出的 markdown 路径文件名
    6 [- ]4 Y' i1 Y4.3 /path/to/pdf/file: 输入的源PDF路径文件名7 `$ [  e+ r8 U/ A$ N' D

    4 j8 Q2 {8 M8 e  }/ B" O5 O, A5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 / s0 L2 M+ K* l1 R2 V  G" ]
    ( G, l0 i5 N% o6 A' F; s2 d
    目前为止PDF转纯文字的最佳办法。2 D4 T0 R/ }5 Y. {9 U0 s
    先写个小程序,把PDF按章节切成小的PDF。
    " g% y, F5 z" i/ `4 G0 v然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    1 h6 k- y: s4 g9 _0 z8 K效果非常好。
    3 K6 O( }- G* [8 Q  b! u  R
    2 M; J$ e) \, h: B- Ddeepseek,qwen,chatgpt 三个,deepseek是最好的。
    . U1 b. F8 T- R/ W+ M+ {
    , f5 X  y; y. J9 ideepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    2 Z% n+ U, Z3 q* N& U# f而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。& ?! ~( h1 Y' w' e* r" u
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。" }- @, ]* u% M' w* M
      Z6 J7 K4 o5 _( R4 ?# X; S
    API到目前为止,差强人意,不如网页版本修得干净。
    / b! n$ b* b# c0 r) j6 j8 x2 }
    2 r. e' W: a( a  D$ `2 z1 wdeepseek可以同时开四个。  P' K1 t+ o2 A5 ]7 s6 }

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    " d/ ^  e7 O* U- M: a9 {/ J" C6 w  V$ i$ x3 Y# O* T
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:264 P& u, ^6 c# {7 T* N
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    7 J7 c- h9 w! {, h7 p
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33. ]) a6 }* D- k/ T1 L% v
    细说一下,听上去很不错,多谢。

    $ B8 Y: m8 O$ H# f2 d直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 4 Z2 w& d! Q9 G1 j

    1 v* h* j4 D3 p6 s# ?已经搞定.- Q' j5 u, q4 v5 o9 a9 i; X
    ! J& W/ ^5 F- _
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    6 {- q7 G2 b8 ~. W: p3 P6 o: j; H7 @- F
    1, python + pypdf 按章节拆分小的PDF# h( O$ a# F$ m9 C

    . ]7 x5 b2 l/ q" F2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ( E) z" {/ u& ^/ d
    7 M' W; C6 B! u& M0 n. ^得到text file
    + b8 _' u3 s& L8 a
    5 F0 Y* p4 Q8 x" }0 B3 a+ M. O4 l3, python 读取整个outputfile,丢给deepseek 矫正。& B' d. u$ o' q

    2 r% m" i6 D& r' v) ?% N模型是 deepseek-chat4 X- Y! H) P8 {5 R; B/ o: h

    : q6 d# z0 o% I0 E! Y* G7 F/ vmax_tokens 最大是 8192,别的不用改。* [6 M& X. l/ u
    ! n$ P' g. ?( j; D4 {/ L$ S2 o6 w$ m$ E
    参考:# ^% P$ c) \  O8 M' v
    https://api-docs.deepseek.com/api/create-chat-completion# C8 Y" X; g$ w3 |2 l  c, l* [
    % W, k! H' ^4 b0 E4 H& l* Q9 r
    4,费用:
    , `; L( i0 H, q5 Z2 C! z& `6 I) n. N# p% u+ c; L
    实测:
    6 T' g' {$ z" x. J9 Q) U% l
    9 {3 q) c8 h5 X! Z* G7 l296K 字母,用了 9 美分。
    / q3 h4 g. O0 Q+ I6 {' [
    , S* D* S  H, ~英文字母 到 token 用量大约 1/3
    1 e; m9 ~# S3 I) I8 r/ B
    7 m& b5 I* A  A3 b4 z) Vtokens: total, 11782 completion,  3729 prompt,  8053 | s:  328999 U7 s' T- [$ \6 ^- E5 [
    3 f7 G; T) m! E/ ^" g
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    / t& s% ]+ H9 z2 [# ^5 l* I/ ], h
    0 `2 H. Y) w3 ^4 ]& z' w8 F价钱,非常非常便宜了。; C3 D8 Y% ~6 b2 ^4 t2 V( N( u& H" T1 J1 I

    / O+ T/ M/ K# D4 @$ x) ?& t- _/ {参考如下可以计算,懒得算了。
    / [- M9 y0 L2 d: Q6 X. [8 U; I" x' I8 D* b
    https://api-docs.deepseek.com/quick_start/pricing( n% q$ i. N& t
    ' h* {4 @. V8 R
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.146 k# l4 a# I8 ?5 |
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ; n' O) _1 g) Z2 y' U6 B1M TOKENS OUTPUT(5)                                              $1.10                $2.19+ p2 r  J1 E/ J; c5 h  z
    + _* F4 e/ r3 {+ y" C! C2 T
    5, Balance
    / d0 m/ g$ V! j6 g: t; i' X2 B% I
    可以在程序里调用,知道每次运行结束后,balance还剩多少。! q5 y* N! z% O7 H& l) n
    参考:+ K' Y  A2 v; U- U1 O1 W
    https://api-docs.deepseek.com/api/get-user-balance; p% i6 c7 R6 g9 F% w/ A

    2 i) m. o1 G: k$ |6, Models
    " e+ c0 ?0 Z- X- V2 n% S
    6 J7 H& [' \0 G1 P) z) p6 C7 `* y目前就两个# J0 U; O( }5 c& E
    # deepseek-chat! E% n( _$ c2 j$ X" ^4 O, ^
    # deepseek-reasoner1 m% ~- n; V! k) o! g5 `
    & P. x* c0 A  G' R8 |
    参考:* Q. c& `2 y9 m" ?) K3 j
    https://api-docs.deepseek.com/api/list-models
    - ]$ j$ X% N5 W1 m# v$ A: ?* h3 ?

    1 g6 f" q8 z! ?+ f( [- C* B8 F7, 问题
    6 M( `' c0 r# U. c9 E! A" I8 ~% q# k7 q& s
    deepseek 会将前后两段合成一段。
    2 J9 c7 t+ r( X特别是那种大量的对话的段落,deepseek会给你合成一大段。
    3 h/ T( g3 t; y" b1 J2 u+ c: Q: l0 N7 I- J! G. J: C
    8, 钱说了算。" s& P7 y, [% f% I8 o9 D

    ( E4 `% H$ X. u( T/ o" H4 f7 Jdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。7 Z" f6 ~& B9 z9 V
    但是API就不会出现这种情况,毕竟我们给钱了。
    4 k  I1 `" X5 o( pchatgpt也是这样的。
    / H, k5 ?6 s) w- n! ]' Y0 }- J8 E  v3 m- s. K$ E3 X* g

    + ~8 ^1 v( F* ^7 H1 k" H/ h

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-24 13:02 , Processed in 0.036796 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表