设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2966|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
6 G( W2 `2 p2 j; X
5 {: f0 f/ I+ L把PDF上传,然后让他抓取文字,并修改可能的错误。- J& E; w$ l' R8 P* l" r
然后deepseek完美的完成了任务。
- B# S( Q- l: u/ R' H9 A段落清楚,列清楚,页眉页脚全部去掉。6 M. Z; q& x$ U5 m. f
我要疯掉了!
7 s0 \5 Z+ z1 ?! Q8 |' e赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!: v" `& k- y1 z( h7 p7 O) U
====" e/ c; }# c. q) b7 Y  B
中文也很完美。
8 e# X2 z! b( y7 b# r% ^经验值,每次十页比较稳定。( a3 r. y4 s% ^1 F: [5 t. r3 ?" v
现在我这里API还不能用,等恢复了,全自动了。
: K3 l+ ~5 ?9 C2 o====, D& B9 M5 P/ }
第二次疯掉了!" R4 ~, s- ^) L5 U
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
! ]6 `( t' y" D0 t: t====8 p$ r* K, |* Q+ e) E3 X7 \
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
  P0 C1 X  a0 A7 ?/ c: V但是任务多了后,每次翻译的页面数是减少的。
4 U) ~' m' d' c: _( x. V3 X好吧,我五体投地,继续探索。
0 X% h0 y5 \" d3 _====
4 Z0 l' c2 l: |3 W- Z" F! o0 F8 j为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
" y* ~+ C# E$ }9 ]* p====4 Y7 f# |" k! T" Q8 b% `# q
好吧,有些东西是不给翻译的,哈哈。8 q4 J6 d7 l: F' H) d2 B
- w" G5 a! D9 i/ k8 N8 v
Sorry, that's beyond my current scope. Let’s talk about something else.
" g% j' X3 m1 @. j8 J- K( f5 q====! N# X' W5 h) a& k
然后我的英文命令也让deepseek 帮我修改,呵呵。
8 f4 T4 |! {3 G5 a====, p% ]% @2 ^2 h5 k; G' P
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
/ r: N8 q, ]( U/ e9 a4 h====! W: g5 z# m5 [# R1 S, i" P2 U
时间段的话,北京时间的下午和晚上用比较好。, \3 z. ?8 ~8 k
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。& _  l, L5 b* [* {" W" H" z9 C4 t3 [
====8 U$ E$ v0 q% A2 T
用千问吧,非常稳定,非常强大。
6 T. X+ P: E) b0 Q0 z  x& E8 {https://chat.qwenlm.ai/! X( ^1 O; B$ y: o- Y6 p6 o
====% g/ b9 m( ~9 ~+ K
Deepseek,API 看上去可用了,但是不给充钱。
: m+ s6 p+ r( t* T0 s
3 t* v8 s* z4 }( E* w  T
/ ^9 J4 J' V6 E  U, r- G
- O3 w0 h! ?9 O& m4 e

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3768 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    * D( \. T7 R( Q; ]; y这功能很赞呀

    " u. E2 H: `1 a; _. @6 Z简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    " D3 J# d: |2 z! j& T- f有没有上传整本书试试

    2 h+ j. g/ S" R4 T! O7 y目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3768 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 3 G3 m# C: r' X0 i1 Y0 ]! I& `  Q
    ' U) J! i$ l( [3 m
    以后让deepseek 读出土的竹简
    ) f2 P7 _( u8 q/ ~! [
    % X- F" v, B8 P/ N7 d% O* V还有把古文翻译成现代白话9 Z4 |0 X5 T& T# }" [6 z! r; w
    : n3 R* m6 n. L6 Q2 b3 D& A
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    9 小时前
  • 签到天数: 2929 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?# J! @* g& h3 U! T: a0 e

      _9 m, q" d8 [4 j0 Z6 o( t$ x我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    3 t& r  V0 }* g% r请教是如何实现的?1 _( [; V" w+ ?( ]5 J6 Z; `

      A, I( q4 b3 M/ E8 Q7 O6 H7 T我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    3 H9 a5 U6 K) A

    0 l( U. V# F( K: B# [0 x3 ]& P我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    & V& V7 F9 r% B: l文字之类的没问题。估计deepseek现在暂时只保证主要功能。7 I5 x" z$ H0 n- p  m0 \/ m  L% ~. Q
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    $ W; b0 S6 n) P" L

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23/ F$ D  M' l; v! f
    请教是如何实现的?
    6 Y& B( b$ Y7 }" P. q
    6 p" o  O9 ^/ Q) p3 x我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    - @/ G7 p; N* c4 E+ f2 Uhttps://chat.qwenlm.ai/
    2 b1 `( R6 `: z5 s  [* m" _- r试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ( p* A0 v3 P- S# y很稳定,质量不错,好像最多一次处理15页。1 U: r$ ?5 n* g+ B1 H9 l/ }
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3041 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。- Y  a5 N# Q$ `8 ]
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    + U+ W, z4 e$ h* W2 `这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    $ J$ k$ Y3 l- J" s. Y) d4 x/ l4 h- r1 d& ]: M. @; w5 q
    https://github.com/oomol-lab/pdf-craft
    & ~. J( `, S4 s. i9 f+ p' f0 h' M! I  U4 N; O  k# Y
    1. 这个工具要求装 python3.10
    # t3 E  ~/ O6 d3 a2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    # I# t5 t1 v! y# E! b3. pip install pdf-craft2 o/ t5 _" J% c0 P6 ]$ ~
    4. 把下面的内容写到一个文件里,例如 a.py
    - \9 D) ]3 M4 D5 ]% C3 }$ Z+ D
    . R1 g9 u+ @0 X  y0 V8 j
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
        d5 @4 \7 U* G8 v5 T3 u

    2. 7 Y. W4 [1 q! w6 _
    3. extractor = PDFPageExtractor(  Q: K0 t. b1 m- N: t% @
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.' R- m. t; J; r2 X/ b
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed& W. I4 W' |& @
    6. )! F% q( {5 k7 t, `" j
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      . O. r2 t0 {& j9 }- o5 W7 |7 m
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):, |' O. ]7 {& j$ y
    9.     md.write(block)
    复制代码

    / U2 C. l. P# P
    6 I8 {+ r! A/ {' K6 S要修改的内容:
    ; z* o$ m" B& G' _4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型/ k) B' S* N% s% n
    4.2 markdown_path:输出的 markdown 路径文件名. I- L0 y0 x6 b7 F
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
      t: W5 A% ^2 f& x
    " M% J% g, j: v' i9 M5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ( V& \8 E) W. B- ?
    + U1 X' `  D5 A" k1 }
    目前为止PDF转纯文字的最佳办法。7 z1 y: p0 e% s
    先写个小程序,把PDF按章节切成小的PDF。- `9 }% l4 U  ]
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。3 A3 ?) u6 q$ q  a5 x: ~# v
    效果非常好。
    & R" w( H+ P& x$ G+ O! v2 @1 S5 k/ I% Y7 t# k0 \
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
      p1 B; @: t/ p$ S  ?6 m! t7 z/ q4 Y5 ^" n
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    : \  J4 {% a+ u9 J" I' K3 S而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。8 L; m6 b! U# X8 y
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。, Y- I- j; o9 [0 j* D2 x* }) `

    ( k2 R  m0 ?8 o  ]API到目前为止,差强人意,不如网页版本修得干净。
    ! i, B! t4 z' |# w* w* _2 x, J4 }& N4 s; m
    deepseek可以同时开四个。, Q5 r" e3 O$ ]- X. R" Y- s

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    : p: g. i) C# x+ S
    9 J) d8 E5 ]0 G) v2 T) N8 c让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    # a1 {: Z% S- Z( @9 y$ r让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ; U, t1 n+ o, ]0 E- |$ c9 U6 s细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33* ^9 s  Y% l7 c" k) {1 E6 s# l
    细说一下,听上去很不错,多谢。

    ' V# @/ H7 l7 K8 a0 ~8 C直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
      d+ W4 I3 Q" v3 n0 W0 _# J3 n" h; }( \. k8 G: U
    已经搞定.
    2 T( p5 f; y; f; ~3 ^: @1 p
    , a. L% Z, J9 t, s4 R( k首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    $ n! M1 h4 K  U% A0 ^6 \# k4 T
    + _# |2 K  O9 h+ E9 Y* n! a5 k1, python + pypdf 按章节拆分小的PDF* k9 F& m4 ?' H& K4 r
    4 b& G# |6 x6 z
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile! y  U/ h# M( u& x4 u

    : C+ m- x! o0 o3 d. z" N: Y( }得到text file
    6 S) K2 J( H  n0 b
    3 E& {1 D. o9 R6 x6 S% |- Y( U3, python 读取整个outputfile,丢给deepseek 矫正。
    ; i' F5 f5 M8 g. {# v, e& J8 ?$ k; V% \
    模型是 deepseek-chat
    1 z/ n- i% U! X( f5 m3 Q6 U- C2 }( r/ o7 g- x  ~' q$ @% o
    max_tokens 最大是 8192,别的不用改。  w: i+ N4 v% ^5 j4 g% D& O' x* g

    : q0 h4 G: x; E) \- O参考:% U+ D* ^7 [; F  {4 y: M
    https://api-docs.deepseek.com/api/create-chat-completion
    " {! K- @0 o& r
    . s8 e3 i+ i  @4,费用:# Q) s* P+ m6 B' a0 @4 ]
    0 c8 R; ^" w: p$ N
    实测:- ~- O; f( b, M
    4 {5 C) ?! I: }5 }5 Z- I
    296K 字母,用了 9 美分。
    6 i+ c! |# _9 ~! r
    0 u' [) F9 Q5 X$ ~  d英文字母 到 token 用量大约 1/3
    $ T% y  D0 z: Y# |" a# l
    $ r6 z6 j7 y$ L9 ?tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    # L& k8 p9 O! M9 K
    ! j/ B% q; U3 l, i! A3 G7 M32899 个字母花费 11782 tokens,包含输入输出的 tokens- X/ T) b' c! \7 q
    " f! p7 R: d. M; w" X* v% [
    价钱,非常非常便宜了。
    * T6 `0 a/ X" a1 ^0 d' l; `
    ; s& a. Q9 Y  w7 Q4 C参考如下可以计算,懒得算了。& u: f& \7 |( {% z# p

    1 E8 ~$ a. e$ E$ A4 h% X: hhttps://api-docs.deepseek.com/quick_start/pricing# i2 M  r, C+ Y2 W

    2 P4 C! S/ N& I  H* z1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    , K# F0 l" x. c1 K  |1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55/ ?* ~( B& U! [8 ^" i$ {
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19. _. k6 l% O. f
    9 v( Y, c; M/ P, E& b+ ~
    5, Balance/ ^; p- G( U! v) S$ a8 v

    , M  X( ]; k  b可以在程序里调用,知道每次运行结束后,balance还剩多少。
    . n: w  ~/ E( l* o& _2 e% R- Q" i参考:
    ' V1 e8 q: P1 W, d. E, m3 \https://api-docs.deepseek.com/api/get-user-balance! e% ]5 m1 s2 G' A/ b( M. A2 d

    1 o2 B( R5 s) q( y% b% [  \5 e/ v% B1 D6, Models
    " p6 s6 t6 q# n' J" o! w/ u- \. G: g* O( W' J8 T
    目前就两个
    4 L- O6 R* n% ~  i# deepseek-chat
    . T, L: t# w9 |+ g9 b0 d5 O: T# deepseek-reasoner
    # E/ o4 v! r/ g2 x* m, k7 I8 U  p
    ' S0 I7 n/ K1 u+ ]% v; ~0 Q参考:( O: Y6 v# }2 T# \0 P: w9 D, @
    https://api-docs.deepseek.com/api/list-models- l7 V6 o0 x9 y& @
    $ J7 }+ K" I1 m* P! ]

    # o% I3 h& ?% _7, 问题
    # ]* X% ^' q6 Y0 Q9 b' w$ U6 b: m" U( r. [7 o% u. ^- I1 \4 `5 ?4 Z
    deepseek 会将前后两段合成一段。5 @& x, m9 M. v
    特别是那种大量的对话的段落,deepseek会给你合成一大段。9 L3 W$ J/ D9 h# f

    & }" S" g% C2 ?, l( j8, 钱说了算。, s: a4 r. k+ q2 ~. d

    ; N% \* H# H. Ndeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 i' ^5 r- ~  l4 Q, K( P: Y
    但是API就不会出现这种情况,毕竟我们给钱了。
      ?! a4 k! F  y+ t, fchatgpt也是这样的。
    - @& L# e. i, Z/ s4 @7 ?) q0 s! A0 _, f7 J# i; U  C% g% l$ o
      J3 }9 D, T# G3 }" z

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-28 09:55 , Processed in 0.087002 second(s), 27 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表