设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3259|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 4 V, D! ^) |" }6 B: H1 m, ]
: w% C( Y0 G( o' Y8 x, k" J; r
把PDF上传,然后让他抓取文字,并修改可能的错误。
8 {: k. j* Z6 X8 e+ f然后deepseek完美的完成了任务。
5 F4 Z7 _& q  [  g: c段落清楚,列清楚,页眉页脚全部去掉。$ }; o9 C( m9 R& G! L5 g
我要疯掉了!
3 u) ]3 z4 U; M- A, d' C赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
# ^6 x0 @/ n5 G. A* b0 d) v3 e====
- ~. P, `+ ~) g& n" I' z中文也很完美。
- y4 Y5 Z. F) x4 X! B2 X经验值,每次十页比较稳定。4 M. y5 r" m6 [0 V, P2 }
现在我这里API还不能用,等恢复了,全自动了。
; Z  Q) @7 H3 s8 r5 v+ i* |7 L====
1 H9 Z" c* H$ @第二次疯掉了!
; b9 k/ I( I: ]3 k; s) f: K' a我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。( b: `7 Z. D( W/ E! d; _" _1 }
====
1 C( c9 N5 L5 q- x* z现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
. R3 p# U; O$ f# `+ Y* {5 _但是任务多了后,每次翻译的页面数是减少的。
6 n  a. j( P2 e$ i6 ?8 `, K# ^好吧,我五体投地,继续探索。
* _3 _# i% x: G====
; _  x) h, T: p: L1 C+ f为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。+ L- Q# |( t) c4 m* ^
====
- t2 D3 c9 d* f' g6 h好吧,有些东西是不给翻译的,哈哈。
" J6 T( D2 L$ F
. D7 |% p( ]' O, Z* Y- ~Sorry, that's beyond my current scope. Let’s talk about something else.) q- x( g5 e& |4 \9 R5 j- q
====* v3 L+ L: U' [& f$ x8 J6 I
然后我的英文命令也让deepseek 帮我修改,呵呵。  p) V( d2 G0 [1 Q4 }5 g
====$ ]$ e0 G3 X0 [& h$ x# B: }/ u$ M+ k5 v
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。  Q6 o: a  N$ `1 o/ }8 `5 {
====  {& u1 d- l" p' U: o; O5 W" ]# ]
时间段的话,北京时间的下午和晚上用比较好。
2 G5 F5 Q. h# H8 D后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
+ p* B- \* q" @' g====
3 w; `) Y0 v  T: P. _4 C用千问吧,非常稳定,非常强大。/ l! P+ c9 j6 t5 s, Z6 X
https://chat.qwenlm.ai/
' y( Y4 M+ x, t+ V( n9 q; h====! O5 F& L; d- N5 N, f
Deepseek,API 看上去可用了,但是不给充钱。" f3 ~6 S+ X8 ?1 E
+ t. {3 N: E1 H- m$ O( E) |

! A' c+ B6 @. d/ G- h! p" z; d/ r3 F4 B* x$ s

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3832 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    7 }4 F$ ~0 r5 t0 S/ [+ R3 P这功能很赞呀
    * Q" A9 d* k( a' Z( H
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:136 E% X8 ^) W$ S4 c
    有没有上传整本书试试
    2 P) q' ]/ G- M$ J
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3832 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    3 _& T1 j: `9 [3 _0 I' ]' @/ o
    ( ?, K1 Z# }2 l* _8 D7 k以后让deepseek 读出土的竹简
    ! N& v' d0 k* i7 R; t$ r/ i/ d
      p$ \' b( R8 a1 n  A2 F还有把古文翻译成现代白话
    % X+ s# Y( a- Y; C- @: Y" b0 _0 T" h
    * E! u1 E" I# s6 `/ |以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    18 小时前
  • 签到天数: 2992 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    8 z0 O0 L% m7 s: d' w
    3 n* w( Z- H* N- l我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23; R( L" Y3 I3 G$ y3 ~5 T
    请教是如何实现的?1 p* |/ x) M. ?: m* }9 j3 Z3 r
    8 g' A6 c0 L6 e) o) h+ |5 E
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    5 H( T& U( g3 J" q8 t0 w! A' [
    ; J( s$ V# g* ^' `8 Y: E我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ) w  n3 o  h6 }. z+ Q/ Z; s  M- p! [文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    3 M$ R6 d! D; i% s5 C: f美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。# y7 m! J0 X% \

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23* R% s7 I) r; {+ e! Z
    请教是如何实现的?3 E4 ]3 u& Z: S+ K/ `5 q
    + E; G1 i, k" Q) J/ k2 G
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    & ^8 Z* Y& g- x# H- T9 b+ rhttps://chat.qwenlm.ai/* F' ?' D; U% a/ g/ C( \. x
    试一下千问,估计美国人没有攻击他,所以资源敞开用。( [8 t- W4 R; w' e  N
    很稳定,质量不错,好像最多一次处理15页。& u$ `7 r6 v/ H# q0 w- y; f
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3098 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。! z: H! i! _3 y- D0 ?  ^
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。5 ^5 U  {2 Z7 V/ C
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    / `: {6 J5 f3 F+ P) b5 r. L
      a4 H3 p1 _3 o0 |' u' a$ Q/ Jhttps://github.com/oomol-lab/pdf-craft
    & A0 |: H6 _% Q9 Y0 f8 C, ]8 ?9 N* \. h. M+ q0 r6 T, s9 b5 m
    1. 这个工具要求装 python3.10
    * u; I) B6 U6 _+ d, r/ ^, b2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.02 b9 ^  `! e1 J6 Y6 q
    3. pip install pdf-craft
    1 [' p/ L1 O. o! e. W4. 把下面的内容写到一个文件里,例如 a.py
    1 c' a$ L' [$ ^3 k" s1 J3 _; Z& ~* {6 x7 N
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      # F$ I( h! w2 ]. d3 M

    2. * i4 p0 M+ w) [. Y  T0 q: Q7 a
    3. extractor = PDFPageExtractor(
      ; c* J5 K- {: }9 g/ {
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      + Y; K1 G" ]- E) H1 d) C
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed; Q; y+ l) G- x  k  n: a2 h' o
    6. )  h  h" T$ {6 [- I8 d/ z
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      6 S" k/ t- ^! R1 b, a, z4 {
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):2 h/ M. _& l/ b; \; l/ P3 x
    9.     md.write(block)
    复制代码
    8 ]: k# p  Q3 c" O
    4 W  \* I3 ^5 B* w0 T$ @, M
    要修改的内容:
    ; {* ~8 W( D1 p4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    6 u: D  C& R6 O' `+ p4.2 markdown_path:输出的 markdown 路径文件名
    ( k0 j) y1 X0 R4.3 /path/to/pdf/file: 输入的源PDF路径文件名( o, x3 Z5 S  d: ?- M: z3 k3 X) U- e

    / z3 S, `) I# n% h/ [: l# I7 L' \5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    8 S% V3 N( }% A" @: k" C7 Q7 a4 C' ^) `4 N  h( }/ S' v
    目前为止PDF转纯文字的最佳办法。
    7 s8 B- [4 j7 B) i! D先写个小程序,把PDF按章节切成小的PDF。
    % X1 ]! _4 u/ V- b  i4 g然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    # Y- A  K8 @/ l% ~效果非常好。
    7 [5 u# ?( O+ j( C+ _9 j' w" I. [- F
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    3 }2 {9 o7 Q) z. t. J/ r" V" O% t# D
    ( |- ^- ]9 S: U( G" Tdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。+ N: y6 i2 x3 q. B0 Z
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    $ S% B6 c' `3 Q* i, ~( q我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    2 N0 ~6 W* @: E9 {6 r; j
    $ E. B8 V3 P8 @: {3 wAPI到目前为止,差强人意,不如网页版本修得干净。
    " i, i5 ^% _( ]$ F
    ' T' N) I5 y$ N+ pdeepseek可以同时开四个。
    3 j2 K* j6 S7 j3 f- b$ G

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 9 D/ ~( z1 Q8 ?& _1 K4 T

    , q5 _9 j( w. f7 S让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26" _7 G: p4 V6 L8 x
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ' }. I* m7 T: I细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    , i6 p3 D8 }8 m. x5 Y细说一下,听上去很不错,多谢。

    ! j7 b! q" p0 s& K  F$ K直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 5 h! |1 r) ~; X" d
    & d: K9 F; z! Z3 d
    已经搞定.* E8 x3 \$ D; P& a% x
    7 c4 |; C9 l, C, l  ~4 m
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。: N$ d& J& s  a. p

    ! b" Z" l" X2 `. K1, python + pypdf 按章节拆分小的PDF
    ( v& x, s4 `8 o* y# b" G3 _  d0 W. I2 ^
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile& b0 y, u  I! j- R

    : Z1 z' x/ r3 F) @" D. [, v" y得到text file
    , A0 Z) B; z9 c9 _; C+ A0 z3 z$ M" a, p# l) W5 q: J! w
    3, python 读取整个outputfile,丢给deepseek 矫正。
    ; u* U  r$ l/ b( V7 |" M! x- U# b2 S4 g; A( @# a
    模型是 deepseek-chat# W* }+ B* h0 }. F. t. D
    4 {! @- ~) _0 A  r) y& J7 s2 i& T
    max_tokens 最大是 8192,别的不用改。
    % n" x& \. M3 O) {5 Y( [" D9 w2 Z" _7 U4 @6 a# J) x, K! Z6 e
    参考:
    7 z1 D  P' U) G1 r" phttps://api-docs.deepseek.com/api/create-chat-completion
    8 h# W  {% W# m. a6 P% B0 A
    ! P) U5 ?2 @) i, J: S+ R4,费用:
    4 O/ W. y" ]6 x$ u
    " u+ K+ o% a% o实测:
    # u2 H/ k0 W+ |' t8 r, j2 O( A2 k' j! W2 ^; q2 D8 o+ h
    296K 字母,用了 9 美分。7 L& i8 v2 U9 N! b9 ?
    3 m0 a; {9 b' f" b' y
    英文字母 到 token 用量大约 1/3
    3 u8 I" x+ r3 \$ E! m/ V" T% B* K" Y9 S( c
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328998 N' g7 y6 ]6 _; o! b) l; w
    " w& s: y: u" ?7 {% N' j
    32899 个字母花费 11782 tokens,包含输入输出的 tokens5 ]! p: M3 o! k( X" ]7 Q

    2 f! W1 n5 ~5 i  K9 J价钱,非常非常便宜了。
      X$ ~+ y# _/ B- c' @0 r( E& b' y  U7 d  A3 B3 X+ _7 B
    参考如下可以计算,懒得算了。; S/ H) L( H- ~! c$ h& o3 q
    ( m5 p3 I& h' F+ @& M4 E0 u
    https://api-docs.deepseek.com/quick_start/pricing
    . U5 V5 \( F, X1 [8 Y+ H: T) K% c
    0 N) n$ w7 M5 d& k5 G4 b: ?  M: |1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    $ P0 [% B9 K1 z9 g" _# z1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    , a+ N! m. a8 n) I- M' a1M TOKENS OUTPUT(5)                                              $1.10                $2.19& C6 W. L! i! A3 c3 j- I/ o. C9 k# S9 `
    9 n5 R2 D- `4 a* Q. s& m; A
    5, Balance
    9 g) v9 y" s" O# N" N5 s0 I. U' s: Q: ?& f
    可以在程序里调用,知道每次运行结束后,balance还剩多少。! s, L% N7 q$ G1 e) E
    参考:8 }* U* Y/ p+ ~0 C6 s
    https://api-docs.deepseek.com/api/get-user-balance5 X6 i+ M0 n8 a

    + c# H/ X# R2 _" P3 Y+ z6, Models
    5 O# [7 _% T" K$ s8 c$ w2 w1 O$ ]. n5 |  e6 y/ _6 E1 ~$ c
    目前就两个9 g" t' @, I! g
    # deepseek-chat* m* A) ~& g% e
    # deepseek-reasoner
    $ n, Q* j$ k/ R3 F& v; J7 ]# m
    " G. u7 ]# Y9 Y4 o% R参考:
      L" G6 \6 E+ ^& Ahttps://api-docs.deepseek.com/api/list-models- x& M! W/ w& \, e- U4 B8 K
    / p" v& j8 C' [

    " r* h3 W2 u( I7, 问题5 J# i+ p" d1 v; ?. c7 l7 V/ Y
    ' D8 C& \5 _( Q+ S6 z
    deepseek 会将前后两段合成一段。
    ' z% K, S6 ~, Y4 u, S特别是那种大量的对话的段落,deepseek会给你合成一大段。
    5 p- O2 a% H( I# _% h! h  b0 c6 a! t7 A8 D. k2 h6 i6 A
    8, 钱说了算。" z9 m0 h3 J) B/ F0 B0 ?. P
    4 o/ q5 d; A+ b7 [' N/ N
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
      E7 N* A, V& P9 V, L7 K! @5 m但是API就不会出现这种情况,毕竟我们给钱了。
    * P* A/ a7 ]: t+ i1 qchatgpt也是这样的。5 ~# D5 X5 }1 J

    : I* @8 p( c7 H4 u5 O9 ~% l5 H9 P1 r; F/ B8 @0 F, o

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-7-1 21:54 , Processed in 0.068423 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表