设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2573|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 * Y5 Z3 w6 Q" B, E; J1 _  E
/ Y8 a0 E1 z  `" X/ `. F
把PDF上传,然后让他抓取文字,并修改可能的错误。
: ]" K- v8 I- w8 Q. m: K: e) e0 X然后deepseek完美的完成了任务。, D7 y: H+ O% I6 E- r( k, W
段落清楚,列清楚,页眉页脚全部去掉。/ Y- Q  y8 K! l& q7 D( N
我要疯掉了!9 Q: i' w; }/ @; Z. Q' q% E
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!9 j4 d9 C0 G8 s, B$ [
====# }$ f0 ?2 N& w
中文也很完美。
4 p2 ~7 }1 c2 H# y4 }( z2 D经验值,每次十页比较稳定。
- s2 g* h& N9 W; u; d现在我这里API还不能用,等恢复了,全自动了。$ _- o8 T9 @) u+ z5 p0 p2 q" A
====! x; i+ i* E: w( g
第二次疯掉了!8 `( v( a; L1 `! u0 S9 k; e1 j
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
% \+ z: s, l/ ^# s. |====) J; o5 P% p0 L  ]
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。6 E1 b' g8 @- l
但是任务多了后,每次翻译的页面数是减少的。
6 C& x  ~) ~8 x, @5 ~好吧,我五体投地,继续探索。8 w# f8 Z9 G( Y; S
====) m8 y5 p! A9 v7 s4 I, D, c
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。! i5 e2 U" J9 l/ Z8 i5 t. ]
====. G# d. p: v7 ^6 z' k2 D
好吧,有些东西是不给翻译的,哈哈。
. ~+ \2 l% ~3 f9 L# d6 n& M3 t
$ x& I8 `& Y/ Y$ }Sorry, that's beyond my current scope. Let’s talk about something else.
0 F) ]& o& @: v====) t% o9 n/ q- v$ W9 }3 r
然后我的英文命令也让deepseek 帮我修改,呵呵。7 _3 B2 C5 r; P
====. |, h# G- e# U& o% L$ n" _7 S& b
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。  _8 Y/ v* e, U6 ~* ?
====3 t0 A! I; W, c. H9 ?! C) v
时间段的话,北京时间的下午和晚上用比较好。+ B& J6 f6 x8 \% c2 u" ~$ [
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
( W% ]. G5 x* P$ j* h" Z% [; E====
0 |" F$ G* B( E用千问吧,非常稳定,非常强大。; s0 t. L) l& G6 Y
https://chat.qwenlm.ai// R* ^4 V; Z- g8 Z. Q, y& G# L+ |
====
2 K; D, [/ g% V& Z3 IDeepseek,API 看上去可用了,但是不给充钱。
7 M! w/ p, O* h; U3 r$ e' o. h$ A0 B& c% d' i+ `
; `% a  [" Y3 J  `! R4 m( ]
3 t8 N  m& y+ p! p8 S2 h9 D: n

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3674 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    - I6 v. r8 ?" W* I0 K' @$ y, a这功能很赞呀
    - }2 ^0 n' B. u5 n0 K
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13- X6 d, v5 }8 e; s7 r* J
    有没有上传整本书试试

    & x( ^( U$ ^* C; ?, @: j, {& N目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3674 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    6 `0 a( z4 L! W5 X' E
    / M. u( B% m6 C9 ]9 P以后让deepseek 读出土的竹简
    5 z; E3 @9 t* c* i  T$ d' B1 E! I; R+ Z6 Q
    还有把古文翻译成现代白话
    ) s+ ^* M! v) m% R2 x/ i
      x0 n) O7 y3 w& q" c3 ?以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 00:11
  • 签到天数: 2834 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    0 c/ l; W% N( B% }" q  Q: Y  w8 M. O  Q4 j: M9 f' k) |
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23, }( Y; O! O( M, F) `
    请教是如何实现的?
    $ I" t0 b6 _/ v) [* }' U2 F  l* J, R3 Q* w3 Y; V
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    9 y$ {, I% c( \  j" d5 t8 U
    " w6 t. c  h4 x: U/ C- h, ]% a# w$ L我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    3 X* R6 U) |- D0 E6 E  K6 y* X4 i文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    * X0 I$ ^) l0 B  D美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    % v8 C4 v) d  j+ V" f: C

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23& f, j( @! B  W- O* ?# B
    请教是如何实现的?
    3 `0 W# L: x. ~4 o. B! X/ k( z: P( T. f  G3 r' A& W1 w8 t
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    $ Q, U" l4 l! d' w3 Q
    https://chat.qwenlm.ai/
    4 y3 R. {5 [+ Q; i4 h试一下千问,估计美国人没有攻击他,所以资源敞开用。
    $ Q* P, N+ L- s6 Q9 @很稳定,质量不错,好像最多一次处理15页。
    , n( d( L9 q4 l$ z我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 2950 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    & r3 s0 \0 a+ @处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    . {' c' V; ?, q% k9 _$ I0 h这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    " ^) l6 k2 S5 c  ~) c
    . i" {* k9 W( Khttps://github.com/oomol-lab/pdf-craft
    . J! S. R4 ^/ K" _8 }6 |* [$ {( x' |4 Q2 i  g' e1 B/ n
    1. 这个工具要求装 python3.10& V9 I+ O! R4 x7 ]7 w7 h7 q
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0: D2 K0 s( p% I) `5 D
    3. pip install pdf-craft  u2 ]! o, q4 s0 J2 i: |, m9 ?: f
    4. 把下面的内容写到一个文件里,例如 a.py% [4 d4 C5 I# K# Y( H0 }& _6 d, }7 V% j
    . T) v, N/ q% P' q3 A3 Q: t
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter/ b1 N$ O( Z2 F0 I% f. r

    2. 2 j8 x$ ~. o% g5 f! ^* D
    3. extractor = PDFPageExtractor(
      ; k% P/ I$ p9 Z9 T
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      - L+ h, }6 _& _" n0 j
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed9 b, a9 l3 d! v- S5 ^+ T4 t; R$ M
    6. )
      9 ]$ q! n( E5 v* k1 G, c
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:3 f: }" J6 j: X; f( b
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):; u# G4 R  Z5 e( u9 J  F6 W1 S5 B
    9.     md.write(block)
    复制代码
    6 y5 Q2 t3 c* b
    7 ]2 w; |6 C$ o
    要修改的内容:
    7 J  X& b2 t- m" H3 b4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型; I- ^, z+ a; V& _
    4.2 markdown_path:输出的 markdown 路径文件名! J. d) w# ^1 j9 R# E- k
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名9 y& G$ d. Z- B  d

    ! Z, Q- C: S3 r: t# d5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    # U* b2 N# }/ o. D
    6 |$ P- C& a+ l/ y6 ~; n0 F! i目前为止PDF转纯文字的最佳办法。
    # N$ h7 k; `: n7 w) e9 ^先写个小程序,把PDF按章节切成小的PDF。7 U8 F4 V/ v1 t, A  [
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。1 U) C* F; C! }" ^$ B
    效果非常好。
    , K- t: C! j* F6 w/ F( d$ W. H5 Y2 S
    deepseek,qwen,chatgpt 三个,deepseek是最好的。& {1 e( R, J- c5 _

    / Y& p; M% I; c7 x. p0 @deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
      ~% @' G1 N; c& }$ v" O- C- I0 M而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。: ?$ s6 B1 o6 J# P% V
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    . o) g, q. y" [* l  T' }+ z3 x4 h0 T& Y4 }  N5 v& C( @, b# h
    API到目前为止,差强人意,不如网页版本修得干净。
    * o: k9 i9 v+ J& n* O: J1 Z3 t* t
    % [  q6 W  G7 Q, J* s: W% ndeepseek可以同时开四个。
    . _2 U" y/ k: K8 ?5 [: ]

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 8 o% L! o: \  x" i5 V
    " Y7 |& J9 Q. M' e) p2 a1 j
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
      b& B( i& \) l" }0 O# z让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    0 G. k, u) N* M8 L) ~9 k% c5 C
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33$ e: d4 A2 }8 H7 j, p6 C" e
    细说一下,听上去很不错,多谢。
    7 N2 f- f# Y) N8 Q% G& H% E
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ; ?$ H6 A4 p; n  ]6 m1 j. F

    ( P1 Z2 }9 @. H: i$ a  \已经搞定.
    7 Z7 b1 E  g. p' X  C% v& h' `/ c  c: d$ k. I7 |6 W+ K+ L
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。& n. R6 q) m# b" v4 c
    9 `8 A: j8 L7 [  G( x
    1, python + pypdf 按章节拆分小的PDF
    9 m8 g, T2 g, g4 Q, s/ }9 J; `+ B0 \  C+ @9 W& }
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    + X: d: t; O4 f' Y9 u) ]- _3 p
    1 Y4 K8 H0 d# B9 K- A得到text file( t. w  F0 a: x0 w( _2 ^
    ( ]9 ?% ]7 M6 b- |7 u8 m' u+ R, k
    3, python 读取整个outputfile,丢给deepseek 矫正。
    0 Y: M) B  ~. ~+ v2 M6 v' X
    ) |9 n- w6 s' u) ^! _$ Z模型是 deepseek-chat4 C8 J: a5 k" U& E0 g- Y  p( }8 A

    6 r2 P' Z( h* \& [/ y& q8 D! A3 Wmax_tokens 最大是 8192,别的不用改。
    ! d9 O& S( W+ r" T2 k6 O
    ( r6 ^1 e8 E$ h* v) C参考:
    + E  }7 d1 l0 _7 N/ Z) b1 ?/ Shttps://api-docs.deepseek.com/api/create-chat-completion
    * ^/ _+ p1 T. p% G9 e9 n2 F6 {
    % \% o4 N: v3 v* ~4,费用:' X2 X8 Y. ]5 P

    " Q$ `+ x4 [+ Z4 b实测:
      g: J$ H: m" y( g( j( o, y, g- v9 |
    296K 字母,用了 9 美分。
    ) M* y7 t. p6 ^2 M7 \' l. c  ?; ~3 S
    ! O* K2 o# i4 f3 @9 d英文字母 到 token 用量大约 1/3( o, ~2 {+ }. n1 d$ g: L
    + E  a3 @4 m6 x, F$ x
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    / c9 `. h! g9 v5 `3 G7 B0 X9 E6 B% K
    : @, B* D) O' m) e7 M9 }9 m32899 个字母花费 11782 tokens,包含输入输出的 tokens
    - J) ^1 w3 ]3 Y: R# u5 A4 ]% I* ]$ }0 S7 M% ~2 l
    价钱,非常非常便宜了。
    " E  ]1 Q0 f7 a- d; b/ q0 j# h& p) H
    参考如下可以计算,懒得算了。
    2 |2 e7 x8 D* f0 K, G' n+ N( g4 }; Y$ C
    https://api-docs.deepseek.com/quick_start/pricing# I9 |  K1 P" h" X+ @
    ' B' S) N/ {% y
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ' T1 z! X, j* {, l* C1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55% r4 V6 y- [8 J. h9 n3 s
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    $ R) L5 x, k: V0 t' m" |7 U% ]$ }; }, [, U$ H- g" |% {
    5, Balance
    4 H4 |8 v, J# ?& j. ]# K+ J, M# _) o7 [  ?" _, D
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    ) H/ t/ K3 i5 W. q* H; G参考:2 {# j) m1 Y* ?' h" M& Z
    https://api-docs.deepseek.com/api/get-user-balance7 U" ^$ l4 ~. v: k. A+ K

    ) h+ }; |" M' O  ?. e0 ]7 `  i6, Models# f  {& g1 I! V5 j- B

    + T% b7 c1 |  R5 ?目前就两个3 ^0 ~" u) O& z9 B# K/ V# H; n& H
    # deepseek-chat
    4 A, a6 d; e: Y) @# deepseek-reasoner
    . i' f2 P3 G' t% e% f' V' O: r) [) i6 g2 G7 Q- T
    参考:# {& K; M/ K; |$ \7 K4 w' M
    https://api-docs.deepseek.com/api/list-models
    # Q- y) Y' d4 H  V7 s/ `0 @' a2 b( k; ?; h. n

    " _/ D: M  x' @6 F% |$ s% x7, 问题
    " A+ Z& C- n8 _/ _
    & Y0 ]; J2 r  d! ~  i6 N. {deepseek 会将前后两段合成一段。0 U8 w* X! Z2 s9 w. v4 q
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    6 l( J5 s  x  i! g+ f$ z3 U# q" ~/ G# O
    8, 钱说了算。
    0 e' {- ?" W( Y2 x# z! X' P+ B/ S  q' H1 F7 f
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    % z7 ^5 k9 W  Q4 ~# }( G5 z但是API就不会出现这种情况,毕竟我们给钱了。! C# z' r; G" C& a8 Z
    chatgpt也是这样的。0 Q5 \1 g2 q$ Q* V

    , F/ O! D& \5 f' h) f+ J0 p7 A9 X* y9 E' W( w8 F

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-1-23 13:55 , Processed in 0.063239 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表