设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2336|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 1 C7 M- U3 ^" B1 ?* X1 D0 W; ?0 k

2 D4 _3 X$ V  g* {8 {9 ?( q把PDF上传,然后让他抓取文字,并修改可能的错误。" D2 O6 _' X$ I1 W0 b, j& L* @
然后deepseek完美的完成了任务。8 o, y+ Z6 S$ _# {
段落清楚,列清楚,页眉页脚全部去掉。
' o) ]& B4 O$ D8 m7 l我要疯掉了!' s! m5 A2 h9 s3 N4 ]
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!0 P& S( m  T2 j  G# N
====8 j- G8 m0 A9 [, D+ ^9 T
中文也很完美。' }& ~+ F8 `8 p  A
经验值,每次十页比较稳定。
* e% y8 l8 h% d4 ^. |现在我这里API还不能用,等恢复了,全自动了。
% j1 l1 E" \" s- k& i====
( b* K1 t2 e- d% `4 P) Y$ w第二次疯掉了!- j2 y7 F$ w; D7 P
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
4 P" o2 ^2 f9 P8 Z9 ?4 w====
$ o$ R# n+ T4 \0 U/ b1 Q0 u现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。) z) @+ C2 L& @+ L
但是任务多了后,每次翻译的页面数是减少的。  Z; f- N) e" Q/ ~! ^6 G9 U- N% A8 m
好吧,我五体投地,继续探索。; [/ D+ q8 e- E& O0 Y/ a
====- [0 f& p% o5 I- d8 h
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
5 b- U. k$ Y5 d9 L' M2 f+ h====
( H8 @; D" K0 p; S8 B4 C+ a好吧,有些东西是不给翻译的,哈哈。  X+ t% V. i8 k$ s* c, I

1 c# X7 ?, d. x$ G0 K# N- i2 v$ m8 Q4 WSorry, that's beyond my current scope. Let’s talk about something else.
$ y* v8 y+ E. z/ [9 L0 x% |/ @====
  e9 H3 C7 o1 c5 k' h" U4 S然后我的英文命令也让deepseek 帮我修改,呵呵。
9 O  s0 N" K. k# n9 {====" F5 u! k! l6 t8 P. b& |
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。7 V# g/ E1 A7 {; }# E4 u
====" T1 i8 o4 b/ `. L
时间段的话,北京时间的下午和晚上用比较好。
) I  v& ^6 I' k: P后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。3 G! _) |8 Y) F7 N; b9 o
====
- s) K; H3 ^/ U5 u. \4 N8 K用千问吧,非常稳定,非常强大。$ J4 g# W+ Q; t, I/ H! ^  F
https://chat.qwenlm.ai// v4 R  F' [3 `8 Q8 D: O; ]$ `6 X
====% i6 X- j9 Z0 b& f, P& L
Deepseek,API 看上去可用了,但是不给充钱。
0 b4 K5 x: U3 _% w
, d' B  P# N( s2 H- P% {# A1 t
% q+ l( K8 @8 r) p
  T; A" [$ Z' L; |

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 3621 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:531 L" \& _) O  p1 G, U
    这功能很赞呀

    ) v+ C+ |/ i) Y  L简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    9 Q; h$ {- J( E9 Q( ~& f3 L有没有上传整本书试试

    * O  L7 N+ y2 Y% @  t) _  i3 _目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 3621 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 8 [4 B& n' @% d% P9 W" z, M! V7 S0 X

      O) g2 i" L0 ?. |2 o6 L9 J. T以后让deepseek 读出土的竹简
    * Z" P# ^, j' D7 o6 F5 E
    8 k' Q1 f6 B+ b) e, f' ]- f' q/ F还有把古文翻译成现代白话
    $ ]& w: W  b' ]/ |* K5 U( T2 J0 @9 d4 }# Z
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 05:22
  • 签到天数: 2783 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?  Q, g1 }" S) Z' q6 }+ R
    ) k7 @& K" C! ~0 n2 e7 j% F9 X
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23, D* j$ k. P3 o4 w
    请教是如何实现的?% s8 a7 I% ?, T, h' j/ G

    3 w6 v, r. P' k0 U& E0 w8 P6 f我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ) Q) |# t2 ]$ @' G) g3 A# c) D& }2 T$ F) f  g' O! ^
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。: a6 X$ S$ u* q- y2 ?
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。5 ]7 ]1 Y  V3 P+ ~( o6 Q8 j% X% z
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    ! U( W, c& }. w4 |0 C- O! N3 V9 ~

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23: w) B) l# D5 j, J0 Y
    请教是如何实现的?. }" m# t+ r" _

    9 q* H, H+ u: n( q% p我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    + v7 Z3 u) @! t  _+ j* W# W
    https://chat.qwenlm.ai/
    , L( I: ?/ ^  b0 B2 E. ?试一下千问,估计美国人没有攻击他,所以资源敞开用。! a1 p# }; l; p" Y
    很稳定,质量不错,好像最多一次处理15页。
    , ~$ m; H/ `) m/ S: @/ y/ w9 b( S我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 2900 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。* u" C# ^: h0 [4 r( B& _
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。# b5 o) d: Z! s: I. R+ L0 P. Q
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。* B0 w1 H* ~8 U1 r
    6 W% n5 T1 x$ u! g) k# L
    https://github.com/oomol-lab/pdf-craft1 i# e0 B1 z$ p" v5 c8 I3 ]
    6 v2 M- a3 A! }5 n
    1. 这个工具要求装 python3.10, B" z5 [( [' M+ _" u3 o
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0" C+ f+ e4 D# q1 O6 B
    3. pip install pdf-craft( a" r' B8 P; D: G8 _
    4. 把下面的内容写到一个文件里,例如 a.py$ O. R7 ?- S( ^) E

    : B: g" T' o2 F2 @) X
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      4 c- K& T- d8 i' r( v/ _6 x

    2. * ^" i& z9 c1 t9 g6 P7 }
    3. extractor = PDFPageExtractor(
      & B% Q9 t' _, l& L
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      & ]0 w% P. d# b" v" z7 ?
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      6 |2 J  \8 L( Y' Z+ g
    6. )% Q( E! Y0 t* m% E
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      * ]# t8 V( X$ o5 H' {& U
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      . f. ]. `) h2 N% G1 K  F# b) r. J
    9.     md.write(block)
    复制代码
    ' V  w5 b& Q; q5 C6 ^
    / ~0 g8 n8 {* f6 b# X: D4 m( H4 ?
    要修改的内容:3 B6 E0 g; |4 h: b( ]+ J
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型: C1 l  J% C3 F9 s& R3 M
    4.2 markdown_path:输出的 markdown 路径文件名
    - f7 R5 N( C6 r3 ^4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    * C% A$ Y0 o; m' O: M' V- z2 P8 t+ O: _# g$ H/ ?: m0 K" n3 V
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 2 f6 S. H% z, r) X
    & Z2 V' e$ @- L% q! E5 d6 ^
    目前为止PDF转纯文字的最佳办法。* I' p3 x# [# @7 b% s
    先写个小程序,把PDF按章节切成小的PDF。, g+ w0 Q$ i! P& z0 Y
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    , K( \2 f" u# J9 k* Q效果非常好。
    ! [8 _, n4 j* h3 O/ s
    ) I4 K, ~6 P! l$ w, X1 wdeepseek,qwen,chatgpt 三个,deepseek是最好的。1 K0 x$ V0 _( c

    0 w# e3 W' y/ Z* U# {6 n+ Wdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。8 @2 v) J) X4 E( i
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    0 S5 Z% \: J1 D5 B0 T我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。$ g! a3 Z8 o1 ]9 T' U8 T9 y

    + C+ ~% K. X$ O5 w/ e8 OAPI到目前为止,差强人意,不如网页版本修得干净。
    7 i+ v6 R3 h8 k- M8 N8 Q' I# t9 H1 W5 L
    deepseek可以同时开四个。
    - F) J9 L& F, Y0 `$ E

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    1 r2 L( t2 e8 q$ [+ D5 e
    ( m* N1 c; Z% m5 ~( r7 ]让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    # ?7 }2 j4 Q7 Y2 `' u让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

      G8 k5 F5 B+ C- p" @! s+ \# P细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33- V* {4 |7 k# A
    细说一下,听上去很不错,多谢。

    ; r' v# i* Z# C直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 4 x, N) A& _6 ?4 W

    : W  y) c2 C" ~- Y, A$ B已经搞定.
    ' b3 z2 y; l0 n$ l" s5 t
    + O4 G: I' Q1 Y! v首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    1 E5 S# J2 }1 k7 \8 n- D5 o& L8 F
    1, python + pypdf 按章节拆分小的PDF7 Y. U7 @6 a4 W: T+ L8 W

    , H3 N& Z. q& _# c/ o) ^5 n2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ; W0 b  F- [) Y* S
    ; o0 ^# a9 I) P得到text file
    9 T/ l0 o; F; p- J
    0 E. m( x9 P$ H3, python 读取整个outputfile,丢给deepseek 矫正。
    6 J7 |' ~0 h6 W2 W" o& N7 E/ W
    7 s: d# E  w2 U  _/ W8 i& R模型是 deepseek-chat
    6 T1 ~) E0 j8 |! j+ X9 J# l# q; m6 ~5 k- e& d6 D1 N
    max_tokens 最大是 8192,别的不用改。
    9 e3 }& F/ L$ Q  ~
    ; B) R9 F. p6 i, F0 t0 j! c3 W参考:
    - a* p% ^3 ], m# ^, K( i7 H+ y; Dhttps://api-docs.deepseek.com/api/create-chat-completion
    & g/ e" v2 k1 k) Y  d9 P( D
    9 b( u. U$ ?2 y4,费用:2 ~; S5 [, J& k4 B( J- v

    ; h$ b! V7 O  `8 A0 k0 d  X+ I实测:
    8 [$ G& {) u( F; _, T
    0 D" D$ d8 i" N( O: F6 c, _' C296K 字母,用了 9 美分。* J& q# L5 W& F, Q9 ?' G/ J, |3 q
    ! c. B- }: R% ^' q3 I- ]
    英文字母 到 token 用量大约 1/3
    ! u: q7 \7 Y2 ~2 u1 ^; P1 ^0 b3 W8 `4 l2 Z
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899: W7 f# y1 G5 g4 `8 [9 j  L! X
    2 J  F% B3 _+ B; F0 `2 H
    32899 个字母花费 11782 tokens,包含输入输出的 tokens: |' b: r8 b. s  ], N
    * |6 F% k0 ?. U% j* A  P, m
    价钱,非常非常便宜了。
    . W# h- P) K% ?$ m+ I# C. O& a0 ]' \$ V6 R! z0 n' A1 j- M( f
    参考如下可以计算,懒得算了。- ^) ?$ c! P% d$ c/ k4 V
      o! P- J* @! C( r
    https://api-docs.deepseek.com/quick_start/pricing; C1 X; \8 D0 ^" e$ H0 ]
    + @: |$ ^  Y# h' C/ E
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.142 Z& m) o: A" ~+ j$ P( h
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.554 O) {6 w9 s0 M. k, y& f. m3 n' i
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ; G' j4 G7 E9 v4 q( z
    ; r" C6 u: P( F" i, O  u& l% M9 B5, Balance
    # r# M% h$ h0 J; a$ c; e9 m" i- Y" c: B7 W5 L' ]8 L
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    . f2 l* ]/ ]+ D) i5 A* _参考:, p9 p, n* G+ ^$ [* M- G* |
    https://api-docs.deepseek.com/api/get-user-balance, {5 ^% K4 W4 i8 k
    8 X# u2 J/ u5 G/ x
    6, Models
    ! g+ g$ K$ o4 u7 H) H, v2 t  D5 d+ \: G+ J4 L/ x1 \' d
    目前就两个9 |4 d# T% s1 |( I
    # deepseek-chat. n0 g4 n1 t% _/ h5 W1 n6 K
    # deepseek-reasoner
    ' j1 I3 d, }; ?
      |, w1 K) T# X, x! E2 O参考:
    - @5 H0 ^; w0 L" \$ R  _https://api-docs.deepseek.com/api/list-models
    6 p  S& N$ m$ \6 i. t  t  C% ^
    ' o# v' _9 j. N) e) ?# N5 X$ ]4 G( V8 V9 l
    7, 问题/ d% K8 [! W* y8 A
    : z. I& K, Y& |
    deepseek 会将前后两段合成一段。
    ) d" K' t" \/ z- G( F特别是那种大量的对话的段落,deepseek会给你合成一大段。( |$ m3 f$ I, F1 ^2 }4 o) ~7 Y" [

    ; q- b. Q: w1 R$ V; D1 B: T8, 钱说了算。
    + a/ r  Y7 P  |! w
    " B7 {/ y% Y5 I- W5 ~$ z9 Tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。! [- y2 p. @: k7 D& P# N% R) m
    但是API就不会出现这种情况,毕竟我们给钱了。
    9 t  D& _/ c' E% o, F5 @  Dchatgpt也是这样的。
    5 \: _$ _( s4 U! Z3 K8 Y) _7 q5 @, d5 H

    1 X; h. h0 p$ C) [* I3 A/ o: ?

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-1 02:39 , Processed in 0.044940 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表