设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1660|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 ; G1 }6 j# p& _) D1 ~
7 g# `" M) g6 V/ e+ {: I2 I
把PDF上传,然后让他抓取文字,并修改可能的错误。
6 I7 ]0 c+ Y# I  u1 `: F% Z' x, P2 |然后deepseek完美的完成了任务。
% g- l* H% d: `" \- w段落清楚,列清楚,页眉页脚全部去掉。+ x& y2 z4 F' I( h; u
我要疯掉了!/ g, I! a2 q3 }% G8 \
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!# ]( q, Z# c/ U/ r/ n. @" L
====
& V' U, _- W& w6 g+ T; h. P+ @9 a, K中文也很完美。; Y* A7 S: t) q
经验值,每次十页比较稳定。
- x% {% K' D* D5 l, x现在我这里API还不能用,等恢复了,全自动了。
0 N# B* G, u. h$ S====3 Z9 {4 H/ q/ O2 D: ~8 ~
第二次疯掉了!
) d6 O8 ?' Q* G3 K. J; G我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
  a6 z5 L6 ]4 g====' `' U, \9 v9 N2 C# Z
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。' {! T: y: D: [8 Q( J- c' u! i6 b. t! @
但是任务多了后,每次翻译的页面数是减少的。
* M2 O( u+ q: k0 [0 [* g好吧,我五体投地,继续探索。
. z: N2 l  v- B. V( O$ K====6 b! N4 R+ r" ^* m5 P: Y6 E9 a
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
# }& [' `+ f7 T- n. S====( r" T& W, @( s" e- M1 I8 G4 X, L
好吧,有些东西是不给翻译的,哈哈。! ~/ v  I! T- w# \9 ^1 Z

( L0 H% H& y6 ~1 v! u- T& c6 XSorry, that's beyond my current scope. Let’s talk about something else.8 l( G6 T+ T* K2 \( }6 E) g
====, w! }! d* c; b- o' [
然后我的英文命令也让deepseek 帮我修改,呵呵。
: @0 _4 t' n+ t5 }, q; U6 H====
# K# ?: {  ~- H) C日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。) d  q* V0 y6 W, I8 ^- l5 V
====
8 P6 W) P% c" b" Q3 \- g5 v. Y) Z时间段的话,北京时间的下午和晚上用比较好。
, w1 Z; X0 I% f1 N后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。+ Y: C5 y0 E. m  K
====
6 y. s- b! |5 P* L% {- v+ Z1 a用千问吧,非常稳定,非常强大。
7 q1 w  f# k; t" hhttps://chat.qwenlm.ai/
  t7 h4 {7 P$ K8 }" G* }====
, V) g7 W/ K& f$ J9 z$ q: ?8 b! }Deepseek,API 看上去可用了,但是不给充钱。
7 f) N8 h* Z" z( @7 P+ @) \7 F  ~+ l) R) _% F, S5 i! L
7 r8 T0 R+ L9 t- e' ]: S% ]
' ~6 k! B& K* A( [9 ?4 q! {% n

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    19 分钟前
  • 签到天数: 3522 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:530 r. ^' X  v4 h) R6 ~2 ~
    这功能很赞呀

    & m5 D* {5 M8 F+ t& W- r简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13) [  C; q* s% F- C& p. N
    有没有上传整本书试试

    - E8 z' U; N3 G" E& t目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 分钟前
  • 签到天数: 3522 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    1 N  U4 l$ d# @3 W9 Y7 y- }4 C0 u* A+ c( w  e
    以后让deepseek 读出土的竹简8 B0 I% o) q- }4 C

    + w5 T% o" g# x" M3 F+ `6 C& l9 E还有把古文翻译成现代白话  M6 R& r3 _/ D! ]

    - [4 S" _, j  ^: {0 v# |/ I以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 02:31
  • 签到天数: 2671 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    . j5 h9 k" Y) I8 ^$ \% G6 p- |# N. n# b$ R
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    6 h6 W8 I/ `! V% a( f! Y& T% _请教是如何实现的?0 _3 j; ~1 k5 k, j2 _* q9 @
    5 {. a( J" N" ?  c4 C0 M7 V  g8 A
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ; e' z3 A* e  X5 X; }4 V! W8 S1 q, w" r! ]- K- u. N
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ) s4 e! K5 ^: n$ I+ W2 h文字之类的没问题。估计deepseek现在暂时只保证主要功能。! |# S6 v+ z& m  H; ^% i1 o
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。/ S( }+ ?3 ]6 Z" K% [

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    - H: L" p0 z' H, J7 G2 R请教是如何实现的?" c, F) G4 v8 w( J

    % C# u& [9 S" M' V! }- _我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
      m( y- J* M% W8 {' i. W3 a5 d
    https://chat.qwenlm.ai/
    4 t( B' n$ i  g0 p5 I- T试一下千问,估计美国人没有攻击他,所以资源敞开用。
    / l/ r! u7 N- f  e6 m很稳定,质量不错,好像最多一次处理15页。; F* |3 W6 V4 F9 D( P
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 分钟前
  • 签到天数: 2809 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
      ]8 l/ B' G7 h; W$ R处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。% a$ I+ o$ h+ z2 o( {
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    2 M8 I7 t; L" ?; J/ T9 g
    . X( E' m- ^6 }0 Q& O! Mhttps://github.com/oomol-lab/pdf-craft  w3 B, M( s7 S' h' e/ n

    & I+ _& g0 W* e3 X1. 这个工具要求装 python3.10
    / x7 _. d0 z& o: K. a2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0' q$ [) a+ G) A( ^9 p
    3. pip install pdf-craft
    6 f6 }+ J1 k  u0 d  ^7 Y4. 把下面的内容写到一个文件里,例如 a.py% B# A2 {/ W3 w1 j/ H0 E

    3 Q  m1 W: j! c& \0 e9 F, q
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      6 [+ l' q/ ?: J; S; l

    2. & h$ L& ?. {4 g# l2 ^9 e3 p2 G
    3. extractor = PDFPageExtractor(
      - g. C& l. K2 @. E! v# z9 |
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.4 G, j2 x5 |5 @0 D% {1 m; F
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      & L% C) u- N! W; `6 _
    6. )
      " r/ g* ~, S" u* V
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      , _6 ~2 I3 A7 v5 r
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):# K4 K4 Z0 k/ h8 G0 s
    9.     md.write(block)
    复制代码
    : e# }+ y! n6 j, N: ?1 Y

    & S2 }. {5 T( w9 J# m要修改的内容:
    8 |$ I4 o0 I% b/ |2 `) E, Q0 x4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
      t  V9 y, _2 X. I4.2 markdown_path:输出的 markdown 路径文件名3 g+ l2 ^( X- S# h$ M* u, i- @
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名: h) w' ]& ?0 d; E/ j

    - y" C. n& s* j0 W$ }  z0 }5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ; _- H% X, i% o$ y+ Z

    7 l0 e$ T+ b" b5 o目前为止PDF转纯文字的最佳办法。
    & t" W5 r1 A$ t先写个小程序,把PDF按章节切成小的PDF。
    4 z& j) N) H; a' M/ o* L" b然后,把PDF一个个传到deepseek,让她抓取,除错,输出。2 _, w+ n8 p1 ]4 `. C
    效果非常好。: ~4 q, Y* O9 |0 ?9 \% r7 t
      r1 j' D1 ~9 m% R; }
    deepseek,qwen,chatgpt 三个,deepseek是最好的。$ q- A' m7 D- v: m. e
    1 V% w6 Z* p! U6 M6 u; @
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    ; T  h5 R! k) Q1 W7 G9 o而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    : t% F$ s! m+ `$ f( A7 X& p2 L; {我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    2 Z9 L1 n% T6 T9 C& H# o2 v$ y$ P9 n# u9 D7 Y0 k
    API到目前为止,差强人意,不如网页版本修得干净。
    - |0 s  G7 F1 l- w& A4 @7 B. d) D4 u( X  U7 [
    deepseek可以同时开四个。
    ) E- d& X. p) {- Q; z& ^6 R; R

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 0 R3 L- Q3 F' e& D8 U: y

    8 W  C6 @+ t3 v" J. k6 v让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26/ Q) j; K0 c5 [. c
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    0 l8 u! B- S" ]% G
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:333 h1 i  k5 h( Q! `
    细说一下,听上去很不错,多谢。

    + i- z4 e  ]0 s9 N' {9 i直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    % p9 `! Y+ k5 Q* O5 B3 p3 ^3 w
    / h4 s4 H; \2 q5 _5 B已经搞定.( n1 i- |" d5 u: z6 U- C$ V; N
    ( I1 P4 k- M# v6 ~
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- N. Y0 ^7 i& D: G/ K; C
    ) I, u% x- Y" h% E: @; I4 ]* N9 _7 Q
    1, python + pypdf 按章节拆分小的PDF* |. D) X- h6 f" d1 r6 m' y
    " ~; `! e# ?* _2 w! }
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile& q3 q$ i8 @  m0 c% X- D6 ]

    3 M  i" c: _( {2 A得到text file
    5 t7 r& n4 j- t6 k8 b, p4 f) B3 H( h' {* |
    3, python 读取整个outputfile,丢给deepseek 矫正。
    ' @+ F" t8 L& i9 V) D4 t  o5 p
    . r# A9 K. A; o* X* A8 v% V  }模型是 deepseek-chat! p, y; j: i5 }

    ) \+ D, {$ a4 v- v' s3 u. r& C+ qmax_tokens 最大是 8192,别的不用改。
    8 b; S+ n6 n7 X: S8 N4 {& k
    3 t# s! @+ g% q6 `$ x参考:" t; i9 O6 e9 [& m8 A
    https://api-docs.deepseek.com/api/create-chat-completion
    ) @2 k) Q! z( J$ f( l
    3 b& R, o/ z/ G9 v6 p, i, o* H8 u9 M4,费用:5 h( e4 X/ s# A! X9 D7 z: M: j

    $ z7 _" N+ G' X3 R) D' R$ B2 Q% U实测:
    & l, ~* Y/ X6 }' ]- {% h% d2 v: N- r* t' f0 y( j' ~
    296K 字母,用了 9 美分。
    2 E5 x8 p6 a5 {; A/ d) p
    - j8 ^5 y; h' [* ~1 x2 z0 g4 ~英文字母 到 token 用量大约 1/3/ G& ?  }! z8 d/ K6 Q4 j4 E
      L" A1 N# |0 m4 m: \
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    ; r# N# }& s* t
    $ t; G* A) A3 {& F$ B$ l6 M/ a32899 个字母花费 11782 tokens,包含输入输出的 tokens
    1 s9 `) ^  S8 A: q# i/ u, j5 p( H. |& j9 v$ z2 t4 ~
    价钱,非常非常便宜了。0 l& K2 F8 N2 V! D
    5 J' \3 M! U- @' a" o
    参考如下可以计算,懒得算了。
    " ~0 Y' c+ `: F7 S! E* h! [7 O; E8 Z! K# }! J& A8 i/ A
    https://api-docs.deepseek.com/quick_start/pricing- p: O2 ?. A: W: c
    1 o% N5 ]( v6 `; k* H0 [
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14" a0 h7 _5 z1 K. N7 f& @( U: `
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    8 _$ O0 l' W% v; d% c- E1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    & `7 p: }1 n9 c. D7 T0 }5 O/ |) U2 Z; u: S. z7 d1 M5 c  U( P1 Q
    5, Balance
    0 O3 `$ d8 u* T+ f
    / o3 ?: s/ O% w, E5 i可以在程序里调用,知道每次运行结束后,balance还剩多少。
    " I( b# g# l' z3 q9 L5 f! f8 ~参考:; u! O0 W* K; R% W
    https://api-docs.deepseek.com/api/get-user-balance
    5 d7 P5 z( C5 d: O. ?( H, h' K* _4 E7 i5 D8 I/ M) V
    6, Models
    ' w, n! @: f0 ^* v5 n* @$ T5 }, C, j# m  c7 c3 [7 ?
    目前就两个
    ! w1 ?1 @6 a& y) i7 N, c4 m# deepseek-chat
    " f, g8 z# m& z$ ?. i# deepseek-reasoner
    ( I* M) D' ]( o" H! e: B9 S, F0 J( k3 R9 O' ]* y' D
    参考:: P2 R% b: ]/ P3 u
    https://api-docs.deepseek.com/api/list-models
    8 V' L2 N7 ^* c, e" a
    * ~) I6 V6 U0 G: I# R
    6 M6 ]! i& F7 r) u: g7, 问题
    + q$ X- a6 D/ \( W: k9 c, j
    5 K; R. G; X2 rdeepseek 会将前后两段合成一段。
    ! S  X; }& d: i6 X8 C+ p5 z" \特别是那种大量的对话的段落,deepseek会给你合成一大段。- W/ A9 f! b. Y! z8 h4 |
    . V3 J" Z- s3 ~' |, ]
    8, 钱说了算。
    ; i5 p0 D* V4 `9 c8 [0 F  o( X, A9 m' {, c
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    ! K9 l$ {8 g8 h- s但是API就不会出现这种情况,毕竟我们给钱了。
    # m, x1 h) i1 Y6 B7 i% }chatgpt也是这样的。1 ?6 c% u3 [$ c9 ^: o
    5 a4 |# L* U) r, h' C, A, f8 E

    & j% o+ K4 s2 v5 u& p

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-26 00:19 , Processed in 0.040798 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表