设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2665|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
9 g4 h: D! N& [& ?' Q3 d9 H2 ^
& E7 x+ P% k, w把PDF上传,然后让他抓取文字,并修改可能的错误。
+ F9 U. @6 q. @+ `, u- k然后deepseek完美的完成了任务。4 }, B0 R% v7 J( f7 E* E
段落清楚,列清楚,页眉页脚全部去掉。
, K9 Y8 M* E) e8 r我要疯掉了!
  T. Y1 o$ i8 O# C& Z; h% @赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
' X4 ^0 \8 }& u0 l$ d" I$ z====
6 b+ |) G) l0 {( ^中文也很完美。0 M2 P# u5 S; l6 O- n& q, l+ k
经验值,每次十页比较稳定。- |" S5 _; R+ w' \, L) y
现在我这里API还不能用,等恢复了,全自动了。( z2 W4 _8 S! V* |0 A
====; H0 ]; [% Y  B8 k7 H
第二次疯掉了!
/ E# R5 |1 O+ F7 x8 D- p- d我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。6 P0 B: t/ q' s2 z' J
====
5 l( [6 W+ t8 `& ~) b现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
" I2 K7 I% U  u3 X' W& _但是任务多了后,每次翻译的页面数是减少的。5 z6 M6 N1 d1 }( S$ @1 B. j
好吧,我五体投地,继续探索。
  o0 ~! R: n$ S6 W====
/ l4 I$ `1 f5 j; c1 t+ o5 y为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
4 u) I- u" E, N+ e) L; T  }7 N0 o====0 a% W0 `9 k$ x, p4 E: A8 o7 M
好吧,有些东西是不给翻译的,哈哈。
2 z9 @$ z0 \9 P# v. J' a$ l8 L! Z- U- \' f- M( T
Sorry, that's beyond my current scope. Let’s talk about something else." p& B7 R8 F& v& X9 z4 I
====
( s9 w( t: z6 ~# K+ {然后我的英文命令也让deepseek 帮我修改,呵呵。
. V% w1 l7 b8 r& T+ J====7 r% k8 [, |( m( K% u& G
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
0 [1 o  F- y3 c% [5 G( w5 N+ `====
! p, {* W: v, C* K5 }时间段的话,北京时间的下午和晚上用比较好。% y! P+ {: s7 i! x; |; u
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。1 W2 Z3 Y1 s( v" S5 i, v  A
====3 k& O) t; r# J
用千问吧,非常稳定,非常强大。
( f- T) y/ L7 a5 f' |, e- Z6 zhttps://chat.qwenlm.ai/9 r9 k' A( J% l
====% }" `1 O% M  F# n1 ?6 w& e
Deepseek,API 看上去可用了,但是不给充钱。5 }& \, y2 d2 F, M' l  X5 d4 ]% e
1 P& E+ v) b+ k% K! ], n" ]0 }
0 n4 j# U* e# q0 Y; C
7 k* w. d* O% n  e0 E4 z0 x

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3698 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53/ y$ B6 i1 j4 y+ o
    这功能很赞呀
    - D8 [- D5 _! q& I! u& V
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13! h+ x, X1 F2 v4 o2 X% R
    有没有上传整本书试试
    - j0 p7 g0 A) H' Z
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3698 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 6 C; U: l7 I0 K7 N! \2 f$ g/ O

    $ s5 D0 e& R8 u( A: w2 X- _- X/ t以后让deepseek 读出土的竹简' b) J; O4 U' `) G

    8 B/ z) L+ O! y7 `" w还有把古文翻译成现代白话
    " b) a5 B' e; x9 V( m5 b
    1 }* P1 J$ @. f4 m以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2860 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?* g% r0 w7 |6 B# y2 [8 r' ~
    6 @0 ^4 q" Q: i( o. O& B
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    " n# Y0 X% `2 n1 {0 {, d' j请教是如何实现的?: N7 V8 b9 Q0 s+ r' W3 c# _! e, V' J

    3 t8 ]! L+ B0 u* H4 N( f4 Y* A- Q我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    & h; G! F, X* @5 k& p

    ) ]' T& ]5 R4 [7 I7 j' n$ P/ j我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。$ q9 y$ l+ h6 i6 j4 Q9 x! l$ U. D
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。) J, u2 B5 n7 L0 E7 R( @$ a
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    . N; ]1 m, g' Q4 R  C

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23# F. {$ V" f7 D) ^
    请教是如何实现的?* y2 |8 T1 N* S4 i0 k$ P6 C0 X( w7 I% J

    7 K, Q) R4 ]; D- A( O/ X6 p0 H3 d# J我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    3 W7 I( O6 o% m+ P2 k
    https://chat.qwenlm.ai/
    5 _( u4 C* E% ]4 T( N; r- Y. |8 q试一下千问,估计美国人没有攻击他,所以资源敞开用。
    * L" i; r+ m" t" T3 K很稳定,质量不错,好像最多一次处理15页。
    / L3 }; B5 L6 A5 A我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 2973 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    9 o0 h% Q, ^. F7 K+ c; @; u: v% ~处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    ( `- P" @2 }- q& _& |% a, S3 P. @" Y这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。& r5 Z  d- t# z" Y2 x

    ' f( a2 ?! u: E! r+ {" N7 Dhttps://github.com/oomol-lab/pdf-craft
    4 G- N- H) M" p- I/ o$ Q4 ^
    0 O6 r- l& E. j( |* K: f* p7 r+ U1. 这个工具要求装 python3.10
    0 z( \- E' N7 h% \- Z( K. F2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.02 K& ~& g) m: T8 A
    3. pip install pdf-craft3 F1 O+ Q( O% |
    4. 把下面的内容写到一个文件里,例如 a.py2 |/ g& j' s2 _) F; e4 Y- s

    # l( L! |+ T( N/ U) B% R
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      ) s% e5 x# w& N3 v. {) N2 h

    2. , _. l' s; h& C3 u8 K7 C
    3. extractor = PDFPageExtractor(
      8 q% E1 C, K7 F$ }% d
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      % V  y# o" m' ?/ J' g) G. d
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
        m) T5 v( N% s; x% `
    6. )
      * C/ Y: Y6 D2 q* N) Z4 {
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:% E1 D) I4 s. H% m& q* ~' r
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      6 H% _! u3 F; r" u8 T( x8 {! u+ m
    9.     md.write(block)
    复制代码

    - O5 Z- Y+ I7 N# E. g
    7 c3 B" G: [8 V& I- q7 T要修改的内容:, g! |1 ?! A; @4 T: k
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    5 |8 d! X4 m2 Z2 Z! `6 `0 L4.2 markdown_path:输出的 markdown 路径文件名0 n3 s# o8 d/ A% u4 t9 T
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名/ J2 y( ~6 L( t8 C; F
    # b% x4 U) d% H- n' h5 e! f
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ( j" E3 Z; M+ E& y$ a/ c
      I/ L1 [# _* ^1 w6 J8 b- v
    目前为止PDF转纯文字的最佳办法。6 z/ v6 h4 S( m, L7 G
    先写个小程序,把PDF按章节切成小的PDF。# Q, k+ F, Z9 J- ^6 [1 }! v
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。9 Z8 p7 d6 i5 x: O% ~% ?
    效果非常好。. V& P' B& p. X

    3 A' Q  }/ T( i( a1 }, Wdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    ; Y; Q3 ~, ^: ?# E  Z" V+ j0 F' h# \. I
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    # y# d5 r8 }& }9 S. k# i6 a, O而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。* s3 o& R  ~$ P! P
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。1 Q- [) b) U. T% t- o) E$ w% {
    / f/ r7 k' o; A; D! d3 `# x# b+ R
    API到目前为止,差强人意,不如网页版本修得干净。5 b$ w0 f' a# b# n8 k

    8 E+ Y6 i  p% q. y% Cdeepseek可以同时开四个。
    * {3 ]( _5 u$ e9 x7 w0 A3 ^7 E

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    5 [: [) k7 t. D3 H
    + @; C* x* d( W; h让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26+ _/ H! ?0 D5 W
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    6 P4 A) D2 F- r; e细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    + d9 x' v- D( n" A细说一下,听上去很不错,多谢。
    1 N: h% W( H0 ^3 \
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    6 U  J( @- ~1 w5 L1 D0 \
    # k, ^& G, M1 W* L( ]$ Q8 W) b已经搞定.
    % H' O- q5 f4 }& |- S6 F( f" X$ p" }; s  @1 ]6 d1 X+ ~
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。# \% M% _4 ]" H. o8 E' T

    . z0 _7 |0 |2 [& }! ^1, python + pypdf 按章节拆分小的PDF2 I& }) u- B% i& W4 J% X- r( f
    2 {8 v- J5 G/ J) Q9 ~( }' b* c
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    0 L! X; ]( T/ K' I1 y2 ?* C; F7 [6 l, K# A( ~9 O* _! X
    得到text file
    , i$ T' @! g% J9 r5 Q0 X! I) o- M
    6 A9 ?. p" W& V2 H3, python 读取整个outputfile,丢给deepseek 矫正。0 V: N# Z, a  Z# Z

    : V1 b8 @8 ~' k( J' x# ?' ^模型是 deepseek-chat6 S$ @8 t8 r  g* ~
    ) ~8 ~; z+ Z" w6 Y$ I6 c
    max_tokens 最大是 8192,别的不用改。
    & r; u, Q4 I+ ?( A9 T: N: U% m
    5 U: P( B8 T+ _! B  v( b参考:
    9 d2 ]5 v3 M- u. K: p% ~( h0 Hhttps://api-docs.deepseek.com/api/create-chat-completion
    % m3 W" {, @; `
    ( V* `( c5 _; _/ J4,费用:
    $ M" d5 p  _3 ]7 x2 H6 f; {& A8 y4 z9 b
    实测:
    ) M' c' }, d0 t0 F2 E# q/ W+ a* }$ Q7 S& g( }
    296K 字母,用了 9 美分。
      q# ]1 X/ E8 {2 _5 \5 g( }* Z6 s2 g1 t% v2 Q2 u
    英文字母 到 token 用量大约 1/3
    + T3 ^& |) `8 c* W( B  V: v& h$ p8 D$ W5 f. h# m2 [% A
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899. D8 L) }5 [& h  P
    ' A) K* \- D6 k2 m* R
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    2 C$ o8 O7 H2 D7 F) j
    & R2 A* p5 v6 K3 Y' D( ?2 D价钱,非常非常便宜了。/ \+ w0 c1 y' \( s$ e0 P( n+ m6 H
    6 R: U" M8 e3 L7 ^$ f
    参考如下可以计算,懒得算了。
    % L" n$ V6 t1 U6 B/ u
    * y1 H, C) M/ hhttps://api-docs.deepseek.com/quick_start/pricing
    ! k2 g4 u1 O( n) p0 s+ a# r( O& A7 n# i
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    # l/ N* c: `* W, G9 \) `$ L1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    7 t0 J4 j, }, }7 r# g6 S1M TOKENS OUTPUT(5)                                              $1.10                $2.19! Y4 E4 D8 @3 S7 s6 t
    ; d/ l, x9 v7 S) m$ {
    5, Balance
    ; V7 [2 m# S, g1 h  z6 X$ g1 K1 z1 r) S$ ^* k" ^
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    ) J2 ?, `( ~! Y参考:
    8 `/ f9 x9 G9 \6 B, j. ghttps://api-docs.deepseek.com/api/get-user-balance8 ], {/ B) ]4 U, X6 e* y

    % S; r5 f8 x( A  G4 r2 ?6, Models% E8 u. I/ j6 K# Q

    . g& u/ v; S; i. t% n3 [  U目前就两个
    1 t: H# A9 t" _* e: ^6 E# deepseek-chat
    3 \  |' J& p7 X: s# F' Y# deepseek-reasoner0 k% o6 Z) U. I
    ! x7 \0 ?3 a' k$ x* C
    参考:
      i" P" n6 S. e9 Xhttps://api-docs.deepseek.com/api/list-models9 |( `! d& J. q2 e
      [: P* }  e: e4 P! Z

    " z& r  e* O* X1 ~* C+ k7, 问题
    6 I) I" {: S  b7 i
    ! A9 @1 M9 N9 j2 U: edeepseek 会将前后两段合成一段。9 R0 Y, M' S. @% p" k# U! [
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    % b" L$ \  g' Y: [7 T. o4 o/ m
    6 a' F0 i+ f# {" {9 v: s3 O6 L( I8, 钱说了算。
    6 p4 f8 f  U6 t/ }& w6 ?3 S7 Y, E: I. O, L, V& Z' m, ?, t
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。2 ?* |$ @" F) y0 S( h: M
    但是API就不会出现这种情况,毕竟我们给钱了。
    0 U8 \+ ^. y' rchatgpt也是这样的。
    & |) D7 Q: H2 n/ g& f7 W
    $ O; u( C; a$ c  y" N: r& c6 d- ^0 k7 A, t6 |/ n) H

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-17 05:20 , Processed in 0.060840 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表