设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2748|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
- d' B6 J7 u6 b: w8 d: K5 C4 v. _4 Z' A5 Z; v6 O% A8 H% w" R2 J
把PDF上传,然后让他抓取文字,并修改可能的错误。
3 k4 N( F$ P" Y0 _然后deepseek完美的完成了任务。5 |3 y  K, A7 D) S. e* j
段落清楚,列清楚,页眉页脚全部去掉。
+ F  p. T2 G" n; s我要疯掉了!
' z% G5 }' v+ \/ r& R. X$ J赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
. j9 ?" y6 `  w1 R* q- y1 ~====4 F( z  H+ i/ S  q! x' w9 x
中文也很完美。
2 z3 m) ?. k4 ]+ L( b7 Q经验值,每次十页比较稳定。
( \8 @- T0 U# ~' j现在我这里API还不能用,等恢复了,全自动了。
% r& Z) o! q) g! {====
$ Q& R& m" K5 U. P7 J* V( o' N9 p第二次疯掉了!
* I. X. q7 m; y' `  P4 d5 V% u1 m$ G我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。5 Q" |. ^+ a4 `  W+ H
====& {# z9 L. a1 J5 S
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。5 z" b1 j, B9 j4 O. I0 I" E& ]
但是任务多了后,每次翻译的页面数是减少的。
7 R4 |; g7 D- X% |+ W" X5 Z好吧,我五体投地,继续探索。
$ t6 V- e- n8 q- y; v) v8 n====
, @8 s+ N+ e+ F0 H6 G为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
- z: _" S+ a4 Z0 @/ C0 b+ R====
9 |6 ?. x. ~+ W好吧,有些东西是不给翻译的,哈哈。
  D, t. @; h3 t
$ z4 ?8 r  h9 q! {4 ySorry, that's beyond my current scope. Let’s talk about something else.
  i+ y4 i  ~# B8 V2 Y: A====
/ V( s* m4 A7 l  ]& \然后我的英文命令也让deepseek 帮我修改,呵呵。
, t0 u- f6 D4 l- g+ b  m0 |====4 y0 M/ Z9 Y: A5 B& X
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
2 Y, k( D; s4 T7 e====' |. E9 b& _/ n3 k  r: A
时间段的话,北京时间的下午和晚上用比较好。. ?, |( J& l6 v% I+ s* F
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
8 f& c; a, a6 t( a% |====+ q1 j' b5 ~/ E1 m" N, Y) @
用千问吧,非常稳定,非常强大。* D) v4 A" v2 |
https://chat.qwenlm.ai/
% X5 d; g( Z! ]$ W====
$ K3 I, W  s% n) e# bDeepseek,API 看上去可用了,但是不给充钱。
5 A* k5 z: x+ r$ y1 j
0 M3 L; a5 N* K9 k8 O' f
; N% L. f6 ]/ u+ R; x
6 A1 G- |4 q! n! t- N: L

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 3721 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53) Z4 ~% o% o( S8 k& k5 W$ U$ s4 T
    这功能很赞呀
    2 Q& g. S' s% l) A# X
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13' o# K; ]. a# Q
    有没有上传整本书试试

    ( x2 y8 C7 {' v目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 3721 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 / C$ `) |3 u' e; l+ W7 O

    - l0 K$ V2 P, }  J3 T以后让deepseek 读出土的竹简6 M: K3 h3 k: c& o% l& `9 K8 ^' A9 d

    " p0 Y4 ?1 Q: Y还有把古文翻译成现代白话/ k# D( r* O* q$ z
    ) u7 N+ Y$ w6 ~$ Y2 h9 t' \
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2882 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?, J" I6 n4 u5 N* n' R1 f
    ' J, E+ n8 \6 D
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23, h) x; t/ I+ q# A5 u2 i- \+ P
    请教是如何实现的?
    1 X) u3 ~* M0 s1 o3 b% m; ]' y
    4 A3 [3 [; {% B( U& |6 X我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    4 H5 c) j7 h/ G% J) a
    1 a2 h$ H# f# o+ T4 y5 M4 i7 t5 i
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    $ x# ]) @  s- [' ?( W5 `4 z% X文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    % u" p9 M! F# g: s$ A) ]美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    9 V/ z) u$ ^: v$ B7 x

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:232 j8 N) r; C- n4 l  ~/ G4 S, p1 d
    请教是如何实现的?
    # v( _' c0 z% v4 T# z7 h2 K. w( ^7 b6 D  r
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    & Y8 G2 R: ^  q+ j: C4 x
    https://chat.qwenlm.ai/- Z' k2 Q+ J; M7 s) r, U- `
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    # J" M. s9 F: A( Q很稳定,质量不错,好像最多一次处理15页。
    - ]# t" g1 L' E; |; L# I我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 2994 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    1 \( o) R1 {& \/ F/ D' G$ @) l处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    9 K/ o. a/ K& M8 D, e, e# L/ l这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    ' k' q: {( h: V6 \  z5 Q# @8 T2 h7 j7 C1 ]7 `* m2 o- K
    https://github.com/oomol-lab/pdf-craft7 L% F6 a1 n0 m! P+ T+ X8 ?

    ( F  p9 I; E3 V# H1. 这个工具要求装 python3.10( i8 k& h  ]* {5 u) c4 H7 s
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    8 g8 @1 _( r3 N3. pip install pdf-craft4 Z! e5 b0 I0 w: B6 Y& m
    4. 把下面的内容写到一个文件里,例如 a.py' d1 U% o4 _* J* E5 g; G" Y# V
    $ c; C5 z8 _, f
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      - i- U1 ~3 n, U
    2. ; `- v: I( L0 y9 O% ~6 X
    3. extractor = PDFPageExtractor(
      ; D7 \$ Q, {- d4 M& f- `; H  A; C
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ; N' W/ @5 h- h- A; _2 S& j* i
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed6 F# W+ `. G, y4 Y- f# w/ E
    6. )
      : o" b9 W6 P& L' V4 y! A6 d2 F4 r
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:% v% T2 ?/ z8 @! h) P  `6 A% r
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      ' z/ G0 o. ^9 t2 ?3 B4 p4 H
    9.     md.write(block)
    复制代码
    ( j1 V1 A- T+ K. t! s6 F

    3 p7 y4 n' z0 v$ C9 c; A  }要修改的内容:
    ( I" ?8 w6 Q0 b' e/ h' b4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    " T" ?1 _8 G" R, X% i0 k9 ^4.2 markdown_path:输出的 markdown 路径文件名7 P. M7 P# m3 u9 r( o
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    8 |4 m. y! D+ F) |# |* {% i2 @4 {2 I7 q' G' {& Y7 T$ N' [
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 2 R+ l0 v7 C7 M7 d9 P* C
    0 N1 \- P  A% W; p& K- y4 P6 ^
    目前为止PDF转纯文字的最佳办法。
    % \: B& `+ @0 l- n) G0 R9 G/ x先写个小程序,把PDF按章节切成小的PDF。
    & A# Q% h5 a6 c- W6 O- \- H然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    6 y/ j" g/ b# A$ _0 h9 U效果非常好。, @) t5 t* x/ _* x* h$ t; t
    ; \6 |- B) Q8 X& R( v0 v
    deepseek,qwen,chatgpt 三个,deepseek是最好的。5 d3 f" q' ?9 ?) p$ E
    7 I$ ^# d6 r& `# h) z
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    & I) n2 r. ^/ `) l) J: A而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    + ]6 H: o" e- \. {我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。  T, S% S( R/ Z/ w% b% X7 Z1 @

    , A4 P+ p4 P1 p) sAPI到目前为止,差强人意,不如网页版本修得干净。
    0 H" ^; z7 X! r% {7 s
    0 I/ Q, W4 F) d2 m8 N! K+ ideepseek可以同时开四个。' G3 U5 _+ t6 S

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    - j% N+ p4 e4 ]' ?! ~
    , C3 p6 c  E+ R: B让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    & y/ D) h; o( P( [/ o让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    7 X. i, s" q& Q6 `/ R细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:335 H" X! x# Y* r
    细说一下,听上去很不错,多谢。

    $ S1 A: }. h+ a1 F" U6 l直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 1 o5 L% ~! |- g8 r+ d% s
    ; w, n' }( U/ r& j  t  E
    已经搞定.3 D: l. E8 `6 d/ ~
    - T* c* V; _) R
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。7 C$ P' c+ d8 q1 R

    7 s; o+ H" W9 m) v4 N1, python + pypdf 按章节拆分小的PDF
    4 ]1 ]9 |5 r- j2 }6 @4 c3 f
    1 f3 B3 [$ @% D4 J& E2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    : T% ~- @. @: A! C
    , J) f4 [! W- Y, c得到text file
    5 `8 Y3 A/ h( E1 v2 z! x2 T7 m2 g1 j/ ?, p3 M# s  F: c# ^
    3, python 读取整个outputfile,丢给deepseek 矫正。6 ]4 v* n3 J) f
    + i1 m+ v7 g- I: g4 Y
    模型是 deepseek-chat) A, h0 J8 k/ K; V, \

    ) n0 ?! }+ G( }  q& @8 e% E2 G/ _max_tokens 最大是 8192,别的不用改。) s' {3 _- L: k/ e
    3 x$ r# r' h& P& Q( |8 F* t# D
    参考:
    , t) O1 A' J! B$ f8 Z, Xhttps://api-docs.deepseek.com/api/create-chat-completion
    * K* ~& Y  O7 K6 \2 f$ I# X& H
    - \7 E  B) b" W+ r) [8 L- E2 R9 N4,费用:  ]1 N; ~& P! Z4 G# u

    $ b9 X( x& u6 R/ ^% u/ z( z) L* q6 {实测:
    * a: ]$ J' ]/ b: f/ e, z: R; m8 h4 \$ R6 ^+ q  ]5 u  z
    296K 字母,用了 9 美分。, H% R& a4 q8 F( U5 o& m- T
    8 e% {+ E# A1 O8 n% ^: G# [
    英文字母 到 token 用量大约 1/3' h8 o6 ?8 a! X

    2 b6 R2 R! a" _9 @. I, w) z# xtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    % ?5 Y+ X8 K. X5 S+ s8 P3 r% I& l9 X) c' i9 k4 A: D) k
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    " n( s& W- z" E+ ]( m3 J( q+ L$ J0 h4 y& g8 m
    价钱,非常非常便宜了。) l+ O: x2 I( [

    . L4 T' Z" i5 \# m  O. B: F/ f参考如下可以计算,懒得算了。
    5 C1 f: E( S, f4 _( r
    ; W9 U5 n8 y; L/ Bhttps://api-docs.deepseek.com/quick_start/pricing* o( b. K6 b! j% L3 R

    - a0 P; c2 N9 R9 _1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ! Z0 y# N. i# @' {' m, Y) n1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55( A) ~" m8 C  S& V" \
    1M TOKENS OUTPUT(5)                                              $1.10                $2.190 O' k" Q7 p/ x. m5 Z. H7 \" _; ?
    / H3 L( v1 k! ]: S; `- w# i
    5, Balance# q1 n) T2 c6 w" z

    . H1 M1 ]0 E0 j* U6 y% i; b可以在程序里调用,知道每次运行结束后,balance还剩多少。" f1 m* ]9 r# i" E) t: ]' |
    参考:% L, t. O- a- [7 {" W
    https://api-docs.deepseek.com/api/get-user-balance" g' Z5 D: z. h$ R

    4 s! @# x' R2 F0 _0 }6, Models
    , E) r: u; T1 _
    0 \& |) Y7 f) e& U目前就两个
    5 U) x0 |, \" \4 A( j  P# e# deepseek-chat# C3 |4 Z/ Y1 r7 U1 z
    # deepseek-reasoner# D$ e/ w! p. a+ }+ H! W1 N

    # {7 {/ K- }' a9 u: h参考:
    % L( K, H7 M1 z# bhttps://api-docs.deepseek.com/api/list-models! a1 `. l% t4 W- }5 y

    0 z7 v' Q% ^5 a0 ]% s& E0 J) x  I( T1 q* r2 C5 M) I( `, g+ L) a
    7, 问题
    ! t7 J# U8 G6 n' {& u7 N( R; @+ Z5 y2 ~$ D# K6 b* E3 {
    deepseek 会将前后两段合成一段。
    - m3 v' s, F# o. Y  G' `9 |8 c2 D" _特别是那种大量的对话的段落,deepseek会给你合成一大段。+ I- P' F0 L+ J2 c1 y4 y
    . Y6 |) }% x$ `0 Y
    8, 钱说了算。5 o# U* {% _+ v) Y  J
    + @& }0 o6 Y# `& S1 d. c) y& \
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    2 O( [9 o7 c3 Y1 D- E. y但是API就不会出现这种情况,毕竟我们给钱了。4 W4 `& c9 }9 E' v
    chatgpt也是这样的。& P! R2 P( G2 A0 C% w+ f9 T

    , f& e' ~: f, j5 T5 v' W& W( q$ r' K
    1 r$ W4 M) h- y4 H0 Q

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-3-12 05:11 , Processed in 0.060959 second(s), 17 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表