设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2187|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
0 \: P/ m0 |5 q
" w" j0 J6 j1 N8 t4 k把PDF上传,然后让他抓取文字,并修改可能的错误。
. T1 A( P! E6 H5 c* S. B然后deepseek完美的完成了任务。- `1 e6 `) Y+ i% I" W$ S' m" X  M9 k8 ]
段落清楚,列清楚,页眉页脚全部去掉。
4 `" ?' j5 e3 Y% `8 i我要疯掉了!6 |: T# x& H3 G
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!8 Z3 G* U: J& j3 Y* z3 i/ L# f3 u
====
. D) ~. Y. F7 h# W* E中文也很完美。4 y# V- S! d6 i
经验值,每次十页比较稳定。
6 D: s! ~* R$ s7 Q. x现在我这里API还不能用,等恢复了,全自动了。5 n, X7 ]1 Q. R
====* `. d( n8 k/ b0 S- Z- q
第二次疯掉了!; ]9 N) g7 L- @! E9 i& e
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
* v7 v8 l: a2 |, }====
: O$ F1 w; ]0 `" X7 ]现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
/ ~* a( E& `4 ~; u7 e& ?但是任务多了后,每次翻译的页面数是减少的。6 |# Z2 Y+ r" J$ I0 E
好吧,我五体投地,继续探索。% O8 Y) ^& |0 a5 @: `( C
====8 i, m( I4 s6 u! `' ^% `
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。8 |2 o% Z4 s4 o/ o# b. B8 O
====2 Z/ D( z7 T# R0 k: C) [
好吧,有些东西是不给翻译的,哈哈。9 {, x& v( ]! j- o* X
: N: `; r' G7 S& R1 u
Sorry, that's beyond my current scope. Let’s talk about something else.
! k; f% T( X. ^# W+ M====; E8 l- Y1 t& b/ t# _8 O
然后我的英文命令也让deepseek 帮我修改,呵呵。2 K+ J9 T  F& R; R' _! e9 o  N
====
. }, M9 \' A9 ?8 C" p- y日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。5 |9 N. ~1 c0 H1 E# g
====
8 m5 q4 w$ V1 t时间段的话,北京时间的下午和晚上用比较好。
' x( J: ^$ `. F+ G) j后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
) L" l7 X# o9 R8 s====6 G% P8 C, E5 |
用千问吧,非常稳定,非常强大。
0 J- @/ j! t' \4 r3 p5 S. m2 `; m9 whttps://chat.qwenlm.ai/
: F* ~& O' o( ^5 c7 l& L====
6 m+ P! c$ g* C9 xDeepseek,API 看上去可用了,但是不给充钱。
5 W% |( ?- g' M2 M1 u! [7 N1 G+ V$ }( c; O5 w$ m/ D) v

0 D5 a/ J# v0 |5 G# e! e' n& }4 f4 L

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3597 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    0 k3 l' A* e: n. i3 ?这功能很赞呀
    ( Z+ q/ I; v' U; h# E  F+ |4 y
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13( O1 F9 S- h6 @# V2 k
    有没有上传整本书试试

    0 W( z4 q5 L; g% f. |目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3597 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    * Y. m, |  q7 f9 E3 G! m% a/ {! P+ Q6 P) p( l  \4 @1 W5 n; u! y' k
    以后让deepseek 读出土的竹简
    8 L" }7 o3 a+ O; G0 ^. F& c! }+ t) a+ |) o5 V" y
    还有把古文翻译成现代白话: P( ?2 e2 w8 a9 f0 p
    7 {0 z7 l/ Z) x" l6 [
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    5 小时前
  • 签到天数: 2761 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
      j" I  U- n2 P2 S8 N, ~* q1 M0 ]! \/ a$ s4 D
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:234 \7 s4 v' w# z5 E& e4 Y: `
    请教是如何实现的?- d2 F1 U# U" \% `" v
    , X2 P& k1 H) @8 A: |- |/ t  _
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    6 U5 \$ G; q$ u3 R8 p3 R0 k4 l. `2 t

    4 A) w$ s  |: D* d0 N3 _/ P3 C我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    : _" _0 W# H' a文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    1 S9 Z/ [% h5 i: [: X. W美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    ' ?( }& k+ e4 T$ e/ c5 d& f6 L. E

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    # C! S2 r8 M: h2 b1 a请教是如何实现的?3 l+ c( z7 @0 I+ u. l1 T  s

    , s/ i8 F' ~# O6 ^% F我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    5 Y) w$ w: B: ]  O  j, chttps://chat.qwenlm.ai/( J& I0 e3 `" E' P
    试一下千问,估计美国人没有攻击他,所以资源敞开用。5 l5 p% y* [: v, M1 _3 {
    很稳定,质量不错,好像最多一次处理15页。" x. R) |( ~9 T% N0 e4 q- Z; z
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 2877 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。' o& B4 P% @' ^* r) p: \: Z2 M6 O
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    ; s9 `1 M9 P( t  U/ V* W这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    7 o+ X0 {: v) W2 N! t  `/ h, m+ [3 d8 `
    https://github.com/oomol-lab/pdf-craft! N9 p9 I2 }* m' \
    3 Q0 o/ z0 k) G9 ~
    1. 这个工具要求装 python3.102 ?8 r2 R* C% u- M9 l
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    , _" ?! r9 ?+ v1 B% L3. pip install pdf-craft
    7 O$ D( m7 ]* O2 ?5 y4. 把下面的内容写到一个文件里,例如 a.py/ \8 K# M0 }5 W# w! M2 J
    2 u( V7 m) w" x8 J4 {
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter9 y" x. c! b' ?+ p* q
    2. ) \6 B( P7 h! _: b( H) e
    3. extractor = PDFPageExtractor(' a! g7 C9 p$ v" f; Z
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      - k8 ~& a; K+ M9 _
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      : i6 u% q0 ^3 Q
    6. )
      ! S8 R3 r3 ~% E% L4 q
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      * K* g; V! Q; Y1 A/ e5 G
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      5 M" ?+ Z( X& [, y; `
    9.     md.write(block)
    复制代码

    ( p# a- H. b' {2 Z, L6 h/ x5 ~/ |1 ~; ~
    要修改的内容:
      L, {4 E, ^/ Z% i$ I- z4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型/ ?/ X5 }. M$ b' U8 I' A- V
    4.2 markdown_path:输出的 markdown 路径文件名
    / ?/ M" n. R  {% ?% l4.3 /path/to/pdf/file: 输入的源PDF路径文件名# h4 ?$ o' I) ^( d: ~
    4 G1 s, d( z5 t
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    / D+ V3 b( W8 x" k9 u7 A4 T
    2 W* X& z# ?/ e7 @; O目前为止PDF转纯文字的最佳办法。, m/ F! m9 y! Y' w& Q; y% C
    先写个小程序,把PDF按章节切成小的PDF。/ O: X" E- E, M
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    9 P$ p# Q3 i  Y% |. D效果非常好。
    2 s; D0 R  a  w' L9 d  X$ V) h+ m4 B7 i
    deepseek,qwen,chatgpt 三个,deepseek是最好的。& I4 w1 t; G  x4 K+ L  k1 t& l
    9 n( T7 b; T! r* C
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。% I- Z5 r2 J: @/ L; {* z% t
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。# |$ V  H% Q1 F
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ( N' c+ \7 Q) [: L
    8 M. U1 r. H+ T( n+ l" Y/ aAPI到目前为止,差强人意,不如网页版本修得干净。
    8 w2 H* F/ t' z5 Y( Q1 r/ n3 J# [( z3 t9 g9 ^
    deepseek可以同时开四个。
    ; U0 S7 [1 ]0 ~3 t* k8 P- p" i

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    1 k. |5 y  B1 V. w' M2 Q. P$ A# E2 \. B2 t0 b" V
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26  R/ R7 W  x7 I+ l, g3 n8 n9 G
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    ( K# ]" y/ I- G1 z3 V& S
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:339 t6 i: `! {& y$ t9 e: ]
    细说一下,听上去很不错,多谢。
    2 `" {$ L! }0 K/ m. V
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 / f9 d5 s7 c3 a- D7 w5 S) k4 `0 T
    ' N* e4 H; ^9 P& B
    已经搞定.1 C  w* }1 I2 o4 M2 t

    . I2 L: |* Y4 U- {5 z  R: B首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    % V& G* e; O0 v7 Q' |) f: ~& B% c: p
    1, python + pypdf 按章节拆分小的PDF  b8 b5 q* {3 o8 R  O

    / H% w/ N9 j# D& O5 L2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    + q: f9 h" L) Y9 A' h2 G# P& G; V
    得到text file0 ?! b7 h( Q: D7 \3 g' n0 M

    : {0 O. M- A+ G0 N1 p" C" t3, python 读取整个outputfile,丢给deepseek 矫正。% Z' S. j; Z5 Y1 A) I8 G$ B% L1 A
    ; r8 C- V  I. S" G
    模型是 deepseek-chat
    5 @" O1 u' H7 l5 D' D! b  Y  m+ S$ b6 n
    max_tokens 最大是 8192,别的不用改。- {/ S  C  B& }* f+ \
    ' V. x' l/ m2 Q/ C: q: x
    参考:. u$ Y. y* M# ]. g6 M3 c
    https://api-docs.deepseek.com/api/create-chat-completion' Q# K  z# A5 g

    6 P3 g" K) J3 g0 i* L4,费用:
    4 {% `- @" T- @7 }
    + d8 F6 C" c4 @  P! H实测:8 i9 d  T* B" L7 V1 f: ~

    . y: E5 j0 V" D8 V4 d! |296K 字母,用了 9 美分。  L' w  v8 P8 v! I8 N  G( h

    . Z# E) \8 L/ ?3 G/ V+ E  b0 \英文字母 到 token 用量大约 1/35 U$ x) b2 Z' o' ?8 K) W( D" S* W1 `
    0 }- a4 \5 H( ~% P" p) i
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328998 I6 i/ X2 A6 e  Q( s6 e/ o4 T" `

    6 ?' X; k. G" b% N: r( l32899 个字母花费 11782 tokens,包含输入输出的 tokens
    $ Q- d' z6 y. r3 |+ J1 S5 j, n
    $ G: a3 C& }, B; A1 m, u价钱,非常非常便宜了。
    / u& L) }" T- e& {2 B2 A
    " Q4 C; l% L1 Q8 H$ c+ D% b0 Y参考如下可以计算,懒得算了。
    2 F! d/ j* G  x5 J3 _- f+ @8 h( x# E% x8 B
    https://api-docs.deepseek.com/quick_start/pricing
    4 p- D' ^6 {: d
    7 S' I) V  l0 n! _6 |1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    : n, K/ q: p% `8 T9 @1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    1 {. j7 ?4 I6 X. Z2 A0 b1M TOKENS OUTPUT(5)                                              $1.10                $2.197 a- Q7 V. y; @" e  F  Y# W
    # f0 G2 k7 p1 k
    5, Balance
    + Y1 Q% \- x$ X" d* ^
    $ O0 s1 |9 y0 w0 ^可以在程序里调用,知道每次运行结束后,balance还剩多少。- k$ A- ^: O" A. g$ J* Z
    参考:
    / r( G) p7 d9 K$ mhttps://api-docs.deepseek.com/api/get-user-balance4 ^% P9 U: a  N3 i7 n- e+ R
    3 k* A0 r. E& ?) U! b1 k* \
    6, Models. y, y- I; K6 L1 U- t' P

    & s! W5 P* H; c, D8 G, f目前就两个6 _6 h: K1 J4 X* T1 r* T+ k
    # deepseek-chat  N" r: x" T. o' H
    # deepseek-reasoner
    " B3 x! G# X1 v5 F7 p5 R9 ~; O/ w9 h
    参考:, a6 y+ A3 H6 ]/ I- m/ d
    https://api-docs.deepseek.com/api/list-models
    ; Z6 J6 t1 _' f
    % T2 ^2 B& _5 u$ n  R# f
    ! F. c6 g5 T( i! V7, 问题
    + \* |2 M. ?+ \) y$ E& I* ~* B  [5 M9 l
    deepseek 会将前后两段合成一段。+ |% S, V6 w$ J) q, K1 d# F
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    9 P" u6 {# C7 D, Q5 E* T. T+ u' B
    9 s. E6 S1 m! d8, 钱说了算。
    ; t4 a  {3 o! B9 z6 \+ e- l* D
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( Y, V% R. E' `1 b, |7 P
    但是API就不会出现这种情况,毕竟我们给钱了。. b4 y6 P+ l1 |7 t
    chatgpt也是这样的。' o5 f" j+ X2 Y

    1 v. V0 `5 t: X1 k
    7 s" L! ~) }- m3 B

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-6 05:42 , Processed in 0.049431 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表