设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2131|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 ' o" s4 I$ \* G; L

1 }4 f3 j) k6 `4 f% c+ M把PDF上传,然后让他抓取文字,并修改可能的错误。
. T1 Q1 ?! R8 E, Y' a: |然后deepseek完美的完成了任务。
3 e8 l' }4 J  Z6 n8 R段落清楚,列清楚,页眉页脚全部去掉。
  m: G% ~9 D# M$ h9 f我要疯掉了!& C4 ~% c2 Q( r7 V1 C8 T  i/ b
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!3 |9 k: p( n, \) y
====8 V+ q' ?: [" o- F
中文也很完美。
) x" Y; ^3 ^0 k$ C经验值,每次十页比较稳定。! W% c* h' _4 y7 R7 w7 E8 I7 s
现在我这里API还不能用,等恢复了,全自动了。
$ P7 y9 Q# o7 {( s0 C====9 a6 H/ }! t# |& }! P
第二次疯掉了!
! p5 e2 J( l8 d# {我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
8 s, g3 f8 C5 C  O: n====
3 h4 A  E/ N( F+ P2 b6 k现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
$ X1 g8 c/ \3 Z- @( e, T  O但是任务多了后,每次翻译的页面数是减少的。6 J  ~$ w$ b. _
好吧,我五体投地,继续探索。. H( k% u+ U7 u9 \; @
====
! G' Y# z8 }! @9 Q, t9 J1 q* ]为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
$ j, k, J  ^3 [( [6 O" j+ g5 x$ H====
$ D# W7 A# `6 V1 F' w1 j9 \好吧,有些东西是不给翻译的,哈哈。6 ?# L, Y( A- y  B5 {8 o/ O$ H
8 E' j) X: ?6 C" [1 ?2 G
Sorry, that's beyond my current scope. Let’s talk about something else.# [- \# M% B6 o0 ^
====
$ f( i) I# Y+ m" M  p( n0 Q然后我的英文命令也让deepseek 帮我修改,呵呵。9 x9 [) a2 ]  K) _+ V
====3 Z; X$ {- H$ s6 T& _
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。: {% T/ \" i. V0 Z# j
====
7 K$ {8 \6 m5 P- B$ w. I时间段的话,北京时间的下午和晚上用比较好。
# S! d$ G; [# a后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
: N- A# b8 f3 W2 @====
! K- x- @$ H' Q9 h0 |3 I& i用千问吧,非常稳定,非常强大。
+ t0 G5 }1 c" u& h0 G4 e* Q/ j: ahttps://chat.qwenlm.ai/
: X/ Y1 _% ?, o+ l% m& K====- c$ G0 W( C, w( N- X/ Q
Deepseek,API 看上去可用了,但是不给充钱。
& q) p) F: c% C3 ^
4 D0 c5 ^: ]! ~% F4 a& [  A
( [# U4 N8 v1 Z) i
  Z4 m4 V: l9 [2 l& j# o6 h

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    2025-10-6 22:20
  • 签到天数: 3580 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    7 `' @  w1 c# @& E( `, p这功能很赞呀
    2 w, P6 F: w# u" b/ A
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13. E- d' {1 _8 h8 j- @$ g
    有没有上传整本书试试
    ; ]9 F  Y- w6 _9 ~& W& a  ?
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2025-10-6 22:20
  • 签到天数: 3580 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    2 c$ m; ?/ i& p: g. S+ X  u) S  g* r8 x6 o/ H& N$ t3 N+ s3 L- ?
    以后让deepseek 读出土的竹简
    ' h9 R' o2 G$ W3 {0 t4 }& H8 A" \2 D0 e! {3 t( ~6 J) _$ S2 ]
    还有把古文翻译成现代白话4 x9 y8 q0 J$ f" V" |7 M

    5 I3 V  L4 g+ l0 M以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 01:20
  • 签到天数: 2749 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    + W: G$ X6 m  |2 @% S
    4 X2 Q' N" B$ s& f. l# j7 n6 @) Y我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23, z8 m  @3 V( ?# O, r& ^  V
    请教是如何实现的?
    2 }; u9 @2 n+ h$ g
    ; j7 l% v% ?+ H我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ( z3 {) K  q5 P+ A2 w  R

    4 G" Z  a2 H+ I' l- A我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ; Z8 S: ?+ _9 h, e文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    + R, K8 \3 I# k: R2 Q: L美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    ! Z' E3 x; f% ]  V# z

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    $ J: B, ?' ?, v8 _' X请教是如何实现的?
    7 Z0 N/ a$ m! X: T$ A+ l! f
      ^5 @0 h4 w7 z6 P我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    8 o1 d) s( _% B6 T# W
    https://chat.qwenlm.ai/$ D7 T. q# l5 i8 P+ Q0 @
    试一下千问,估计美国人没有攻击他,所以资源敞开用。6 m0 ^# r9 _0 B5 L
    很稳定,质量不错,好像最多一次处理15页。
    1 ~, O% y0 V" d! q" \" _我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2025-9-20 01:30
  • 签到天数: 2861 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ; \7 h9 i$ Z; x# E1 b6 ^处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    , _$ [  T6 W% @这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。8 j  L3 `1 E7 Q4 a; j

    5 q0 f3 O- T: l& ?8 K; |https://github.com/oomol-lab/pdf-craft! _, u$ q, F: B, a& ~( A

      }% ^1 I1 L( N4 x1. 这个工具要求装 python3.105 h9 `7 V; x3 E' t2 `- @( A
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.06 z. g1 y2 L, X. H+ ]* b
    3. pip install pdf-craft/ @9 x3 U( }$ V3 X3 g
    4. 把下面的内容写到一个文件里,例如 a.py' u# m  q( b6 V# W1 r( G' p
    2 I; M: f8 L* w- v% x
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      ' e6 V  o$ J  x1 q& Z+ F

    2. 4 c' Z6 d/ q. {) [7 `& o# k8 d
    3. extractor = PDFPageExtractor(  R0 X$ H' t5 p" q% w
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.6 V) I7 l1 E" \  D9 Z
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed1 O: f% n3 i2 s1 {) x1 F9 E9 R' p
    6. )- @" o4 {0 s9 A: A5 {
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:% C1 N6 Z( L) r: p' \# r
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
        O# H9 |2 e0 P
    9.     md.write(block)
    复制代码
    $ u% j3 l& e4 |* M/ J: p; {

    2 h! F. A8 v/ t, r! p( g要修改的内容:: A. E  z$ M% r8 C  h& X' `
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    " t8 M0 k) F1 l$ y( ?; l; @6 E4.2 markdown_path:输出的 markdown 路径文件名, P/ m7 b7 M5 a$ T  g; a
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名% p% n; L, m$ I# z! L0 G( h# o
    # h' t' w  N0 R; b- l. u* |
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    5 n+ K3 k- J9 [$ }6 @- \1 Q! R$ a# \% x/ I( o
    目前为止PDF转纯文字的最佳办法。  X0 f) `3 h- W5 B. _
    先写个小程序,把PDF按章节切成小的PDF。
    , E) @: u* `9 b. V/ G- Y+ H然后,把PDF一个个传到deepseek,让她抓取,除错,输出。8 B+ I, K" e/ z" _7 T5 }5 A) r6 U
    效果非常好。4 _  J9 I) _2 X3 H$ [* u* B* Z& Q
    2 ~, X  f, T6 m: m2 x
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    ( y* Y+ X0 l$ A, Z( K
    , v9 L( C; o1 A4 @1 Mdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    8 X$ [9 w, [: d1 g$ _; i- h  f& U而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。& w' z  I5 P; w6 C  a7 W! ?" t( b/ h5 [
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
      l0 @/ l# F5 R  y" c# Y2 g. U4 Q% s" C& Y" X$ y3 l4 c0 p
    API到目前为止,差强人意,不如网页版本修得干净。: i( A1 J$ G  r& X7 G

    , C4 k( y7 H( H- K: t; cdeepseek可以同时开四个。
    ; W6 x# q2 {. v5 b

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    8 V( J7 Q7 u6 b7 L/ `% x7 |
    : H# O2 e8 j3 u( N" `) P让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26' U: U2 w" @& [$ Z8 R; ~
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    4 V" w! t" m7 y% n% Z
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    ( o* W. C5 \6 {- }) O细说一下,听上去很不错,多谢。
    ' d; T: m8 W" R0 ~0 I3 P
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 7 B) ~( V7 e% y4 q

    : T5 M  {' M1 [' F已经搞定.$ d6 \9 r2 R3 l; L, s& C3 E9 z

    ) X  E2 n/ F0 P9 I, i首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- q% S, s/ Q% Z+ h

    . O+ X9 `' x2 d% T9 R1, python + pypdf 按章节拆分小的PDF) _' \( v# z, u4 d
    $ W2 g7 f9 g' M- C
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile1 r1 N; R+ N9 \
    ' v" \) T3 f& H& W; z
    得到text file' l& M7 m( t! H, c
    9 E9 d, I5 s) f# e+ o5 e
    3, python 读取整个outputfile,丢给deepseek 矫正。
    $ n4 _' b6 h% f6 B
    7 t1 R( }  P' R- N模型是 deepseek-chat: d" u( C; V" t1 V- |

    4 E2 U- O7 r, j; d$ k/ H8 ]8 gmax_tokens 最大是 8192,别的不用改。
    $ b* P' r% @5 k* a& J8 U0 G- Q: h+ d
    , v( e% T- B( X, `4 n) \0 e: m, P参考:
    1 k2 t$ ^6 \5 Y- G) X* l1 @3 \% ghttps://api-docs.deepseek.com/api/create-chat-completion
    ; X# }9 g+ D- Y$ }; ]+ v* D* R- y
    6 w. g; l+ k7 p* S5 k4,费用:8 O0 H4 `8 C8 Q, B
    : {8 C- r2 D: O* z0 P: `
    实测:
    - L& q. r1 d# S/ p! q* F
    8 M' p' H3 C. Y$ V. ~8 H296K 字母,用了 9 美分。. |; p: i% i3 ~+ P

    . T7 X7 j; _' S- h- c1 S! V英文字母 到 token 用量大约 1/3
    + P6 d1 }) }* ^' R* M& ]/ V5 z, B* B+ @  W. M( \% N1 {
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    # I3 v) ^6 ]/ I% I( r5 m9 r% C) k4 S5 h8 E9 m1 l! j* ?
    32899 个字母花费 11782 tokens,包含输入输出的 tokens) a8 [. I( Z- p% [

    2 O9 ?8 g- Q* O( x4 n价钱,非常非常便宜了。
    1 C) y7 M6 a1 {! {- {  l1 Y! a, `$ M' P- V! R  X2 @( M
    参考如下可以计算,懒得算了。
    " b  k+ @. N0 U, \" R- W3 l3 V; C+ I$ y7 V
    https://api-docs.deepseek.com/quick_start/pricing
    1 f7 B. }+ i  h0 }2 q
    ; e' n3 c4 S3 ]2 M& m. R1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    . o9 r7 |3 G' h3 S' f% B3 o4 u# r/ H1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.558 |  y/ e9 S* T0 @( d3 @  U
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19: d, v/ Z9 |; H/ @% G" I8 m

      B) J6 O& S/ R6 ?9 v  o. E3 s5, Balance
      v, C* k, ?3 I" I
    1 T' E& _0 [  x可以在程序里调用,知道每次运行结束后,balance还剩多少。
    , s4 @- g! w* I1 u1 h参考:! _3 Y2 ?2 D$ J" _* z6 a
    https://api-docs.deepseek.com/api/get-user-balance
    4 u* @0 l$ j2 g0 _6 s# P7 e) B! L' f3 f  T5 m
    6, Models8 d! G. b; l: D3 L% O8 R% C4 M
    ' Y/ ~( P. b/ p
    目前就两个8 c! r7 {. q* d8 L
    # deepseek-chat
    ! C4 P& n  |6 j# deepseek-reasoner, Q& ?" q6 T! ^! H6 S8 }$ ^9 t' c

    ' K; \; V) |( J% g参考:1 ~: J5 n( q' u% Y8 S
    https://api-docs.deepseek.com/api/list-models4 p+ a8 P/ t  ]9 @5 s/ s( M

    9 y* }$ r2 s! K0 c7 p% @! j$ p' _5 U: A, s+ A, r/ o2 L% A+ G& b# M( ]
    7, 问题
    & s0 q- }- }# W' i* l) g
    , Y5 \" N  F8 i) f$ zdeepseek 会将前后两段合成一段。
    # z4 Q1 {& f/ x; w! t0 s特别是那种大量的对话的段落,deepseek会给你合成一大段。
    ! O/ w" w; v, z
      |7 W' }2 }# j  j+ `5 l; z8, 钱说了算。
    / ?# L: g3 N3 t) u' m* {- T4 _/ J, h5 |: ?1 o
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    : G- v5 [; s" Q4 L5 V  E但是API就不会出现这种情况,毕竟我们给钱了。5 z* |, s& ~& [# ]! r4 i/ _  Z' _$ O
    chatgpt也是这样的。! J) U& U. f" W+ V+ L, q

    - [0 U2 b* d8 Z* p0 r+ _6 i* }' @6 N

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-10-20 02:14 , Processed in 0.035833 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表