设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3170|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 / K; L- T7 D' n7 o# p  c/ l6 I/ |  d
; ]' `8 ^* O, Q4 I$ y5 O
把PDF上传,然后让他抓取文字,并修改可能的错误。
1 h+ R9 |4 q$ q  m然后deepseek完美的完成了任务。) S0 E5 R0 W9 G: k
段落清楚,列清楚,页眉页脚全部去掉。
# c; _- Q! r3 S1 {4 J0 M( f& R) M我要疯掉了!
1 x0 k7 u3 f2 W" [9 j0 _( z% G赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!6 v) s+ p. Z8 f! d
====7 i. Q. p" M4 o; B7 E
中文也很完美。
* a9 x( c" H5 J& c经验值,每次十页比较稳定。
1 G" R0 }& g$ L$ O2 \现在我这里API还不能用,等恢复了,全自动了。1 b- E. C7 @7 j7 s
====
  D* ~; f4 _8 h9 v第二次疯掉了!9 p3 Q8 }$ _" X. l
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。6 m* D( u  u0 d( g' \/ n
====; `7 g" Z" t; a, X6 |5 J. F
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
6 o& p0 S3 H8 `  @6 c/ _但是任务多了后,每次翻译的页面数是减少的。
+ z, w! S: [& h! s& P6 X& U. d好吧,我五体投地,继续探索。
5 K4 X, W2 S' x0 V( b' q7 D4 f====5 `; B, D- N* V  B, v" u4 X
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。0 ^  o) E; q* a( a
====
4 t8 v$ {- a/ t2 ^; f: I" T好吧,有些东西是不给翻译的,哈哈。
2 ?! B/ M* z$ ]0 B) u
6 ]# e1 r; U8 e: d0 ~5 PSorry, that's beyond my current scope. Let’s talk about something else.
4 j6 L0 g  L+ H- ~. `! b" G. q====
' x  f( T4 _+ s0 T5 K6 z! _然后我的英文命令也让deepseek 帮我修改,呵呵。4 \. h& w& W2 p+ P9 J4 Z9 q
====/ c  L& j  Z/ H: a* R
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
: Q1 }* w' O0 \# q====
6 h8 f1 u4 j6 h/ s1 m时间段的话,北京时间的下午和晚上用比较好。9 r+ F2 I, {5 J; x/ z9 l7 Q# f
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。3 z1 `7 X) Z4 ]' R
====
  Y: h5 k! B; |. S用千问吧,非常稳定,非常强大。
( g! I, d3 ~7 ihttps://chat.qwenlm.ai/) l5 H! O. ^/ o4 ~
====
& S: R5 _7 Z& ^+ M& BDeepseek,API 看上去可用了,但是不给充钱。6 G) }& l- w  l. c

3 q. ^. p7 G  D) K" k
; c; N# i) P% Q4 ?' ~# \! }$ p; ?% M5 R% C

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3811 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ' S; @/ j+ Y9 l8 `: G; y% w8 E( ?这功能很赞呀
    " N7 B) }- ?4 Y9 v, L; \( Z
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    9 K( q; G5 s2 q- [) O有没有上传整本书试试
    " x* W; K8 U. H7 ?: [9 \
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3811 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 * w9 g$ Z' O9 k$ _; h+ N

    8 k% A" j/ Q# s6 M% o  K以后让deepseek 读出土的竹简
    - ~# q5 j6 g& Y- R, a% E5 |* Z& K
    $ Z$ B% A' P* s  M) u# w还有把古文翻译成现代白话$ g" V! T, ?) u, O1 E

    . S/ E5 }& h/ A& R3 m以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2971 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?6 l0 P% ]. |* N: S% D5 Q
    . N2 j+ {0 n" l* n4 `  D: w
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23, v: @. I+ H- c' P  |" e
    请教是如何实现的?
    4 ]+ e6 J4 o8 G! G: z  O+ T8 U/ P9 v8 ^8 C0 d. K, L
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    / _# H" F+ v) V
    , e( [9 h5 W( ]: V+ l
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    8 X0 y+ Y8 n4 C0 |4 W( ^9 p- z文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    9 m# T$ ?! K3 n% d8 y$ e美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    4 b( ?$ H6 Z2 A% M

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:239 s. D% H  s1 ~4 f! y, l
    请教是如何实现的?1 T4 R. Z1 S  ]% o# z
    ' a5 q3 {2 i1 P4 y! S! E9 l
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    0 }# f9 G9 T% y! C/ E  Zhttps://chat.qwenlm.ai/4 f) o( m5 N3 Z; c' E
    试一下千问,估计美国人没有攻击他,所以资源敞开用。& i/ A; F1 c& }; \5 j: G9 }
    很稳定,质量不错,好像最多一次处理15页。
    $ y- O4 l) W1 t9 J1 _% U我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3080 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ! V+ C+ y! m- {$ d处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。5 g3 `1 G% _, Q2 l* b1 W9 |
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    ( U+ Q9 }# Y. y% X* G1 U1 [/ O4 l0 n8 p5 o' }& t
    https://github.com/oomol-lab/pdf-craft( s' Y: L  R' @0 j# r% E- L

    ) f6 b/ H  v6 O' h4 k; |1. 这个工具要求装 python3.10
    4 [: q% |9 c/ P; X2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0& |3 n' Y) i8 V7 q( u8 r
    3. pip install pdf-craft. ~: A: `8 a$ M7 }* V0 O. G9 ?( }
    4. 把下面的内容写到一个文件里,例如 a.py
    , K9 z( N* d9 L( ^: I9 w+ z( e
    , h) B+ H+ I  [$ W" G6 Y
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter) P2 X: [* o$ j0 j
    2. ; s2 f  W7 F. m; p1 {
    3. extractor = PDFPageExtractor(
      ' L. m' t! Y& U3 l
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.7 }* T+ h8 ]! q/ H! K
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed  M9 B/ V1 r' ^
    6. )9 B* @3 ]" _$ j5 ?! Y0 G
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      # g: M$ V, {' _% I# y8 j# {
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):% o: D, y* W6 D. U; {. I/ ^1 m
    9.     md.write(block)
    复制代码

    ' M. S  f: m" _) ]3 i
    - J, |" `# q5 S$ c. W要修改的内容:
    + ~5 p% k+ L$ E3 `2 u1 Y) f4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    ) ?3 \7 [5 [% c4.2 markdown_path:输出的 markdown 路径文件名
    : j4 B+ P4 x+ ~$ u7 u% j4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ) D# Z7 N! N, A1 r/ M+ l  H
    4 b* C. g7 [3 q" n% R- V5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    # A+ Z8 z, w6 b; v1 I' b6 D. K
    * d! ~& l. O- n3 H7 `目前为止PDF转纯文字的最佳办法。
    0 F% P% n, R% `) |4 b先写个小程序,把PDF按章节切成小的PDF。
    7 Y. ^1 y5 D" p9 [' t- ?然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    ) q" D, t1 `# }' ?. `' T5 N效果非常好。5 f$ v. Z' o/ L; o! _0 Y; y

    ! {) A$ E/ j( Y4 t6 w8 h* ~deepseek,qwen,chatgpt 三个,deepseek是最好的。
    % Z6 L5 ^: l) o- Z1 \/ A% u+ r$ T8 X  H  n
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。. i; `" z  a0 z4 E
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    2 _7 L6 V, z! _; z5 g7 s我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。# h* X5 x4 ]# s( v" v7 \

    ) ]5 F- N  n' J! D6 E& B$ ~API到目前为止,差强人意,不如网页版本修得干净。
    ; B4 P3 H8 h! ~; h& X5 F2 P* H. c  t3 G) P4 j$ z' @( H
    deepseek可以同时开四个。
    ) u  @9 s" O% B% P, ]

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
      `7 m. E, t) ?9 j8 R0 c+ |  u1 k8 A  ^% m; v- I0 g: x* [7 ^2 s
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
      `( Y8 L1 k" o# ^  A" S% q8 }% `! f# ?让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    6 M8 a3 N+ u" v
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:333 E+ F" O! y6 E1 F3 ]
    细说一下,听上去很不错,多谢。

    ' E  H; k% ~; n直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 1 d3 L( x* i! x6 |* n! X6 _. d
    8 [# R1 \0 v* k* e" V
    已经搞定.
    ) |! c# d0 c2 @' ?/ v# H9 I. `, ~6 g  A
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。! D# ^8 X$ K  g  r" @, ~7 m5 s5 Y

    3 q, }9 T" T  O6 }9 V1, python + pypdf 按章节拆分小的PDF9 Q' o1 r, v7 k1 t4 f  |7 s
    ) H% e  g+ r4 l; S" D- k, T
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile( g3 k% \1 L+ W4 m

    : H( A. Y9 N0 Y5 \. ]得到text file* J# z+ S$ w) q

      s. L' R9 h. a, ^1 N+ w3, python 读取整个outputfile,丢给deepseek 矫正。
    7 G& z# P7 a) ]
      e# T1 b- W5 g' W2 Z模型是 deepseek-chat& j" a" v2 f( k6 R4 B

    8 n* t0 |; j. x- R0 B5 Nmax_tokens 最大是 8192,别的不用改。. D, X) y( h4 m; M' H; _' U
    4 T0 b9 @, b3 ^& H1 i6 C
    参考:% q: W  a. }- o: G( a$ {! v
    https://api-docs.deepseek.com/api/create-chat-completion
    2 t: [6 Y/ O& F5 N6 L; B; J& p( P- ^+ N  l7 n
    4,费用:
    . D  G) f! F) y8 t5 H. ~- l0 V1 A; i) U8 e( ~- u  v$ \' z% ^/ D
    实测:
    1 p0 \: ~. H5 ^& @9 @$ ~5 g
    " u# G; r0 {- o( }% @296K 字母,用了 9 美分。
    $ _; ^# Z2 r: v: ]1 P$ k' c% b  I2 c( L) A: x, E
    英文字母 到 token 用量大约 1/3
    & c: X/ `  i* `
    - ?# |) h& C1 ]7 t+ z7 Ctokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    : h5 s4 L3 E2 {% [* o: l: C% E6 O& y! K
    32899 个字母花费 11782 tokens,包含输入输出的 tokens& u# A4 J6 i, ?& u# S  i

    * P/ X8 F* |# H! p价钱,非常非常便宜了。
    1 |/ E5 y! F  q( Z
    # P! e2 [( `( O- S) f" w* m4 g% H7 ]参考如下可以计算,懒得算了。
    : `9 D/ O! j/ O) [! i( {$ h1 R8 @
    3 I/ i$ i, C. s+ d" d; B( Vhttps://api-docs.deepseek.com/quick_start/pricing
    5 I0 M5 g( k9 u5 J, j% Z, y8 w. Q8 h
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14( j5 T# u" M* b9 U: V  {& W
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    - D# r# K$ c* C6 N9 s: j. r1M TOKENS OUTPUT(5)                                              $1.10                $2.19, C  l" `1 |5 Y* ]/ Q' C
    " ~0 w" A1 {: O' f6 ]) e
    5, Balance3 V1 M3 y; q  y$ k

    ; e% s+ [9 B, J4 u5 p/ U3 V可以在程序里调用,知道每次运行结束后,balance还剩多少。$ o8 H7 M/ j" A7 b
    参考:( h: G7 g* w) t) C* v' F/ Y( u
    https://api-docs.deepseek.com/api/get-user-balance
    ! V1 F( o! ]/ u4 ^1 ]: Z. d3 a7 X3 {5 E
    6, Models7 f# F4 e. f% ^$ @2 A% k6 T
    3 S: |; w% l, B$ B8 e
    目前就两个
    $ M& j7 a3 n& s! m1 M' [0 Y% z# deepseek-chat4 F3 R) ^3 D/ W
    # deepseek-reasoner5 G0 }' H3 Q; R# q
    + G% K. {/ I' P; n1 H! G/ y/ L
    参考:: {2 a* Q% w5 h2 ]4 p( F
    https://api-docs.deepseek.com/api/list-models
    1 f; G/ B5 c" K" {0 ]: t' C- L- B3 C. m- I, N
    3 e% H, R3 t) [! H0 ^8 m
    7, 问题: e, d! _8 E6 h; J: i5 l
    ! f+ o3 q3 E6 |' ^
    deepseek 会将前后两段合成一段。, r- W+ N) I7 n. y
    特别是那种大量的对话的段落,deepseek会给你合成一大段。- O- z9 @% m  {; f
    2 S  F) {  R1 U6 o+ v* `6 i
    8, 钱说了算。
    % ]: R  d3 S$ n: j8 F/ v" P2 _' G+ W) D! J7 c# X4 L
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    4 L: w9 C& Y8 V但是API就不会出现这种情况,毕竟我们给钱了。
    2 x" ?/ \3 L$ ?, C% f1 Xchatgpt也是这样的。
    ' C1 p: g5 f1 o# F4 }1 @9 `0 v  W* y7 Z4 A2 S1 j

    ( o4 m0 b: R; m) i7 `0 m

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-10 18:48 , Processed in 0.062463 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表