爱吱声

标题: 利用 Deepseek 抓取PDF的文字并矫正。 [打印本页]

作者: nanimarcus    时间: 2025-2-2 03:35
标题: 利用 Deepseek 抓取PDF的文字并矫正。
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
/ H  @% s$ j; U0 @( M* R
+ f( ~' }( S4 B8 j6 w$ Z9 T. w1 z! S把PDF上传,然后让他抓取文字,并修改可能的错误。
  ^* V7 h) m+ d0 q, c8 e然后deepseek完美的完成了任务。2 x4 P; r8 x6 c4 Q
段落清楚,列清楚,页眉页脚全部去掉。& f7 a' M- c! [, ~
我要疯掉了!
- u# A* e+ L5 @4 ]& z# i赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!8 g5 i0 h: ?2 z1 k/ f
====' f6 ^' P) u- I/ q
中文也很完美。
+ S7 i0 l2 F/ a* R4 R+ c- |经验值,每次十页比较稳定。% P! |3 N$ d& ?
现在我这里API还不能用,等恢复了,全自动了。- u( S8 r) g. g( |
====
  j/ Y) r3 `1 S& u4 T# L第二次疯掉了!
% |; o7 u! F/ S- N1 H我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
* V$ J" j6 b1 Y/ @0 F' O====) R( m! w) @0 ]% G- q! T- j# r! H$ J
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
( d) Q5 P9 ~# P# s  b但是任务多了后,每次翻译的页面数是减少的。3 L; p. q3 ]# _; `0 {4 d
好吧,我五体投地,继续探索。5 s$ Q0 s; W6 E3 _; Y; e
====8 u. E7 d) T4 S
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
- }4 z: N$ c6 v) N  C====7 X8 e; x& M" |( W6 H
好吧,有些东西是不给翻译的,哈哈。: [) N' M: s- Z- }/ }
' n- _! s2 Y/ ]+ i- T
Sorry, that's beyond my current scope. Let’s talk about something else.
6 S  C$ i  }; W/ O====# K, ]2 m" k- ?2 q# g
然后我的英文命令也让deepseek 帮我修改,呵呵。
( m0 @+ G* d: |, _====$ e7 z% T' Q8 i1 [
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
- [( q1 Q# k# Z1 O====" N3 }# N$ w' A
时间段的话,北京时间的下午和晚上用比较好。
8 @7 l) o2 ^: L, H! Y0 w& ]4 {, `6 l后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
' z. m' O( n2 |' b! F0 d7 {0 e  Q+ d====+ Y$ @9 \3 k+ g* d  C, b
用千问吧,非常稳定,非常强大。
( C( m7 }2 J3 S0 uhttps://chat.qwenlm.ai/1 X: l' j0 ~" n. i+ b0 G
====( z- T5 `, y/ ~4 ~5 G' c
Deepseek,API 看上去可用了,但是不给充钱。
6 L# a+ [) V- v3 }% l, Y  ?& p: @5 g0 A- q* r

5 S, B) v: D+ B+ L' y3 ?" o# z9 S- b5 h, {2 @

作者: 马鹿    时间: 2025-2-2 03:53
这功能很赞呀
作者: nanimarcus    时间: 2025-2-2 03:56
马鹿 发表于 2025-2-2 03:53
( I. t0 U. w8 E) F, p" v" I1 g这功能很赞呀

/ k( l# p. C1 W) l6 P' f3 i  r简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。
作者: indy    时间: 2025-2-2 04:13
有没有上传整本书试试
作者: nanimarcus    时间: 2025-2-2 04:27
indy 发表于 2025-2-2 04:13
' Y, B# z: l" J有没有上传整本书试试
$ D$ ?+ L% c( P
目前看来,差不多十页左右就停止了,看看还有什么诀窍不。
作者: 马鹿    时间: 2025-2-2 04:41
本帖最后由 马鹿 于 2025-2-1 15:43 编辑
' [+ O# _$ V5 \$ U; S% s7 f) y! h5 K, K4 M$ s3 w
以后让deepseek 读出土的竹简( \; [# X" F$ p1 F# `6 F& I

; X' J: X, c& u; i还有把古文翻译成现代白话
7 c1 }. Q" {4 h6 v6 \8 W( }3 S3 F3 ~7 H: ]# F+ q$ ]
以后不认识的字不查字典了, 直接问deepseek
作者: 方恨少    时间: 2025-2-3 01:23
请教是如何实现的?
1 K3 H( w- W- q5 ]6 U
6 a) p& y! q7 P5 G! w我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
作者: nanimarcus    时间: 2025-2-3 03:06
方恨少 发表于 2025-2-3 01:233 [' l0 J2 U& n2 @+ t/ X
请教是如何实现的?8 z" p  n$ y4 {. C/ B2 |( R2 {
" a1 G& ^" ?- M$ @  H; L4 e! H, f1 ?0 v
我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

" ^- p# F' N( S! A. Y8 L# l( d& X3 L, H9 u5 o# ^3 s2 ?
我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。+ K% H' C7 z+ G% r" Q" u9 T. z
文字之类的没问题。估计deepseek现在暂时只保证主要功能。
2 b* u+ p9 @* S- f6 c% X' r美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。$ }' e' D' ~, Z2 f9 v0 j/ r4 U2 J6 p

作者: nanimarcus    时间: 2025-2-5 00:15
方恨少 发表于 2025-2-3 01:231 L5 ~  k# s1 o, J3 W
请教是如何实现的?' n0 `1 o- [- f+ _2 b" {- C* `& C

% O) M1 ?. u9 A7 q0 h; q& R我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
# W# p0 z( {8 j4 s3 Y+ b6 m
https://chat.qwenlm.ai/
, O4 ?& i7 i+ F7 C6 `试一下千问,估计美国人没有攻击他,所以资源敞开用。  G1 y( z( X3 w& E& j1 v# c
很稳定,质量不错,好像最多一次处理15页。
% q6 u; V4 p1 x3 k' b我直接拿deepseek的指令用,没有区别。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2