nanimarcus 发表于 2025-2-2 03:35:19

利用 Deepseek 抓取PDF的文字并矫正。

本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑

把PDF上传,然后让他抓取文字,并修改可能的错误。
然后deepseek完美的完成了任务。
段落清楚,列清楚,页眉页脚全部去掉。
我要疯掉了!
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
====
中文也很完美。
经验值,每次十页比较稳定。
现在我这里API还不能用,等恢复了,全自动了。
====
第二次疯掉了!
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
====
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
但是任务多了后,每次翻译的页面数是减少的。
好吧,我五体投地,继续探索。
====
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
====
好吧,有些东西是不给翻译的,哈哈。

Sorry, that's beyond my current scope. Let’s talk about something else.
====
然后我的英文命令也让deepseek 帮我修改,呵呵。
====
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
====
时间段的话,北京时间的下午和晚上用比较好。
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
====
用千问吧,非常稳定,非常强大。
https://chat.qwenlm.ai/
====
Deepseek,API 看上去可用了,但是不给充钱。



马鹿 发表于 2025-2-2 03:53:32

这功能很赞呀

nanimarcus 发表于 2025-2-2 03:56:21

马鹿 发表于 2025-2-2 03:53
这功能很赞呀

简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

indy 发表于 2025-2-2 04:13:28

有没有上传整本书试试

nanimarcus 发表于 2025-2-2 04:27:15

indy 发表于 2025-2-2 04:13
有没有上传整本书试试

目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

马鹿 发表于 2025-2-2 04:41:51

本帖最后由 马鹿 于 2025-2-1 15:43 编辑

以后让deepseek 读出土的竹简:lol

还有把古文翻译成现代白话

以后不认识的字不查字典了, 直接问deepseek

方恨少 发表于 2025-2-3 01:23:54

请教是如何实现的?

我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。{:214:}

nanimarcus 发表于 2025-2-3 03:06:35

方恨少 发表于 2025-2-3 01:23
请教是如何实现的?

我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
文字之类的没问题。估计deepseek现在暂时只保证主要功能。
美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。

nanimarcus 发表于 2025-2-5 00:15:37

方恨少 发表于 2025-2-3 01:23
请教是如何实现的?

我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

https://chat.qwenlm.ai/
试一下千问,估计美国人没有攻击他,所以资源敞开用。
很稳定,质量不错,好像最多一次处理15页。
我直接拿deepseek的指令用,没有区别。
页: [1]
查看完整版本: 利用 Deepseek 抓取PDF的文字并矫正。