设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 512|回复: 11
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
, P1 p* |* D* ]( O
6 c* H6 Z! O! G4 \把PDF上传,然后让他抓取文字,并修改可能的错误。
8 H* ]1 y2 r& K7 J4 W2 g然后deepseek完美的完成了任务。
9 h, L9 e$ G) o/ P! h7 ?3 F, a段落清楚,列清楚,页眉页脚全部去掉。
/ d3 d( x( }; ]" ?+ Q. j; N) t我要疯掉了!
  C; R# i$ B1 v, l3 c. I* i赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
# i7 l$ C; `4 D8 ?' F====$ i. U  h& }3 [; z( |
中文也很完美。
4 f% u5 x3 Y3 s0 O3 Y( T0 D+ b7 f1 h经验值,每次十页比较稳定。
# g" V( t& x5 W* E5 X现在我这里API还不能用,等恢复了,全自动了。
2 o1 q* Q1 ^" D====
# h) Z( v+ M2 {第二次疯掉了!
. d5 W& |, Y( j# F7 D5 F我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
+ J# x  h- V* z& o3 j====
/ V& [  _* k3 S# |$ X5 e) _; [现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
% ~1 [' }/ w6 X+ z但是任务多了后,每次翻译的页面数是减少的。
8 y" O8 y6 d$ }: _  t, w8 ?0 k好吧,我五体投地,继续探索。/ n& K% g2 }1 ^# i
====2 e& w. B# @5 ^* _* c2 X( Z0 k
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
5 r. V: H5 g& B5 \5 g* m====- I4 A' n2 ^" V$ t% ~3 l2 i! q: D
好吧,有些东西是不给翻译的,哈哈。/ Y) _1 ?* v! ^

% b% I# t8 }' sSorry, that's beyond my current scope. Let’s talk about something else." P  _( i* x1 o" T3 e
====; w1 X$ e) E* k
然后我的英文命令也让deepseek 帮我修改,呵呵。% c$ s& \6 u# O: S6 g
====# f/ ]% t4 b% T  |* N7 e* k
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。' F5 b! D+ o+ n, O6 l
====
7 R/ I4 Y# _( ^4 p$ b2 q7 e时间段的话,北京时间的下午和晚上用比较好。
, [+ l, \$ U2 P- P% e7 H后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。) f% L& e1 m/ F) F3 N
====
5 N( R7 J1 l  I: _* u1 L; K. p6 z用千问吧,非常稳定,非常强大。
  ?/ x7 x1 n; s9 ?https://chat.qwenlm.ai/
, e1 C- t" Y+ }  {! G====
3 |# z* D% X1 dDeepseek,API 看上去可用了,但是不给充钱。' G4 ]4 g; U% `
- n- m- A4 G, a

( T( s& V  t* n/ L
& g3 g( O4 a4 e# t* W

评分

参与人数 7爱元 +62 学识 +2 收起 理由
笑羽 + 10
老财迷 + 8
唐家山 + 4
pcb + 4 谢谢分享
老票 + 2 给力

查看全部评分

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3374 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53! t+ G; w% K  W! w1 p  k  ?- N
    这功能很赞呀
    1 S% n% V4 i6 J2 h- N& t
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    1 u3 N. a5 V8 V  ~0 e有没有上传整本书试试

    0 k! I% \* u! e: _2 R$ p. j目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3374 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    # Q, q( }3 |  k. b" u$ M3 k  |7 a' O7 S
    1 ~2 _; ~5 u1 Q4 v以后让deepseek 读出土的竹简
    - f. ^4 p1 {! k4 ?+ @
    " c7 M$ h- [% T还有把古文翻译成现代白话3 G+ f% H/ V( k% }, l4 p1 P

    8 P2 w# e- j: f9 }2 G; z# {以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2534 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    9 A% D! _6 t' ^- L7 V7 c& y
    & L& C- B0 |6 C' G9 X3 F) D( u& f2 a& ~) `我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    7 G0 M5 I2 d1 B, m- d请教是如何实现的?
    + X. U& l0 `" U: l! c- T7 x4 Z; g7 x& h7 k
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    + Q6 {- ~  s' J0 c4 O

    1 ~4 n5 C- o" H; O" l" H我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    % g9 }5 v( f6 ]* ^/ f: B4 e文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ! k5 p  A6 I( f/ K) V美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    , r( B0 L% v% Q

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:237 G# W4 g. C) n: }) j, n
    请教是如何实现的?7 ~5 ^, ?* @; o# s' y
      N% @( b* s$ I7 Z1 S! I
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    8 s* M: R* f( @% P# A) J6 G0 [
    https://chat.qwenlm.ai/
    ! z) e7 A# d7 {4 b试一下千问,估计美国人没有攻击他,所以资源敞开用。! E2 s, z. S% ^7 ~
    很稳定,质量不错,好像最多一次处理15页。
    ) O5 G1 Z( X. i; |& S! L% ?7 X我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-2-27 09:10 , Processed in 0.039831 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表