|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ' |% a- T1 C: ]0 L/ o3 n# y& }
( L2 M$ w- Y, h1 U已经搞定.2 R# J+ ~5 j( G5 r5 C' m; M
5 f7 |5 V" `. f+ _1 m9 [
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
4 G5 m& j7 q% K+ I+ h3 X5 T, z
, t/ R; \3 u* g* U: b1, python + pypdf 按章节拆分小的PDF' i) Y4 a/ F! N; P
; e+ R% p2 C- v7 h# \* D2 D2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile# N9 a/ {$ ~. m2 u9 Z# m" _
; f) {1 G' J0 e& ^' S
得到text file! D' W) |5 b- R+ R( O3 M# L3 }
5 q% T# B9 a+ s0 k
3, python 读取整个outputfile,丢给deepseek 矫正。8 L" Z1 b( j8 K# l4 [9 N7 H
! J- V, b3 K3 _7 t6 V. G模型是 deepseek-chat$ t) v7 V1 H# r* A* B1 _
7 ^) q- r3 p' D9 ^2 C6 o6 `
max_tokens 最大是 8192,别的不用改。$ Q0 s' o! [5 K, ?" \- @0 t
! R' y/ P! F$ W' I+ z
参考:+ z. C# r M9 v" l
https://api-docs.deepseek.com/api/create-chat-completion* y% _% B9 N9 _3 F
8 F2 d+ o0 f0 q7 @( G" |4 H
4,费用:3 @9 _+ l2 \ V' _. _. V
' H# \1 B) L1 H$ T- z2 ~实测:0 i# N, h9 V6 |5 g6 k( T; }
2 y7 i2 Y5 a% ? z( L296K 字母,用了 9 美分。1 F9 M( B( W9 y$ E% \- u& e
8 @4 Y5 R: h3 F英文字母 到 token 用量大约 1/34 r2 t4 ~1 U$ C" `- K
0 x6 v# a% ~( b& L/ @" o& N3 [0 @tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328996 R# Q1 @+ w: Y' w/ h( U9 }
( { V5 P0 n7 g: z! q32899 个字母花费 11782 tokens,包含输入输出的 tokens! t6 ~: O( x& @7 b3 K- v
6 \, Q- L% S9 u9 v% S8 v
价钱,非常非常便宜了。& R a3 l6 {5 c6 B
0 h* u- z$ Z, |+ C
参考如下可以计算,懒得算了。- E2 n. M% _8 A+ w. ^
0 n' }' R& j0 [ S4 ihttps://api-docs.deepseek.com/quick_start/pricing" X2 P4 Z+ _. D6 [2 V
1 z9 s# ^! i w- g1 v' S0 C' j
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
) I4 ~2 D! N8 I9 _1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
# u; j/ y5 y" I6 ^2 [ |. I! O1M TOKENS OUTPUT(5) $1.10 $2.19
& n' }# f @: z/ `3 ^' K! m6 z. U! w$ e8 a5 k. o2 x
5, Balance
4 w( G, H1 i0 w) l2 r7 w Q8 A: U) N7 y4 H
可以在程序里调用,知道每次运行结束后,balance还剩多少。
( U. C, e& O1 v% K参考:- H6 a8 y2 B' m% N
https://api-docs.deepseek.com/api/get-user-balance+ y9 A' h0 y% M/ h# e5 U
4 g% A( M2 O- m M* F6 j! c: \/ x* V
6, Models
! y* p& s$ b E! z' x
9 f3 g4 {' z$ J" Y# V' M) f目前就两个: }6 c. m+ w8 G& I/ C
# deepseek-chat
2 p5 P4 f$ t4 d- ^+ I/ i# deepseek-reasoner* [1 H% ]. P. r3 d& O4 g" B
; ~$ h/ f5 L& @
参考:# C2 u3 O& K f( j3 s c
https://api-docs.deepseek.com/api/list-models
4 J" c( x/ c8 g# W! R- D
( W% q% J8 d' H$ Z4 D& m* d7 U g6 `$ E# P+ U0 l
7, 问题5 H3 m7 r3 P* Z" P+ K
5 C) ?# T1 z6 a9 D: N% I& e
deepseek 会将前后两段合成一段。
9 c- B& M- n5 H特别是那种大量的对话的段落,deepseek会给你合成一大段。
3 r0 Q* j# a0 G+ U- m, `7 l
3 t# r6 I* q- L4 D: s0 S2 i8, 钱说了算。6 q* B' k9 ^1 X2 D- v( z C4 s
" J* \3 Z! ~3 d( S
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 L1 z u3 ^8 O$ S& C) v3 i+ H
但是API就不会出现这种情况,毕竟我们给钱了。
9 K, H* \9 W* q, Gchatgpt也是这样的。, n* {7 E2 ~. H" W
9 w6 F; s* Z6 L O# F; V
1 F& m5 `! r* v x- Z. z8 W& d
|
评分
-
查看全部评分
|