|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 4 Z2 w& d! Q9 G1 j
1 v* h* j4 D3 p6 s# ?已经搞定.- Q' j5 u, q4 v5 o9 a9 i; X
! J& W/ ^5 F- _
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
6 {- q7 G2 b8 ~. W: p3 P6 o: j; H7 @- F
1, python + pypdf 按章节拆分小的PDF# h( O$ a# F$ m9 C
. ]7 x5 b2 l/ q" F2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
( E) z" {/ u& ^/ d
7 M' W; C6 B! u& M0 n. ^得到text file
+ b8 _' u3 s& L8 a
5 F0 Y* p4 Q8 x" }0 B3 a+ M. O4 l3, python 读取整个outputfile,丢给deepseek 矫正。& B' d. u$ o' q
2 r% m" i6 D& r' v) ?% N模型是 deepseek-chat4 X- Y! H) P8 {5 R; B/ o: h
: q6 d# z0 o% I0 E! Y* G7 F/ vmax_tokens 最大是 8192,别的不用改。* [6 M& X. l/ u
! n$ P' g. ?( j; D4 {/ L$ S2 o6 w$ m$ E
参考:# ^% P$ c) \ O8 M' v
https://api-docs.deepseek.com/api/create-chat-completion# C8 Y" X; g$ w3 |2 l c, l* [
% W, k! H' ^4 b0 E4 H& l* Q9 r
4,费用:
, `; L( i0 H, q5 Z2 C! z& `6 I) n. N# p% u+ c; L
实测:
6 T' g' {$ z" x. J9 Q) U% l
9 {3 q) c8 h5 X! Z* G7 l296K 字母,用了 9 美分。
/ q3 h4 g. O0 Q+ I6 {' [
, S* D* S H, ~英文字母 到 token 用量大约 1/3
1 e; m9 ~# S3 I) I8 r/ B
7 m& b5 I* A A3 b4 z) Vtokens: total, 11782 completion, 3729 prompt, 8053 | s: 328999 U7 s' T- [$ \6 ^- E5 [
3 f7 G; T) m! E/ ^" g
32899 个字母花费 11782 tokens,包含输入输出的 tokens
/ t& s% ]+ H9 z2 [# ^5 l* I/ ], h
0 `2 H. Y) w3 ^4 ]& z' w8 F价钱,非常非常便宜了。; C3 D8 Y% ~6 b2 ^4 t2 V( N( u& H" T1 J1 I
/ O+ T/ M/ K# D4 @$ x) ?& t- _/ {参考如下可以计算,懒得算了。
/ [- M9 y0 L2 d: Q6 X. [8 U; I" x' I8 D* b
https://api-docs.deepseek.com/quick_start/pricing( n% q$ i. N& t
' h* {4 @. V8 R
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.146 k# l4 a# I8 ?5 |
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
; n' O) _1 g) Z2 y' U6 B1M TOKENS OUTPUT(5) $1.10 $2.19+ p2 r J1 E/ J; c5 h z
+ _* F4 e/ r3 {+ y" C! C2 T
5, Balance
/ d0 m/ g$ V! j6 g: t; i' X2 B% I
可以在程序里调用,知道每次运行结束后,balance还剩多少。! q5 y* N! z% O7 H& l) n
参考:+ K' Y A2 v; U- U1 O1 W
https://api-docs.deepseek.com/api/get-user-balance; p% i6 c7 R6 g9 F% w/ A
2 i) m. o1 G: k$ |6, Models
" e+ c0 ?0 Z- X- V2 n% S
6 J7 H& [' \0 G1 P) z) p6 C7 `* y目前就两个# J0 U; O( }5 c& E
# deepseek-chat! E% n( _$ c2 j$ X" ^4 O, ^
# deepseek-reasoner1 m% ~- n; V! k) o! g5 `
& P. x* c0 A G' R8 |
参考:* Q. c& `2 y9 m" ?) K3 j
https://api-docs.deepseek.com/api/list-models
- ]$ j$ X% N5 W1 m# v$ A: ?* h3 ?
1 g6 f" q8 z! ?+ f( [- C* B8 F7, 问题
6 M( `' c0 r# U. c9 E! A" I8 ~% q# k7 q& s
deepseek 会将前后两段合成一段。
2 J9 c7 t+ r( X特别是那种大量的对话的段落,deepseek会给你合成一大段。
3 h/ T( g3 t; y" b1 J2 u+ c: Q: l0 N7 I- J! G. J: C
8, 钱说了算。" s& P7 y, [% f% I8 o9 D
( E4 `% H$ X. u( T/ o" H4 f7 Jdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。7 Z" f6 ~& B9 z9 V
但是API就不会出现这种情况,毕竟我们给钱了。
4 k I1 `" X5 o( pchatgpt也是这样的。
/ H, k5 ?6 s) w- n! ]' Y0 }- J8 E v3 m- s. K$ E3 X* g
+ ~8 ^1 v( F* ^7 H1 k" H/ h |
评分
-
查看全部评分
|