|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 % G6 N3 y- q# G% u& U, d
) s. `' U# d/ [* j, t
已经搞定.
/ S& h6 F0 j: p. K. h
2 L2 g* N4 M/ a% i8 C; t6 X' M9 _首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。1 [, l3 H" ?0 _ C' c
" N- T, }9 P1 c. E `6 ]
1, python + pypdf 按章节拆分小的PDF+ J+ q7 e& \3 M: J. C
, j$ F- B/ _' F3 l, `1 b
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile9 T2 ^; K; A/ r% E
4 |; @% S3 D/ \8 H4 N! y% j! J9 C) j得到text file& h9 }# m7 v% n" D; W5 V- |" h
" x& Y( W1 u, L. k7 l9 o
3, python 读取整个outputfile,丢给deepseek 矫正。
. k B2 P( G: n0 H5 f5 U4 g- e3 t) r" h1 W) M" |) q
模型是 deepseek-chat
& P- ]& s# G! o) j/ [+ C; g. m' f- q$ |. j( Y
max_tokens 最大是 8192,别的不用改。# r* A% ^" S+ F8 C: W5 L' T1 a
4 i, q' Z2 D8 y参考:
" R ^8 `( B, u! o- ^' Thttps://api-docs.deepseek.com/api/create-chat-completion' p- @9 M; s* m- J, \
4 P7 j: E7 |! J6 j" N( W" Y4,费用:1 K* r" T1 x$ p
/ f' R) O+ ^4 Q% w实测:6 T! R" k# Z5 p t# ^! B% s
' |$ j+ l1 }" @' z: @3 [
296K 字母,用了 9 美分。' w, ?( S; i( |6 e, b
. S4 I4 g& ^& d9 Y: @$ `
英文字母 到 token 用量大约 1/3! y m! ^" M. f! H
. ^) X# j0 S0 ~4 k) \- g, Q% |tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
# r. N6 \9 P% p5 D! \7 s8 Y+ K4 x# J& \0 P9 Y( P$ Y' C- C
32899 个字母花费 11782 tokens,包含输入输出的 tokens/ u I& V0 `+ p, Q; G7 E( U; B
- }- {, ^3 Q0 c* q% ~" E
价钱,非常非常便宜了。
7 c# \$ g1 D7 i7 u7 I
' |- t! F8 }' M参考如下可以计算,懒得算了。
8 j+ X# Y" i# g! C: A( N* u' }, d) W( c
https://api-docs.deepseek.com/quick_start/pricing
: \9 f6 Z9 N4 \- [1 i- e% o1 w
2 {. i' h; l5 T# n# G9 y1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
0 Y' ^" @- C0 I1M TOKENS INPUT (CACHE MISS) $0.27 $0.55' s L. Z9 s" I$ p6 b& }: u
1M TOKENS OUTPUT(5) $1.10 $2.19
2 m7 j2 ~9 {. o5 `' J1 d- v# F4 z6 j2 A9 S4 g# n% A9 }; B- ~
5, Balance
; i7 O% w. |# j7 g. i' z; g
6 ^* S6 _; `7 o0 l+ {- M4 J可以在程序里调用,知道每次运行结束后,balance还剩多少。5 N1 `) v# x6 \; q, [
参考:: z6 C1 R$ J% N4 ]' K6 J0 X
https://api-docs.deepseek.com/api/get-user-balance
) M$ S( j; Q2 D5 \) L* h! K) H4 u$ Z, {( q
6, Models
* U5 `' Q1 J6 a! _- b1 a1 l9 {6 S
! ?- q0 W. g' k9 h h目前就两个
7 U( D. f; x5 u" ^8 A9 \+ }3 M# deepseek-chat- r$ [ t& Q2 o; b0 g$ t+ b) u# C
# deepseek-reasoner& K4 M4 ?( i8 f* @
8 A: w- o# h5 A8 f. Q4 K# K
参考:
+ ?/ K8 {& x, b, a. Vhttps://api-docs.deepseek.com/api/list-models1 ]9 ]9 @! Q) \2 l6 m$ s
a B' o# @ `4 k' _- T" a" b
- S( M1 b7 d( r% I7, 问题
# m2 B) }( Q7 g/ |& g. B3 Y# [+ J$ f4 K7 D9 ]/ D( L$ p" ~4 l
deepseek 会将前后两段合成一段。* ?7 u! j! t) |8 ?, c% N
特别是那种大量的对话的段落,deepseek会给你合成一大段。. G( Z4 m# Z7 J3 E! w/ d
2 m& t; R/ B8 e5 T
8, 钱说了算。, a; V) X9 `6 p
, f; Z& N0 O6 M# M
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( _- }- R1 a, L# {- D) {; Q) U4 G+ C2 }
但是API就不会出现这种情况,毕竟我们给钱了。
5 a% W: [- O& }8 D- r* qchatgpt也是这样的。+ Y; J5 j' I6 p9 m q
2 g& I" U$ |, l9 P$ x7 b
! }, X7 S h: e# ?! f8 ? |
评分
-
查看全部评分
|