|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
# D' [) e6 f* a! `2 _" W( \8 @, i, W8 i% X2 l! J
已经搞定.% J4 R* G. H5 y# j% u9 W8 Z2 N
; d" n8 x" t0 a! e7 T( B' r首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。3 [: Z$ W) }" `1 a
2 `- d" P- j4 |- |* I+ m
1, python + pypdf 按章节拆分小的PDF
5 n- E) l: c8 h; D8 Q e0 x3 R. r* D/ f4 e8 \
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
9 H [2 V$ F) c1 w. ]# N# e4 n, q& ^8 `0 [6 G" H& V
得到text file
2 O+ C8 p- T5 |' B6 Q. N6 r
7 k( v' I6 d: M" {7 @3, python 读取整个outputfile,丢给deepseek 矫正。4 O4 K0 d$ U4 W4 P @; g2 [
5 Q4 R T$ @4 ~% d模型是 deepseek-chat
3 v( `) O: g$ e- H3 P3 L8 z
$ M/ B% I y6 Hmax_tokens 最大是 8192,别的不用改。
: k+ N' I, i! v! O9 T# {9 M) H: q& p! v- m
参考:" t7 h4 U% }" w9 @6 v" s
https://api-docs.deepseek.com/api/create-chat-completion, y7 j& | W( t% {$ R& b+ l( @3 F) R
2 K5 E# k& a5 t' U8 O* ?, O* g
4,费用:
4 _2 `9 z5 }6 q3 _: \4 Q* z1 {5 y: T2 |% Z
实测:
3 D1 i: k* d' ^1 c, V* y& H* ^# `' n7 ~/ m8 T* @4 M
296K 字母,用了 9 美分。
* |! ?0 d' M% G( I1 T, P6 V8 j* G5 W7 h" }' p8 R
英文字母 到 token 用量大约 1/30 _" j* L( y( @$ W4 [# O0 }# X
' h/ M! k- P; t4 w- G8 t6 s' H% } f
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899 O, O8 j N/ `3 h% V$ ]
" j* i( b) o% h5 K3 ]
32899 个字母花费 11782 tokens,包含输入输出的 tokens/ G5 L7 {* [7 Y; h
- n$ }; Y% U; w' G1 f
价钱,非常非常便宜了。5 Z( c5 ]# Y( s; v& m+ t8 S
( K& T9 z D2 l% v参考如下可以计算,懒得算了。
9 ]( ?! S: ^; H5 r( L/ `
6 A+ n; P. N B; _7 R( jhttps://api-docs.deepseek.com/quick_start/pricing
) A# u$ w9 g3 @! w8 d
) Q: Q, _) o, m1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
+ M9 B+ m( N8 y3 V# ]1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
4 C3 I5 F' m3 m3 S* P1M TOKENS OUTPUT(5) $1.10 $2.193 P- W5 W% H c) e* E# D. L w
. [% H( ^1 V' z* F3 N# [2 r5, Balance6 d. W9 D2 i1 X$ w+ {* i& T
3 D6 }9 |( X5 u1 n$ f9 L% X2 C0 i
可以在程序里调用,知道每次运行结束后,balance还剩多少。$ N/ U* }6 R$ R% c! a( i
参考:
$ E; s2 j- ]) i8 R* J0 Yhttps://api-docs.deepseek.com/api/get-user-balance
) x! O' |3 s0 V/ b# x/ ]8 l& P. c5 q; J( T+ ^* h
6, Models4 O7 z- T" \- E. K- z
% w9 b# U. a+ G目前就两个0 M8 Q9 \/ `. q0 N% k; a2 w B
# deepseek-chat
9 v d6 w1 V8 g2 M! v! F# deepseek-reasoner
2 V P5 u' J' g4 [- n: y7 X+ o+ E" {! D5 x0 I0 U+ D9 x
参考:5 |( f3 f7 I* q# W8 X! i( d' l5 ~7 y
https://api-docs.deepseek.com/api/list-models
4 @ K9 n1 j6 ]/ u6 ?% _( K$ B, K1 p5 X4 v+ Q3 m
" Q8 s6 u* P$ v6 G7, 问题
4 j+ V2 B; i4 m
& z0 f/ g+ a: T! f, ]5 P5 i7 M( Bdeepseek 会将前后两段合成一段。
& r9 D) A9 j8 m* b* H6 G+ P特别是那种大量的对话的段落,deepseek会给你合成一大段。. L! j3 l) z- N/ l5 Y( W
( J+ B2 h! H- _* Y) h D
8, 钱说了算。
6 \5 A& F3 k, o8 t; ?/ p% _
" |% [, u( H) T1 k: T V* ]deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
* S6 s* ~ S! z- D但是API就不会出现这种情况,毕竟我们给钱了。3 Q- ~0 ~2 n" D, ?. n0 O7 a
chatgpt也是这样的。. r( k) h- A4 I
* _7 l- Y$ W/ B1 ?7 a
! W" T% x8 _ N! r( b+ o |
评分
-
查看全部评分
|