|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
0 g7 w& `* ^! ~9 Y X& @% E; f% y. C% h! c
已经搞定.
6 i6 D+ E, c2 g, @5 M& E/ ]& t- e7 H1 _3 a6 @
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。. O# U6 s* n' C7 ^9 k
; T$ [! @/ d" S5 D1 p5 i& }1, python + pypdf 按章节拆分小的PDF
L0 n2 Y4 L) M6 u( w
0 f& _( o8 V" D4 |' F2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
& @& w- w) X! [9 ^5 J+ J
0 o7 {$ h: m# ]& Z0 I. K得到text file! F& }+ y3 n2 |8 A( |7 u
" y0 `% |% ^. K+ s- ^) p0 c3, python 读取整个outputfile,丢给deepseek 矫正。
) L& W* e* e$ e8 `1 g, D
' k* @3 K3 P# C5 ~) y5 j' h模型是 deepseek-chat
/ d2 y' N1 H& w3 N" ~; `0 [8 b& T9 { C% a" `* E( p0 L J+ g
max_tokens 最大是 8192,别的不用改。" A2 g) ^ c4 {8 I
$ H; u6 ~8 Z; F! S+ \+ G, ?, Q
参考:- ^0 ^5 W$ E3 f1 L& V$ Y. `
https://api-docs.deepseek.com/api/create-chat-completion
5 }% K$ h* E: V2 U% q' \0 b( ]
4 M1 Q' |6 Y0 z# \" _2 {- Z4,费用:
/ C4 M" N3 a& w' K" f* b+ F$ {# \7 B
实测:- o" `) Q" O' c$ @( d; M) L: e" c
& c, e; g& [2 u1 W1 Z; a6 ]
296K 字母,用了 9 美分。2 T/ T. E: i+ L+ m3 e
) [! n" G% q/ p
英文字母 到 token 用量大约 1/3
; K2 C$ J8 `% A, z1 }
5 g' O0 q1 h0 \$ Y8 Ztokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899; d! q' {7 x; `# W" B
, T0 v" |0 u! U4 D/ s
32899 个字母花费 11782 tokens,包含输入输出的 tokens
# E0 A, `2 @# {1 T2 U6 G% l" Y# L' a! @1 l) y1 `: u
价钱,非常非常便宜了。
1 z# ? {% r& D4 u* ?
% b4 J. _. y/ o2 {参考如下可以计算,懒得算了。
8 W# c) y" v; J2 x {; M/ E- d
! Q1 Y0 o4 {1 v" }' ~. ]https://api-docs.deepseek.com/quick_start/pricing0 {% C& y0 r3 _$ g$ U
8 N& A' J3 P7 E* a$ \
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.143 l {0 |8 P$ o/ b; u' n+ {
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55& _* ^& c5 z0 Z6 j) o
1M TOKENS OUTPUT(5) $1.10 $2.195 B( o: l9 g6 I3 c- K, U
7 v, ?" b! O1 x- ]5, Balance' w. d' {8 K# y
! Z# I* g9 J0 d. K0 Y4 x* q* ]
可以在程序里调用,知道每次运行结束后,balance还剩多少。( A* @" ~( |; \; D9 ~! x6 x
参考:$ ]' U; [8 ~: }$ E# x! _* p
https://api-docs.deepseek.com/api/get-user-balance7 a& a* I" f1 w+ c7 f; o+ Z; q
: _- \4 A; E! l9 R1 K0 Y; l( T
6, Models
$ Z, s) H- Z/ ~, F- G$ R' E
1 A6 o$ W4 q+ W( k目前就两个
8 x) ?! c0 D1 |/ ~& K; m# deepseek-chat
X. X4 i+ s8 R( v0 l% I1 `6 `# deepseek-reasoner
5 E3 S- d3 m ], |) B- S) \' [# H- q' }0 o8 i: G1 b# p' U* E
参考:$ v7 M5 Q1 W8 s+ j/ U
https://api-docs.deepseek.com/api/list-models! v7 w# E+ x$ R' s# [! n" X O
3 V8 u; L/ V- D% p
4 m. u! n8 |) |: h7, 问题
$ g; G+ s# Z; I& D* z+ {: M6 m: K9 u0 T$ y7 b
deepseek 会将前后两段合成一段。 a. ?( s0 z1 _) |8 m7 R
特别是那种大量的对话的段落,deepseek会给你合成一大段。
" `7 k G( d; ]. V+ F
1 @' [! ~6 o7 u& {8 y$ `0 |8, 钱说了算。5 h1 [4 J& L% l' V
+ h0 r: m2 V+ e S; X3 P) B
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。2 e! n' O3 A; q9 h! ~* K
但是API就不会出现这种情况,毕竟我们给钱了。
3 _( c0 j/ h) k2 Ychatgpt也是这样的。
, d# p/ O! U+ n( L
6 z, m+ z" v/ e& u1 g! ^% ~( K3 U u/ _4 |5 v
|
评分
-
查看全部评分
|