|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 $ Y2 P: m; x8 y5 @
( Q- h4 t7 b. ^3 M2 R7 G已经搞定. n, P) P4 I/ o4 j0 ?, G
4 C; d5 v- g/ P& Q- ]. k2 K# Y6 m2 h
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。; V3 F* I' W/ {9 L* u' v3 P
' k+ J7 s- [0 V H% g' y1, python + pypdf 按章节拆分小的PDF# b0 w6 U6 B7 t+ M: r
6 Q7 h+ ]; }. p2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
: }1 @! H3 b2 `8 Z1 J8 V3 J/ A7 @0 I; `% K6 Y6 ]
得到text file/ y4 \1 T) j$ P% M! l. }
. j3 x( s: L; w5 ~2 w3, python 读取整个outputfile,丢给deepseek 矫正。
( h: E M5 b) ?0 e; r- X
6 K, y: Y' l% w7 d3 R+ v模型是 deepseek-chat
3 B) {3 U0 w& |" V! _3 u @5 C* |, q; e% S8 F
max_tokens 最大是 8192,别的不用改。
7 u! I+ p: P6 q9 ^0 q! h, ~* s6 x3 n1 x- [! k
参考:
& i) O- Z: u F2 @: ihttps://api-docs.deepseek.com/api/create-chat-completion O4 h- `" l& A
5 ^% Z5 n8 t' l
4,费用: O* z' H8 r; b, l# p
' v: ^& P4 m0 \! T0 e" e! h! i: _
实测:0 m: D$ B3 u- ?/ B" G. l
, w1 f" i N% v8 Y4 m+ {) u296K 字母,用了 9 美分。
4 `7 g) ?8 ^ u8 h. d/ e8 ~) w( K, v% I1 a/ O2 g2 i
英文字母 到 token 用量大约 1/3/ w4 Y- W/ }1 c& g0 m
5 ?) u8 }9 {2 o# Q" P: ^: r4 X
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328992 ]$ w2 h) `; ?: G# w1 U/ F# I& S
2 Q" A1 X @! K: S6 _32899 个字母花费 11782 tokens,包含输入输出的 tokens) b! @9 Z; D$ y! j
0 ]2 a$ h; E7 }
价钱,非常非常便宜了。
2 _' @! C1 X v/ s, Z z- Y9 J' o* g9 b: x7 ^ ?
参考如下可以计算,懒得算了。
. G a, k3 q3 ]& l# v3 \
, ]/ t( l- C4 _8 C0 N; h, Thttps://api-docs.deepseek.com/quick_start/pricing* Z2 x$ W8 k% ]8 A, E
6 K8 B! q7 G, V) { Y% m1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
1 J5 y, ~# g' }" z- ?4 }9 y6 E1M TOKENS INPUT (CACHE MISS) $0.27 $0.55. ]+ r; n# t) H) Q* I- T
1M TOKENS OUTPUT(5) $1.10 $2.19 A! ]' H0 J: W8 n9 ^
. I) ?5 s' a- }
5, Balance
1 e* N! A- X/ D' R+ l
' N, C# `. a ~. S5 M5 Y$ h可以在程序里调用,知道每次运行结束后,balance还剩多少。
, }" B) O7 J A: L% I6 b参考:
6 S5 Y" q+ Q6 @3 Ehttps://api-docs.deepseek.com/api/get-user-balance
( @, T3 ~6 L4 {7 |, R/ i# c' ~. W. e; E5 }2 ~/ o8 h
6, Models
5 V/ ?+ B: q3 r& f8 [: Y, f, v2 o! r! I6 K+ m0 |2 K; J& y) `
目前就两个 O% y3 ~) _! Q8 l3 e
# deepseek-chat
/ R1 H' F& b$ |; d0 D) S# deepseek-reasoner
& o+ ]% \; [- t6 x. g
+ y: ]1 o, r$ R" ]参考:
. L- a. t' @( U& b1 q5 v7 Xhttps://api-docs.deepseek.com/api/list-models7 `/ G' G( Z9 r9 t' _! e" W- O
* t. b: p/ F( y7 Z' F& A1 N
7 B2 m0 x) F) S* S2 H" x4 K' J7, 问题1 D) F# C' b2 J m0 {- \) J5 J) b
6 J0 Y$ e# `9 f: I8 E' `
deepseek 会将前后两段合成一段。
9 d/ l8 K3 w( J# k# r特别是那种大量的对话的段落,deepseek会给你合成一大段。$ A. H! K+ T4 U9 C, z, @+ Y
. A; S2 ]/ D1 ~9 h, p' D* n; A
8, 钱说了算。
3 l+ y9 E3 }# S7 }* h/ o% r3 P' m6 {8 N6 u
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。, Y {% R' k G8 ~- Z" ^$ Q
但是API就不会出现这种情况,毕竟我们给钱了。
# l$ C& W e1 U/ A& I9 B2 @chatgpt也是这样的。
5 P" u. M/ l" K8 j7 D& d$ [, v. E1 [5 a. c m7 @3 D' x
) a+ p& l0 S& E |
评分
-
查看全部评分
|