|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 7 B) ~( V7 e% y4 q
: T5 M {' M1 [' F已经搞定.$ d6 \9 r2 R3 l; L, s& C3 E9 z
) X E2 n/ F0 P9 I, i首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- q% S, s/ Q% Z+ h
. O+ X9 `' x2 d% T9 R1, python + pypdf 按章节拆分小的PDF) _' \( v# z, u4 d
$ W2 g7 f9 g' M- C
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile1 r1 N; R+ N9 \
' v" \) T3 f& H& W; z
得到text file' l& M7 m( t! H, c
9 E9 d, I5 s) f# e+ o5 e
3, python 读取整个outputfile,丢给deepseek 矫正。
$ n4 _' b6 h% f6 B
7 t1 R( } P' R- N模型是 deepseek-chat: d" u( C; V" t1 V- |
4 E2 U- O7 r, j; d$ k/ H8 ]8 gmax_tokens 最大是 8192,别的不用改。
$ b* P' r% @5 k* a& J8 U0 G- Q: h+ d
, v( e% T- B( X, `4 n) \0 e: m, P参考:
1 k2 t$ ^6 \5 Y- G) X* l1 @3 \% ghttps://api-docs.deepseek.com/api/create-chat-completion
; X# }9 g+ D- Y$ }; ]+ v* D* R- y
6 w. g; l+ k7 p* S5 k4,费用:8 O0 H4 `8 C8 Q, B
: {8 C- r2 D: O* z0 P: `
实测:
- L& q. r1 d# S/ p! q* F
8 M' p' H3 C. Y$ V. ~8 H296K 字母,用了 9 美分。. |; p: i% i3 ~+ P
. T7 X7 j; _' S- h- c1 S! V英文字母 到 token 用量大约 1/3
+ P6 d1 }) }* ^' R* M& ]/ V5 z, B* B+ @ W. M( \% N1 {
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
# I3 v) ^6 ]/ I% I( r5 m9 r% C) k4 S5 h8 E9 m1 l! j* ?
32899 个字母花费 11782 tokens,包含输入输出的 tokens) a8 [. I( Z- p% [
2 O9 ?8 g- Q* O( x4 n价钱,非常非常便宜了。
1 C) y7 M6 a1 {! {- { l1 Y! a, `$ M' P- V! R X2 @( M
参考如下可以计算,懒得算了。
" b k+ @. N0 U, \" R- W3 l3 V; C+ I$ y7 V
https://api-docs.deepseek.com/quick_start/pricing
1 f7 B. }+ i h0 }2 q
; e' n3 c4 S3 ]2 M& m. R1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
. o9 r7 |3 G' h3 S' f% B3 o4 u# r/ H1M TOKENS INPUT (CACHE MISS) $0.27 $0.558 | y/ e9 S* T0 @( d3 @ U
1M TOKENS OUTPUT(5) $1.10 $2.19: d, v/ Z9 |; H/ @% G" I8 m
B) J6 O& S/ R6 ?9 v o. E3 s5, Balance
v, C* k, ?3 I" I
1 T' E& _0 [ x可以在程序里调用,知道每次运行结束后,balance还剩多少。
, s4 @- g! w* I1 u1 h参考:! _3 Y2 ?2 D$ J" _* z6 a
https://api-docs.deepseek.com/api/get-user-balance
4 u* @0 l$ j2 g0 _6 s# P7 e) B! L' f3 f T5 m
6, Models8 d! G. b; l: D3 L% O8 R% C4 M
' Y/ ~( P. b/ p
目前就两个8 c! r7 {. q* d8 L
# deepseek-chat
! C4 P& n |6 j# deepseek-reasoner, Q& ?" q6 T! ^! H6 S8 }$ ^9 t' c
' K; \; V) |( J% g参考:1 ~: J5 n( q' u% Y8 S
https://api-docs.deepseek.com/api/list-models4 p+ a8 P/ t ]9 @5 s/ s( M
9 y* }$ r2 s! K0 c7 p% @! j$ p' _5 U: A, s+ A, r/ o2 L% A+ G& b# M( ]
7, 问题
& s0 q- }- }# W' i* l) g
, Y5 \" N F8 i) f$ zdeepseek 会将前后两段合成一段。
# z4 Q1 {& f/ x; w! t0 s特别是那种大量的对话的段落,deepseek会给你合成一大段。
! O/ w" w; v, z
|7 W' }2 }# j j+ `5 l; z8, 钱说了算。
/ ?# L: g3 N3 t) u' m* {- T4 _/ J, h5 |: ?1 o
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
: G- v5 [; s" Q4 L5 V E但是API就不会出现这种情况,毕竟我们给钱了。5 z* |, s& ~& [# ]! r4 i/ _ Z' _$ O
chatgpt也是这样的。! J) U& U. f" W+ V+ L, q
- [0 U2 b* d8 Z* p0 r+ _6 i* }' @6 N
|
评分
-
查看全部评分
|