|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 5 h! |1 r) ~; X" d
& d: K9 F; z! Z3 d
已经搞定.* E8 x3 \$ D; P& a% x
7 c4 |; C9 l, C, l ~4 m
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。: N$ d& J& s a. p
! b" Z" l" X2 `. K1, python + pypdf 按章节拆分小的PDF
( v& x, s4 `8 o* y# b" G3 _ d0 W. I2 ^
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile& b0 y, u I! j- R
: Z1 z' x/ r3 F) @" D. [, v" y得到text file
, A0 Z) B; z9 c9 _; C+ A0 z3 z$ M" a, p# l) W5 q: J! w
3, python 读取整个outputfile,丢给deepseek 矫正。
; u* U r$ l/ b( V7 |" M! x- U# b2 S4 g; A( @# a
模型是 deepseek-chat# W* }+ B* h0 }. F. t. D
4 {! @- ~) _0 A r) y& J7 s2 i& T
max_tokens 最大是 8192,别的不用改。
% n" x& \. M3 O) {5 Y( [" D9 w2 Z" _7 U4 @6 a# J) x, K! Z6 e
参考:
7 z1 D P' U) G1 r" phttps://api-docs.deepseek.com/api/create-chat-completion
8 h# W {% W# m. a6 P% B0 A
! P) U5 ?2 @) i, J: S+ R4,费用:
4 O/ W. y" ]6 x$ u
" u+ K+ o% a% o实测:
# u2 H/ k0 W+ |' t8 r, j2 O( A2 k' j! W2 ^; q2 D8 o+ h
296K 字母,用了 9 美分。7 L& i8 v2 U9 N! b9 ?
3 m0 a; {9 b' f" b' y
英文字母 到 token 用量大约 1/3
3 u8 I" x+ r3 \$ E! m/ V" T% B* K" Y9 S( c
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328998 N' g7 y6 ]6 _; o! b) l; w
" w& s: y: u" ?7 {% N' j
32899 个字母花费 11782 tokens,包含输入输出的 tokens5 ]! p: M3 o! k( X" ]7 Q
2 f! W1 n5 ~5 i K9 J价钱,非常非常便宜了。
X$ ~+ y# _/ B- c' @0 r( E& b' y U7 d A3 B3 X+ _7 B
参考如下可以计算,懒得算了。; S/ H) L( H- ~! c$ h& o3 q
( m5 p3 I& h' F+ @& M4 E0 u
https://api-docs.deepseek.com/quick_start/pricing
. U5 V5 \( F, X1 [8 Y+ H: T) K% c
0 N) n$ w7 M5 d& k5 G4 b: ? M: |1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
$ P0 [% B9 K1 z9 g" _# z1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
, a+ N! m. a8 n) I- M' a1M TOKENS OUTPUT(5) $1.10 $2.19& C6 W. L! i! A3 c3 j- I/ o. C9 k# S9 `
9 n5 R2 D- `4 a* Q. s& m; A
5, Balance
9 g) v9 y" s" O# N" N5 s0 I. U' s: Q: ?& f
可以在程序里调用,知道每次运行结束后,balance还剩多少。! s, L% N7 q$ G1 e) E
参考:8 }* U* Y/ p+ ~0 C6 s
https://api-docs.deepseek.com/api/get-user-balance5 X6 i+ M0 n8 a
+ c# H/ X# R2 _" P3 Y+ z6, Models
5 O# [7 _% T" K$ s8 c$ w2 w1 O$ ]. n5 | e6 y/ _6 E1 ~$ c
目前就两个9 g" t' @, I! g
# deepseek-chat* m* A) ~& g% e
# deepseek-reasoner
$ n, Q* j$ k/ R3 F& v; J7 ]# m
" G. u7 ]# Y9 Y4 o% R参考:
L" G6 \6 E+ ^& Ahttps://api-docs.deepseek.com/api/list-models- x& M! W/ w& \, e- U4 B8 K
/ p" v& j8 C' [
" r* h3 W2 u( I7, 问题5 J# i+ p" d1 v; ?. c7 l7 V/ Y
' D8 C& \5 _( Q+ S6 z
deepseek 会将前后两段合成一段。
' z% K, S6 ~, Y4 u, S特别是那种大量的对话的段落,deepseek会给你合成一大段。
5 p- O2 a% H( I# _% h! h b0 c6 a! t7 A8 D. k2 h6 i6 A
8, 钱说了算。" z9 m0 h3 J) B/ F0 B0 ?. P
4 o/ q5 d; A+ b7 [' N/ N
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
E7 N* A, V& P9 V, L7 K! @5 m但是API就不会出现这种情况,毕竟我们给钱了。
* P* A/ a7 ]: t+ i1 qchatgpt也是这样的。5 ~# D5 X5 }1 J
: I* @8 p( c7 H4 u5 O9 ~% l5 H9 P1 r; F/ B8 @0 F, o
|
评分
-
查看全部评分
|