|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
% [+ ?* {# w4 ]6 a) I2 U
, D' h' L7 ?$ b已经搞定.
& O7 J2 Q/ }; d, B1 M, P7 D- ^+ ]! H) t
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。' k3 o2 H. i2 ^0 g" K! M- F
8 Y; Y/ X- [2 [- P9 t1, python + pypdf 按章节拆分小的PDF
. v: W; R d' S- T& K0 x
; R! I$ V4 e9 s0 [, d" ^" k2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
; i/ d! \: u, S( \$ \6 Y/ ]* [- ` s) X
得到text file7 m, o7 h. {+ Y+ b+ v, a3 j
% y. O! o$ K3 o/ }, j) X
3, python 读取整个outputfile,丢给deepseek 矫正。5 I0 |% j" b: \4 a0 q, i
3 b$ ?- q, Q! I: i
模型是 deepseek-chat
6 }9 c/ u2 a* a$ D/ o% F* }1 C- S) P9 g, ?
max_tokens 最大是 8192,别的不用改。2 s6 |2 a w) d
! b- r. i4 y. j; h) d参考:
E1 `, W" @( ? u1 c, A7 d: mhttps://api-docs.deepseek.com/api/create-chat-completion! H0 S) V' `# q# |, X
2 S6 T' z' v. M, l0 r+ A
4,费用:9 q& w! m L! O b- s* j3 A; q [
* M0 |- C) H4 g; {实测:
9 f: S+ E4 h- |2 n1 L
1 k, l# i( o/ B j% U' S. L$ \! B296K 字母,用了 9 美分。1 J+ f4 ?+ P1 ^5 M
6 q' c( W9 e8 J5 Z英文字母 到 token 用量大约 1/3 F0 z0 y0 x. m) N8 G: I! K
# A, Y) Y3 d* ?
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899; H6 n+ {" j+ q5 l
: U0 F% E1 m2 G5 v* K* G; {( s7 w! C
32899 个字母花费 11782 tokens,包含输入输出的 tokens. g; x2 v/ P2 O) S
( H: z# v& \! @' C. t
价钱,非常非常便宜了。
7 P- t' \; i" A5 F
/ h1 m0 q j! M7 O ]参考如下可以计算,懒得算了。
" E- z& D& b: G% V: O
$ C4 s% c0 I7 C( U# V* thttps://api-docs.deepseek.com/quick_start/pricing. S& U7 E# ^2 R& e9 z( s) y, T( c, ~; ?
, {2 J4 e: c' K8 h" q; F4 ? v, E
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14; \3 b. K2 R# {2 J. W8 Z- E( F
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
?# _; p/ n& e# `5 v4 S1M TOKENS OUTPUT(5) $1.10 $2.19# q8 t8 `1 n N# ]. k( Y
. e: k7 _" p _( F5, Balance
# [5 r/ d9 g( C6 M& x5 m1 }7 a/ l7 o" F! L
可以在程序里调用,知道每次运行结束后,balance还剩多少。6 [5 i* o1 p1 l# K. [! O5 T" E
参考:
6 {# q/ M1 G$ p# [https://api-docs.deepseek.com/api/get-user-balance3 e3 y6 b1 m! z r& V4 v
l! e. s) p, ?2 y+ K0 l
6, Models& T% f1 {- d: p6 v4 I; i, ~
; G7 W! K9 L* \* m7 M$ H# o' S1 Q
目前就两个
. E( U. y) c X( b# J# \4 Z; L. X# deepseek-chat
" n( B, k. \1 s% H# z5 P$ g9 K# deepseek-reasoner
* L- G; b" L5 w. t U/ v c; h
. q' b4 l$ C5 F9 ^( X4 p参考:8 ]9 o7 U _5 p0 o0 d S% |
https://api-docs.deepseek.com/api/list-models+ O( l( n4 H* |4 [1 [* i5 J8 w
+ y ]! y- ]! y: ~! J
k. S/ a* b5 x7, 问题
2 t, P# a) l( {- `/ n9 {0 }" W& L* a& F# N
deepseek 会将前后两段合成一段。
" v n9 R @# Q, l特别是那种大量的对话的段落,deepseek会给你合成一大段。
) \: h7 s- q* `, }0 a9 b
/ @) x" j: U7 \% o7 [2 i8, 钱说了算。
3 E& X7 u( m" I7 s" x. a. ~. ^6 D: P, Y" q
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。2 H; {' [2 ~" J$ ~
但是API就不会出现这种情况,毕竟我们给钱了。 b' `8 \1 ~5 b
chatgpt也是这样的。# s/ _: n+ W% ~* `0 I
) T) z' d4 J5 Q& ]$ z
& z) L" F1 ~2 w" P! y, M
|
评分
-
查看全部评分
|