|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
6 U J( @- ~1 w5 L1 D0 \
# k, ^& G, M1 W* L( ]$ Q8 W) b已经搞定.
% H' O- q5 f4 }& |- S6 F( f" X$ p" }; s @1 ]6 d1 X+ ~
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。# \% M% _4 ]" H. o8 E' T
. z0 _7 |0 |2 [& }! ^1, python + pypdf 按章节拆分小的PDF2 I& }) u- B% i& W4 J% X- r( f
2 {8 v- J5 G/ J) Q9 ~( }' b* c
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
0 L! X; ]( T/ K' I1 y2 ?* C; F7 [6 l, K# A( ~9 O* _! X
得到text file
, i$ T' @! g% J9 r5 Q0 X! I) o- M
6 A9 ?. p" W& V2 H3, python 读取整个outputfile,丢给deepseek 矫正。0 V: N# Z, a Z# Z
: V1 b8 @8 ~' k( J' x# ?' ^模型是 deepseek-chat6 S$ @8 t8 r g* ~
) ~8 ~; z+ Z" w6 Y$ I6 c
max_tokens 最大是 8192,别的不用改。
& r; u, Q4 I+ ?( A9 T: N: U% m
5 U: P( B8 T+ _! B v( b参考:
9 d2 ]5 v3 M- u. K: p% ~( h0 Hhttps://api-docs.deepseek.com/api/create-chat-completion
% m3 W" {, @; `
( V* `( c5 _; _/ J4,费用:
$ M" d5 p _3 ]7 x2 H6 f; {& A8 y4 z9 b
实测:
) M' c' }, d0 t0 F2 E# q/ W+ a* }$ Q7 S& g( }
296K 字母,用了 9 美分。
q# ]1 X/ E8 {2 _5 \5 g( }* Z6 s2 g1 t% v2 Q2 u
英文字母 到 token 用量大约 1/3
+ T3 ^& |) `8 c* W( B V: v& h$ p8 D$ W5 f. h# m2 [% A
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899. D8 L) }5 [& h P
' A) K* \- D6 k2 m* R
32899 个字母花费 11782 tokens,包含输入输出的 tokens
2 C$ o8 O7 H2 D7 F) j
& R2 A* p5 v6 K3 Y' D( ?2 D价钱,非常非常便宜了。/ \+ w0 c1 y' \( s$ e0 P( n+ m6 H
6 R: U" M8 e3 L7 ^$ f
参考如下可以计算,懒得算了。
% L" n$ V6 t1 U6 B/ u
* y1 H, C) M/ hhttps://api-docs.deepseek.com/quick_start/pricing
! k2 g4 u1 O( n) p0 s+ a# r( O& A7 n# i
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
# l/ N* c: `* W, G9 \) `$ L1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
7 t0 J4 j, }, }7 r# g6 S1M TOKENS OUTPUT(5) $1.10 $2.19! Y4 E4 D8 @3 S7 s6 t
; d/ l, x9 v7 S) m$ {
5, Balance
; V7 [2 m# S, g1 h z6 X$ g1 K1 z1 r) S$ ^* k" ^
可以在程序里调用,知道每次运行结束后,balance还剩多少。
) J2 ?, `( ~! Y参考:
8 `/ f9 x9 G9 \6 B, j. ghttps://api-docs.deepseek.com/api/get-user-balance8 ], {/ B) ]4 U, X6 e* y
% S; r5 f8 x( A G4 r2 ?6, Models% E8 u. I/ j6 K# Q
. g& u/ v; S; i. t% n3 [ U目前就两个
1 t: H# A9 t" _* e: ^6 E# deepseek-chat
3 \ |' J& p7 X: s# F' Y# deepseek-reasoner0 k% o6 Z) U. I
! x7 \0 ?3 a' k$ x* C
参考:
i" P" n6 S. e9 Xhttps://api-docs.deepseek.com/api/list-models9 |( `! d& J. q2 e
[: P* } e: e4 P! Z
" z& r e* O* X1 ~* C+ k7, 问题
6 I) I" {: S b7 i
! A9 @1 M9 N9 j2 U: edeepseek 会将前后两段合成一段。9 R0 Y, M' S. @% p" k# U! [
特别是那种大量的对话的段落,deepseek会给你合成一大段。
% b" L$ \ g' Y: [7 T. o4 o/ m
6 a' F0 i+ f# {" {9 v: s3 O6 L( I8, 钱说了算。
6 p4 f8 f U6 t/ }& w6 ?3 S7 Y, E: I. O, L, V& Z' m, ?, t
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。2 ?* |$ @" F) y0 S( h: M
但是API就不会出现这种情况,毕竟我们给钱了。
0 U8 \+ ^. y' rchatgpt也是这样的。
& |) D7 Q: H2 n/ g& f7 W
$ O; u( C; a$ c y" N: r& c6 d- ^0 k7 A, t6 |/ n) H
|
评分
-
查看全部评分
|