|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 $ G3 B# Z4 @( @8 x/ U4 v7 b# N; C
7 t9 J* _: Q8 x已经搞定.) n; m. u- |9 ^% ~! Z. \
# q2 v, c6 w0 @: E1 j% E首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
, W) d) O B- N3 ?: ^# u& W# R! T7 n' c+ C
1, python + pypdf 按章节拆分小的PDF
7 q& o% e. s/ e& z7 n8 I( i) Q3 I& A6 e/ M7 h
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
7 F( m* k. R% Q2 R. B4 o7 R# B6 t6 U! p" v/ T5 g. W: T2 N
得到text file; M) q9 _, q; l4 n0 E
" Y3 x1 z/ E) ]) p
3, python 读取整个outputfile,丢给deepseek 矫正。; `) E P5 P1 [8 ^6 A }1 X. f
$ ]& i& a( e0 t$ o8 E J
模型是 deepseek-chat" Y0 s* P% w* Y5 F
: X6 T a, j4 X8 g! n& bmax_tokens 最大是 8192,别的不用改。: J, m5 {* B+ [: t5 N4 a
6 M1 x# C7 I$ z h* T
参考:
$ X9 u' W% L$ L; H8 k- i5 ihttps://api-docs.deepseek.com/api/create-chat-completion
4 D0 @ X0 f( R/ S2 o" G8 e6 ~& L" D- y: V+ V7 A
4,费用:
( R3 s0 N; G6 e( w T9 S* d) D" r
实测:. J- g, Q/ l' B4 l' G! D
1 \+ `7 K; w, c8 W296K 字母,用了 9 美分。! n" T v% @ l, l7 V; l5 V7 ~
3 m" D1 j- b# T- U3 ?* h/ a3 @3 K
英文字母 到 token 用量大约 1/3$ Y9 O. V; x) f; O2 C8 @) G- K
- u& c4 F5 X |" N
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899, x5 D w7 e% g C: h% n' q
% {4 ~7 W: l; E8 X
32899 个字母花费 11782 tokens,包含输入输出的 tokens6 S, \8 X6 c; U1 O: Z3 F( V" \
" g! b) m0 e2 V- m
价钱,非常非常便宜了。
, K: n; Z8 i& y- s h+ Y4 [- I, H6 z* L' Z
参考如下可以计算,懒得算了。; }; B5 W- E0 z
3 p* `, f" I6 D' `/ nhttps://api-docs.deepseek.com/quick_start/pricing+ Q8 j- P/ f. u9 n4 D
) K3 b. X7 D1 q; e' V# J1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
2 M2 l: G5 Z- c1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
* p% b2 A2 I: V, h; u9 a1M TOKENS OUTPUT(5) $1.10 $2.19
|4 s3 E( |9 d6 G `: M# U5 P( Q4 G2 B6 N7 z. K4 t; w3 W
5, Balance0 V0 O$ }! f2 I) q4 c, l$ E
' o4 h$ c6 K* _0 c$ g4 X
可以在程序里调用,知道每次运行结束后,balance还剩多少。9 r+ ]$ w) X+ b- A
参考:; S/ f7 a% m, c8 B0 c$ u) v
https://api-docs.deepseek.com/api/get-user-balance4 ^; ^! D& g& L4 e5 @3 N( V
0 a* b5 \, T. S3 ]/ n5 V% }' e
6, Models9 O. ]+ _. y1 W) Z. F3 n7 o2 i
# L! V5 R5 H- N2 F7 s目前就两个. I+ _4 t! P* T
# deepseek-chat' t- c7 ?, i$ N( R
# deepseek-reasoner
( Q/ ~" x ~0 U( h* a" c: Q8 g: J [7 l O5 n
参考:
1 C' w, U3 \% X1 b' Mhttps://api-docs.deepseek.com/api/list-models5 M* N5 |2 s6 @6 |% O, B3 r
9 g0 r2 O+ p$ W( w8 t" T
1 m7 J6 I( l; k) U/ s; C- {/ `+ Z7, 问题
I8 c. w( `7 O3 H. s
2 c; @! W% h6 b8 W0 Bdeepseek 会将前后两段合成一段。
# {6 B; | X" C; W, ?' k6 W# ~9 @特别是那种大量的对话的段落,deepseek会给你合成一大段。
$ j$ }- m; ]# T- M: q. _2 c6 X: L# i x. O
8, 钱说了算。1 j$ ^9 u9 |$ H) G$ E j" g& J
$ R/ p7 ]: ?& e8 h+ R: \deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。& g5 C% {. [2 ]8 p" a& R) {! X
但是API就不会出现这种情况,毕竟我们给钱了。
5 |0 a/ g" O0 B8 m* Gchatgpt也是这样的。
+ E; P. F, A, Q) i! t
% g% ?3 H& q" ~( g' L1 {0 B( }* W4 O, w8 S$ O: [) e- g
|
评分
-
查看全部评分
|