|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
, ?( G/ X* V6 _7 e
' l/ s8 q/ B6 E9 ~' ]$ s已经搞定.
. K2 o. {! P, q; J2 z! `
2 K/ x+ l, o4 }3 ]+ {/ w首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。7 a7 O( C4 _; x9 }
1 R4 [1 M0 f3 h% [9 T6 \# {' A' i
1, python + pypdf 按章节拆分小的PDF* O/ a2 r$ _2 |- \; Q
- G- o/ [2 d( e p3 e2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
2 U7 ], T5 Z4 @) i2 u% S+ ^9 K+ m, a5 W4 K6 I# u! \, O0 S' o
得到text file5 q8 R2 s& B/ K& _
6 C+ Z' k4 G# l, V% V! H5 D" [
3, python 读取整个outputfile,丢给deepseek 矫正。) t0 t( s2 U: m2 P
5 Y& F6 Q1 J, L A8 J' w0 p* [4 j模型是 deepseek-chat8 i* m+ E# @6 J3 q
7 s5 t W' d r/ {max_tokens 最大是 8192,别的不用改。0 | b$ B0 M# l3 D5 u- h. H6 p
T! O; q; b2 Q7 i8 T0 x参考:2 I* e: Y. d( c* y, d' @4 c
https://api-docs.deepseek.com/api/create-chat-completion- d- |) s; t" k5 g4 b* k
8 J9 g* Z+ U- u
4,费用:, }. D$ q1 T) T& B: n
: r. S: b6 S3 p* d" Q/ o
实测:
1 L8 s# Y* D, S+ [: d; e7 Y
- q2 m% N Z5 s7 y D K! n7 a296K 字母,用了 9 美分。
! _' Y: A8 p$ u" t! \' _
% d) i% P/ O1 ?/ C' k! N( \英文字母 到 token 用量大约 1/38 Y* M+ Z- F/ q: y
( |, p& ~: Y* b$ s8 ` _0 ^2 _tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
: ~- U' ] [; q2 L* [8 i" b+ Z9 o, g6 _$ c. K
32899 个字母花费 11782 tokens,包含输入输出的 tokens
" i9 Z% U% V# G
* k& n5 a/ l5 d" a1 g价钱,非常非常便宜了。
" p$ }$ I5 u$ H) G. Y, S+ D9 a% l- U/ Y* ]0 v
参考如下可以计算,懒得算了。# M. a. H* N/ l
0 R+ W" j. r" r
https://api-docs.deepseek.com/quick_start/pricing
( d- E i+ O/ L' ?- E5 }
9 s; E1 _; F) X" V/ \6 v1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14" a+ J4 O9 v, C1 d! f) }3 ]
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
: R4 D7 d1 r7 g) B! E3 A6 y! p& ^2 f1M TOKENS OUTPUT(5) $1.10 $2.195 U# H( V) }/ ~& V; a
& K. l* ?* {7 u1 V' V
5, Balance% R' w4 \; R, Y
5 U. e# w; o& [# j. L, h7 f* ~可以在程序里调用,知道每次运行结束后,balance还剩多少。
% A1 t' R( q4 E9 G- {7 J参考:
3 u8 Y) \* Y8 V6 Zhttps://api-docs.deepseek.com/api/get-user-balance* p6 e! R9 F# F+ X/ v* C
$ k; J$ @' T4 e2 {
6, Models) X1 B) o" }+ ~) h$ Z
- P, i' q' V& t
目前就两个5 a; J" T. |& v" p- n5 }8 B
# deepseek-chat% p& G( {7 A1 J1 B
# deepseek-reasoner
" F- i# Y5 u1 q# Z
$ y2 B4 H3 J/ x) B1 o" z; t参考:
3 |: }7 j, Q! A4 y3 ]https://api-docs.deepseek.com/api/list-models7 Q: M) ^; T6 W! i2 r; p; j
8 z% s8 v$ D# T) O; J. v
7 r' v* A* U9 e+ \: B$ Q0 m7, 问题: R/ x4 [+ L, n
" W( M* _2 [6 |; t9 |
deepseek 会将前后两段合成一段。
7 @! n0 n x! k6 |; \3 t特别是那种大量的对话的段落,deepseek会给你合成一大段。2 V& ?( c, E0 ~9 T4 ^
- k0 y: s' F4 c. E* B* G/ r8 |8 }8, 钱说了算。3 {# Y, h! E1 ?5 R B
. E. Z) n! R, b+ _deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( L: L( V& ~+ Q: r0 x3 i
但是API就不会出现这种情况,毕竟我们给钱了。
, W& j; `6 w& K3 b7 Lchatgpt也是这样的。' y9 d" j) [7 z5 [, x; l* t2 {
6 p [9 j t. |/ _
5 I9 {* A' G$ {7 r$ o0 } |
评分
-
查看全部评分
|