|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
1 l& X Z3 h, L0 `5 _/ l' I) o T l' ~! e
已经搞定.
i+ P: W) V% _, F( s! q a( L% r. k* b/ J+ N3 z; [
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
+ V. l8 h$ z n+ A# A7 }/ u5 K! Y; _2 n0 V/ C
1, python + pypdf 按章节拆分小的PDF
" t3 f1 C7 V& h, c8 C% C6 U4 c. j3 d( y `0 C; x
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile* s# v( P' j1 x/ J- S6 F& b2 G
! M$ Q- U; y, y. s/ v- V得到text file
5 h- v/ G0 Q% p# ~$ q0 ?/ Y# M, k, F4 x. i/ w+ X+ o! I5 C# [1 G" U
3, python 读取整个outputfile,丢给deepseek 矫正。
2 ~5 t4 A" u; z& k% T4 e0 _
+ d& }+ x' }' L' a模型是 deepseek-chat: K' [% u8 p) h0 R. S
- p7 e! W, n0 t4 ~9 F) X3 e; a. A
max_tokens 最大是 8192,别的不用改。
$ v5 h4 E* N# ~) I- H) i' I' E; }9 B/ b C& ?
参考:
8 C# {# A7 l7 O6 y3 @2 I* {https://api-docs.deepseek.com/api/create-chat-completion
8 ]% l" `' x3 f* I+ y
8 g5 S& s) B2 L7 W' l) K5 B: P: X4,费用:
* U% _1 z. \2 M7 D) `+ G4 T0 A; U/ j: V
实测:
! k* P, K1 ~; o# t9 f2 ^! v+ i' n& H% h
296K 字母,用了 9 美分。% T8 o. {8 s: Z! I# r2 {$ u
$ G0 ~. L9 H' _- u4 i英文字母 到 token 用量大约 1/3
$ X" p+ F7 q9 t3 u" n* M* ~% w3 E1 j5 G$ I6 y. f3 l: y
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328992 K# F0 o# `7 ?" N; X& o
/ [& p. u% Y6 r# R
32899 个字母花费 11782 tokens,包含输入输出的 tokens
$ Y( ]6 L8 ]3 \! F) X+ X7 s9 @
; j3 W' O6 l( O- Z价钱,非常非常便宜了。
G+ J, d- F+ t% c
; ?5 `* A) Y$ g& N参考如下可以计算,懒得算了。- Y2 h# _- N' j* R1 t, c
i$ S& V6 w0 S5 i: m9 v, |% Z
https://api-docs.deepseek.com/quick_start/pricing7 C% k3 z* a" h
6 M* c, t: V8 R& F$ f
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14* H6 R& O/ N3 R; Q; Z2 O: X
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55+ P J: W" a9 [, n; w4 j7 y
1M TOKENS OUTPUT(5) $1.10 $2.19
! H. y# ^, O" Z7 k' P9 q: G6 e* h4 w: y( E: W3 k; v3 u
5, Balance3 ]$ F% n) n$ k R
0 N) ^) U! ~% K4 z5 d" [4 t
可以在程序里调用,知道每次运行结束后,balance还剩多少。
$ S& M1 k# [, f/ h% }& o参考:: S+ C: x" f$ R7 d {
https://api-docs.deepseek.com/api/get-user-balance
6 ]3 ?0 k# m, B9 w% O8 B/ R8 Q* Q9 m( O. K; h
6, Models
: Y; _) _# O7 \3 o9 u- O' A( A5 s9 K6 \% j& t" N! P
目前就两个
1 j3 o/ X7 s- z' O) [ }- Z3 Q# deepseek-chat
+ ^; h0 J2 T( e, r# V# deepseek-reasoner+ W' |4 P7 e% v& m
8 B' K" @& w. o- j" } g参考:
; a/ ? F# t/ Q1 N! Mhttps://api-docs.deepseek.com/api/list-models' u8 ?. y/ M& k( z8 d% u
8 k) s( P r$ S8 g9 X. t4 q# c
) g5 v7 i& B" u
7, 问题7 u9 k) T: D- y8 A$ F/ J* V# }/ m
3 \5 h! z, f5 `8 Q- @
deepseek 会将前后两段合成一段。
7 C- o! r0 a" ?5 W' `特别是那种大量的对话的段落,deepseek会给你合成一大段。
# K/ [7 ]% i! d* [( @4 w! O, d" M% i1 ~
8, 钱说了算。
9 R) w8 ~8 c% l; v1 A
3 ?: S0 Z6 x' {' \4 Tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
* P8 [0 {2 ~# v: i. V( j1 n( h但是API就不会出现这种情况,毕竟我们给钱了。
# e& ]& K& c& ~( o" W# S' hchatgpt也是这样的。" B. F$ d9 N2 J
9 ~$ V" j. o% V% B
' O3 H$ @$ i1 C. ^* B4 Z. ~$ m0 C |
评分
-
查看全部评分
|