|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
d+ W4 I3 Q" v3 n0 W0 _# J3 n" h; }( \. k8 G: U
已经搞定.
2 T( p5 f; y; f; ~3 ^: @1 p
, a. L% Z, J9 t, s4 R( k首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
$ n! M1 h4 K U% A0 ^6 \# k4 T
+ _# |2 K O9 h+ E9 Y* n! a5 k1, python + pypdf 按章节拆分小的PDF* k9 F& m4 ?' H& K4 r
4 b& G# |6 x6 z
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile! y U/ h# M( u& x4 u
: C+ m- x! o0 o3 d. z" N: Y( }得到text file
6 S) K2 J( H n0 b
3 E& {1 D. o9 R6 x6 S% |- Y( U3, python 读取整个outputfile,丢给deepseek 矫正。
; i' F5 f5 M8 g. {# v, e& J8 ?$ k; V% \
模型是 deepseek-chat
1 z/ n- i% U! X( f5 m3 Q6 U- C2 }( r/ o7 g- x ~' q$ @% o
max_tokens 最大是 8192,别的不用改。 w: i+ N4 v% ^5 j4 g% D& O' x* g
: q0 h4 G: x; E) \- O参考:% U+ D* ^7 [; F {4 y: M
https://api-docs.deepseek.com/api/create-chat-completion
" {! K- @0 o& r
. s8 e3 i+ i @4,费用:# Q) s* P+ m6 B' a0 @4 ]
0 c8 R; ^" w: p$ N
实测:- ~- O; f( b, M
4 {5 C) ?! I: }5 }5 Z- I
296K 字母,用了 9 美分。
6 i+ c! |# _9 ~! r
0 u' [) F9 Q5 X$ ~ d英文字母 到 token 用量大约 1/3
$ T% y D0 z: Y# |" a# l
$ r6 z6 j7 y$ L9 ?tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
# L& k8 p9 O! M9 K
! j/ B% q; U3 l, i! A3 G7 M32899 个字母花费 11782 tokens,包含输入输出的 tokens- X/ T) b' c! \7 q
" f! p7 R: d. M; w" X* v% [
价钱,非常非常便宜了。
* T6 `0 a/ X" a1 ^0 d' l; `
; s& a. Q9 Y w7 Q4 C参考如下可以计算,懒得算了。& u: f& \7 |( {% z# p
1 E8 ~$ a. e$ E$ A4 h% X: hhttps://api-docs.deepseek.com/quick_start/pricing# i2 M r, C+ Y2 W
2 P4 C! S/ N& I H* z1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
, K# F0 l" x. c1 K |1M TOKENS INPUT (CACHE MISS) $0.27 $0.55/ ?* ~( B& U! [8 ^" i$ {
1M TOKENS OUTPUT(5) $1.10 $2.19. _. k6 l% O. f
9 v( Y, c; M/ P, E& b+ ~
5, Balance/ ^; p- G( U! v) S$ a8 v
, M X( ]; k b可以在程序里调用,知道每次运行结束后,balance还剩多少。
. n: w ~/ E( l* o& _2 e% R- Q" i参考:
' V1 e8 q: P1 W, d. E, m3 \https://api-docs.deepseek.com/api/get-user-balance! e% ]5 m1 s2 G' A/ b( M. A2 d
1 o2 B( R5 s) q( y% b% [ \5 e/ v% B1 D6, Models
" p6 s6 t6 q# n' J" o! w/ u- \. G: g* O( W' J8 T
目前就两个
4 L- O6 R* n% ~ i# deepseek-chat
. T, L: t# w9 |+ g9 b0 d5 O: T# deepseek-reasoner
# E/ o4 v! r/ g2 x* m, k7 I8 U p
' S0 I7 n/ K1 u+ ]% v; ~0 Q参考:( O: Y6 v# }2 T# \0 P: w9 D, @
https://api-docs.deepseek.com/api/list-models- l7 V6 o0 x9 y& @
$ J7 }+ K" I1 m* P! ]
# o% I3 h& ?% _7, 问题
# ]* X% ^' q6 Y0 Q9 b' w$ U6 b: m" U( r. [7 o% u. ^- I1 \4 `5 ?4 Z
deepseek 会将前后两段合成一段。5 @& x, m9 M. v
特别是那种大量的对话的段落,deepseek会给你合成一大段。9 L3 W$ J/ D9 h# f
& }" S" g% C2 ?, l( j8, 钱说了算。, s: a4 r. k+ q2 ~. d
; N% \* H# H. Ndeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 i' ^5 r- ~ l4 Q, K( P: Y
但是API就不会出现这种情况,毕竟我们给钱了。
?! a4 k! F y+ t, fchatgpt也是这样的。
- @& L# e. i, Z/ s4 @7 ?) q0 s! A0 _, f7 J# i; U C% g% l$ o
J3 }9 D, T# G3 }" z
|
评分
-
查看全部评分
|