|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
) Q2 p% N# e! G! Y" v
; L$ g1 \" ^. o8 j: F; r! I已经搞定.
$ @& k' N9 x1 z' q6 m/ C3 \( c2 I1 g: [5 {5 u
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
7 Q9 r, M1 @: @1 z1 {! P- U
; J- y3 n) e6 b% X/ d ~6 A# c1, python + pypdf 按章节拆分小的PDF
; y% o1 `( N2 x$ z+ T
+ W9 R ?% V9 f3 Y- C9 T& [2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
3 F' ~% X2 n' G8 j; S
3 m: S1 X) C0 s$ n% \3 S1 I4 c得到text file
: [9 S8 v+ K5 z$ |- \7 \0 K, A/ l$ L# K W
3, python 读取整个outputfile,丢给deepseek 矫正。
# x8 A2 U* t+ \9 m6 Q5 @8 @4 G3 Z% `8 q$ M
模型是 deepseek-chat1 v- \. W9 d9 J8 l% @9 U! _
/ t& J. [, g8 b! z2 u
max_tokens 最大是 8192,别的不用改。
) b$ g4 R: U$ N# i1 X. g) D# n
$ l& z% r; K7 S% ]8 M! m/ L% \, N5 E; V参考:' ~: s9 }9 G! ?- e6 J
https://api-docs.deepseek.com/api/create-chat-completion! \- ]% ^" e& u$ D+ u5 e" n
+ A3 @: ~9 m) U$ k! l4,费用:
5 ?$ [" t; B8 H* H T9 F7 J1 K" d N
实测:
8 a& Z# r. v. Q1 }4 R o" \3 v* F* }0 _% B3 n5 s! N4 Q
296K 字母,用了 9 美分。
: L2 l" U& G( r- W5 ^2 k: |$ ~' T: S: q- |9 b/ Y" S: b
英文字母 到 token 用量大约 1/3
+ T( ]5 l& U4 _- h: ?/ j2 t9 O% @/ k; D) y9 e: L4 e& m6 z
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328998 @. {6 |) v, _4 K) L" ]" u
5 p2 A( p( u6 Q# c$ K. I
32899 个字母花费 11782 tokens,包含输入输出的 tokens
, s& n* q' s0 k9 f) R' J( L! F. l0 y9 t" x( M
价钱,非常非常便宜了。
7 s! f5 f7 x" c" K( [# I
3 k3 z2 v+ ~. A' ?1 x- R$ b参考如下可以计算,懒得算了。
) b- ?5 e# c( Y# w! l7 C+ r% h$ w
( L* F" a& S$ x& n5 @# s6 J, g; Chttps://api-docs.deepseek.com/quick_start/pricing7 j+ r* c1 R3 l. {# \
, l G) Y! o8 R. ^& Z+ q1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
0 T+ y8 _- |( c2 W1M TOKENS INPUT (CACHE MISS) $0.27 $0.55; K1 i5 @( Z5 n$ A
1M TOKENS OUTPUT(5) $1.10 $2.19 b7 \; i/ t9 ]3 x9 h/ U
7 F2 K( c n$ X/ h( r& X+ Z5, Balance
* v0 V" S8 p4 `% f4 ?- w g) j# l+ S# |. _- s
可以在程序里调用,知道每次运行结束后,balance还剩多少。
c4 o1 {" f" q$ r( {# g参考:
( y K2 e7 I/ K Phttps://api-docs.deepseek.com/api/get-user-balance
1 ?5 N1 ^4 x0 n( F* y+ r. Z' A8 v* D& P8 @
6, Models! ~) b: T2 E$ w ?- {7 p% t2 K" F
# n) V7 r6 B# m+ }
目前就两个
- [9 E+ q. m7 _# deepseek-chat
' G3 b; M5 Z. E# deepseek-reasoner) |# |. p/ w. R& l0 Y) X( d. F
3 u+ U( |% ]0 }/ G9 B) s, y
参考:
. Q; e, f& q1 b2 \) C3 dhttps://api-docs.deepseek.com/api/list-models5 I1 \2 z" t$ r4 K& E8 o* z
- W) B* Z+ m- u; T8 a0 _6 E9 _- U' d" k! L) B9 Q, S) S
7, 问题
, v' C+ N1 T. `& T
& p/ i8 H/ U% n. `4 |7 n+ Fdeepseek 会将前后两段合成一段。
& e5 W) ~2 o: b: F6 }特别是那种大量的对话的段落,deepseek会给你合成一大段。8 ]" n& n u7 N
. o& @( ?) Z/ K) d. k- r
8, 钱说了算。
- G4 v" d' h( C4 _3 K6 A5 {( k8 f |
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
8 _! I3 A p/ c! K4 }. y6 g# Q0 D但是API就不会出现这种情况,毕竟我们给钱了。
, X: j) \2 f c" Wchatgpt也是这样的。
( T6 ]8 ]/ O) @* A; m7 c5 p7 u0 {+ c0 y5 K! w% |# I/ ^* @
6 X: ~% ^; U1 K; m
|
评分
-
查看全部评分
|