|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 1 o5 L% ~! |- g8 r+ d% s
; w, n' }( U/ r& j t E
已经搞定.3 D: l. E8 `6 d/ ~
- T* c* V; _) R
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。7 C$ P' c+ d8 q1 R
7 s; o+ H" W9 m) v4 N1, python + pypdf 按章节拆分小的PDF
4 ]1 ]9 |5 r- j2 }6 @4 c3 f
1 f3 B3 [$ @% D4 J& E2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
: T% ~- @. @: A! C
, J) f4 [! W- Y, c得到text file
5 `8 Y3 A/ h( E1 v2 z! x2 T7 m2 g1 j/ ?, p3 M# s F: c# ^
3, python 读取整个outputfile,丢给deepseek 矫正。6 ]4 v* n3 J) f
+ i1 m+ v7 g- I: g4 Y
模型是 deepseek-chat) A, h0 J8 k/ K; V, \
) n0 ?! }+ G( } q& @8 e% E2 G/ _max_tokens 最大是 8192,别的不用改。) s' {3 _- L: k/ e
3 x$ r# r' h& P& Q( |8 F* t# D
参考:
, t) O1 A' J! B$ f8 Z, Xhttps://api-docs.deepseek.com/api/create-chat-completion
* K* ~& Y O7 K6 \2 f$ I# X& H
- \7 E B) b" W+ r) [8 L- E2 R9 N4,费用: ]1 N; ~& P! Z4 G# u
$ b9 X( x& u6 R/ ^% u/ z( z) L* q6 {实测:
* a: ]$ J' ]/ b: f/ e, z: R; m8 h4 \$ R6 ^+ q ]5 u z
296K 字母,用了 9 美分。, H% R& a4 q8 F( U5 o& m- T
8 e% {+ E# A1 O8 n% ^: G# [
英文字母 到 token 用量大约 1/3' h8 o6 ?8 a! X
2 b6 R2 R! a" _9 @. I, w) z# xtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
% ?5 Y+ X8 K. X5 S+ s8 P3 r% I& l9 X) c' i9 k4 A: D) k
32899 个字母花费 11782 tokens,包含输入输出的 tokens
" n( s& W- z" E+ ]( m3 J( q+ L$ J0 h4 y& g8 m
价钱,非常非常便宜了。) l+ O: x2 I( [
. L4 T' Z" i5 \# m O. B: F/ f参考如下可以计算,懒得算了。
5 C1 f: E( S, f4 _( r
; W9 U5 n8 y; L/ Bhttps://api-docs.deepseek.com/quick_start/pricing* o( b. K6 b! j% L3 R
- a0 P; c2 N9 R9 _1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
! Z0 y# N. i# @' {' m, Y) n1M TOKENS INPUT (CACHE MISS) $0.27 $0.55( A) ~" m8 C S& V" \
1M TOKENS OUTPUT(5) $1.10 $2.190 O' k" Q7 p/ x. m5 Z. H7 \" _; ?
/ H3 L( v1 k! ]: S; `- w# i
5, Balance# q1 n) T2 c6 w" z
. H1 M1 ]0 E0 j* U6 y% i; b可以在程序里调用,知道每次运行结束后,balance还剩多少。" f1 m* ]9 r# i" E) t: ]' |
参考:% L, t. O- a- [7 {" W
https://api-docs.deepseek.com/api/get-user-balance" g' Z5 D: z. h$ R
4 s! @# x' R2 F0 _0 }6, Models
, E) r: u; T1 _
0 \& |) Y7 f) e& U目前就两个
5 U) x0 |, \" \4 A( j P# e# deepseek-chat# C3 |4 Z/ Y1 r7 U1 z
# deepseek-reasoner# D$ e/ w! p. a+ }+ H! W1 N
# {7 {/ K- }' a9 u: h参考:
% L( K, H7 M1 z# bhttps://api-docs.deepseek.com/api/list-models! a1 `. l% t4 W- }5 y
0 z7 v' Q% ^5 a0 ]% s& E0 J) x I( T1 q* r2 C5 M) I( `, g+ L) a
7, 问题
! t7 J# U8 G6 n' {& u7 N( R; @+ Z5 y2 ~$ D# K6 b* E3 {
deepseek 会将前后两段合成一段。
- m3 v' s, F# o. Y G' `9 |8 c2 D" _特别是那种大量的对话的段落,deepseek会给你合成一大段。+ I- P' F0 L+ J2 c1 y4 y
. Y6 |) }% x$ `0 Y
8, 钱说了算。5 o# U* {% _+ v) Y J
+ @& }0 o6 Y# `& S1 d. c) y& \
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
2 O( [9 o7 c3 Y1 D- E. y但是API就不会出现这种情况,毕竟我们给钱了。4 W4 `& c9 }9 E' v
chatgpt也是这样的。& P! R2 P( G2 A0 C% w+ f9 T
, f& e' ~: f, j5 T5 v' W& W( q$ r' K
1 r$ W4 M) h- y4 H0 Q |
评分
-
查看全部评分
|