|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
' D% T3 u! e1 L' G' [/ E) K( a6 ^: b [) R/ L' p
已经搞定.
% m- Q! j9 Q+ Y3 t) `: r' u) a6 m4 @' |+ m% Y
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。: \* O) k; _8 p; J6 Y# n$ t
0 \8 W! X4 m8 U/ z( @& H; X
1, python + pypdf 按章节拆分小的PDF* c, N" e: W2 e" R/ {" A
% T5 n0 R, x$ m! H, T5 ^2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile- \9 Y Z1 \* p6 C
: y" s/ j1 C* b1 L得到text file
! `1 K `5 Z- Q" n
. l) e. @( c* p0 N( K; f; }3, python 读取整个outputfile,丢给deepseek 矫正。4 |6 N7 o# k! Y# q P+ i) ~
! _3 h6 F2 b% W6 n9 o
模型是 deepseek-chat
. h, I' b8 N+ _; ?9 G9 P; j
. b2 u! a7 q% S2 z$ [1 t( Kmax_tokens 最大是 8192,别的不用改。0 z% e9 }5 n5 }& E
$ I! ?4 H d$ e2 y8 H3 ?- {参考:
# m/ |; D! R) A; l5 e! chttps://api-docs.deepseek.com/api/create-chat-completion
5 g' `* k& W2 z; D% F4 E' S2 W2 m: T' @4 X/ K% g* C4 a
4,费用:# G1 u- H( e1 Q& B; Q
- p7 O! R, _9 P5 `/ h实测:6 g1 D y; `5 j. t, }
% z0 c- Q5 \5 _/ V2 O- Z X
296K 字母,用了 9 美分。1 q( r; Q4 A* T3 I. L7 }4 q
2 W4 j& K# O5 ?% x j8 _2 ^3 i英文字母 到 token 用量大约 1/3
6 \! x9 n( A B5 [" X
7 z5 y7 @. E' H9 K; htokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899' D0 E8 f& K: T$ {+ j. K, O
( x' v3 p6 s2 ^6 [5 Y32899 个字母花费 11782 tokens,包含输入输出的 tokens( r0 ]$ B6 w5 ]+ m1 `% G6 B; `
" h1 g `2 V, A: \* h' ?价钱,非常非常便宜了。 P, Y6 e; H4 l, h+ m+ B
# K! ?+ N2 K, A6 o, m6 D
参考如下可以计算,懒得算了。" M% }+ D7 Q E7 G/ l# B. T, M, b
. }& Z3 N, h3 P3 I+ H4 q+ ?+ B
https://api-docs.deepseek.com/quick_start/pricing" r& z: L. @8 _& N0 A1 I+ V. \
- h! t$ N- X- D1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14* {5 q& X8 `) a0 c
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
A- A; _, t+ q& g5 G4 r6 `6 [1M TOKENS OUTPUT(5) $1.10 $2.19
: h2 G8 R9 J1 V
% Z5 E; A' n _; M5, Balance! t. P3 g7 a3 X' Q: P. V% @, b
+ F) P% v5 S& H3 D k可以在程序里调用,知道每次运行结束后,balance还剩多少。( @, x5 g& o. K; u
参考:
: M! f" e5 h2 Phttps://api-docs.deepseek.com/api/get-user-balance
; ~6 t& T* M( p; u3 i1 ~
" {& d* E, v7 L" B" \6, Models
4 Y a6 ^( y3 ?, i! F2 \5 I i$ M* W
/ U0 g; z7 B7 d3 g5 o" b- x目前就两个$ Q; c. \. `7 e [6 K/ J( i& d# e7 [
# deepseek-chat* B% f$ |5 I) @) R1 k: d: E+ \. G
# deepseek-reasoner: f* i( ?& y7 U
. e: l4 Z! x c* u! L' H
参考:
( K5 M! l; M7 S# ohttps://api-docs.deepseek.com/api/list-models6 w. F, _, e4 u$ r6 `/ Z: w$ ]
- Q* _/ e, ?- ]( a8 E$ x V! q( V7 ^# X! S/ g# Z! J) c8 h
7, 问题
( f l1 S4 I% {0 @5 E' {1 M( Q7 l6 ]2 G; I9 a* Z& p
deepseek 会将前后两段合成一段。9 `# r. Z. E1 O! g) ^9 k0 [
特别是那种大量的对话的段落,deepseek会给你合成一大段。
; ]7 \: x+ L+ A" k; z! H
5 T& N9 Y$ X/ f5 x( L8, 钱说了算。& M0 u- O0 a4 ?! `7 w" G! i% ?2 V
5 w, N; {! h- |) q1 G1 udeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
9 p" r7 Y$ P8 t5 a7 c2 Z但是API就不会出现这种情况,毕竟我们给钱了。
5 z' P% Y; ?9 D5 c% r" g7 f" O+ y7 bchatgpt也是这样的。2 b% c% E! c" W; l. n. z- C' h
6 ~$ v4 S1 t0 B2 t- E( @' T; t# e3 e& J6 r/ \! ?6 z/ m! p/ d9 _
|
评分
-
查看全部评分
|