|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 0 a& Q2 C0 {! K
: u z9 V( d# s( X3 X已经搞定.3 O3 ?" r+ C5 S! i
' P+ P7 n( B9 M+ \8 b: |首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
% n1 `8 ]. k9 m. V7 J% @
# h- E7 I" I1 e7 b) p/ P1, python + pypdf 按章节拆分小的PDF
. T) |1 q. I# i8 N6 O3 K) a: R+ v' l# t& I. I
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile7 s! ?1 ]1 a& e) N: R% B) C Q
- s% D+ S/ I y得到text file
+ _8 r) J3 _2 J9 l: v6 r1 ~7 B/ v1 t6 G1 l. r" ?% A
3, python 读取整个outputfile,丢给deepseek 矫正。
) a- h7 v* h* G& M# c, v. L: E* C+ T2 E# `) f- I, k$ {$ z
模型是 deepseek-chat
* z+ Y9 K) s1 u ^& d1 R! r- T8 j; X* U. v' c$ g4 l( J8 l
max_tokens 最大是 8192,别的不用改。
$ G& x1 f" \- [% K5 o
* ?8 P. ~. z$ i" _9 v" u$ Z$ P参考:+ K* m D' s# G7 ^
https://api-docs.deepseek.com/api/create-chat-completion
; g/ ~ ^, J' K4 Z
* ]" c3 M% J6 _: a' F8 B) A4,费用:8 {# q1 t4 W2 l! J9 d
, L( A" u2 q4 U+ x实测:+ L M9 Q/ K; I4 L8 X, d
: S9 q8 F3 s$ w296K 字母,用了 9 美分。( U4 D1 E6 c h; P: v
# }- k$ X8 w* y英文字母 到 token 用量大约 1/3# U$ k1 P9 w( d
( l1 g2 |5 i$ K k7 I1 y
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899. x1 x" z7 Y, m9 w
8 P$ r+ ~# ?! `7 u6 V9 k32899 个字母花费 11782 tokens,包含输入输出的 tokens
* U1 a7 H" N& E7 e3 t! j+ n5 i2 x6 K" X) S
价钱,非常非常便宜了。+ t9 _9 Q; S8 H* f
1 v/ ]( f) N4 j8 g# n. S8 e; C
参考如下可以计算,懒得算了。9 Z3 _2 Q/ l1 o& D) h ]6 f; E
) m5 {' t( P, a% u( V* ?' U% B, @1 \
https://api-docs.deepseek.com/quick_start/pricing
7 r5 l" I+ a1 u9 z5 O- J6 R
+ G/ R! S, q, m2 N6 L+ g5 z1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.145 o) s4 x8 C x% R7 o: G# y' W
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
6 c- k. F+ d- c" c1 I. l) }$ l( G1M TOKENS OUTPUT(5) $1.10 $2.19
; v$ w D! a K9 }) u" L9 Z2 n2 W" D; y7 X
5, Balance8 q3 h6 d# K8 [( R( J( }& L2 I
( [2 a: M t' L( Z( d可以在程序里调用,知道每次运行结束后,balance还剩多少。& q$ w# @! Q" [/ `
参考:
6 u/ c/ A: ?( ]' e. f; j& ` qhttps://api-docs.deepseek.com/api/get-user-balance. B! v A, |& `) b8 w* R. }0 e
; f3 D6 ^& g. H h# b
6, Models' R. k* p- T) Y% H
2 I5 J" M B$ J1 v! d4 q5 j目前就两个) y* E# N& @% V2 ~8 B. ?( a
# deepseek-chat Z3 M: N Z4 z# n: D
# deepseek-reasoner$ x A% c7 M, ?8 J1 k
c; M1 A7 z0 b# j+ S _9 T3 o; h参考:
8 m+ |6 @9 i; Q6 d5 e- @/ Ihttps://api-docs.deepseek.com/api/list-models
7 {& U6 Q5 a' T
' W4 i9 o! Q7 n9 Q3 o- p: ^0 [; m! A+ e, s9 U
7, 问题
f1 O3 X3 W- `8 P" a0 U
7 k" E7 ]$ O6 @# Udeepseek 会将前后两段合成一段。; Q4 T. b& s" o, e
特别是那种大量的对话的段落,deepseek会给你合成一大段。, s& j0 |5 ]8 r1 k4 S- T
* j& }. J0 O0 B2 M# Y4 s8 @/ o1 s& w7 k
8, 钱说了算。2 @' }/ G+ R( y; d3 m! t! u6 z' `7 Q
0 C- p9 H5 {# X% R4 o% ~deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( z: I/ _( _" h& G9 o. V. i
但是API就不会出现这种情况,毕竟我们给钱了。/ M7 h: P4 z- R2 H7 \- b
chatgpt也是这样的。
$ i2 F/ z( c! ]* _8 S
+ y; A6 _* [5 a& H8 }: C4 u6 ]2 `7 Y2 o+ |! U
|
评分
-
查看全部评分
|