|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ( {6 r/ |0 A" ~7 v1 y* t
8 l9 z+ I/ g }$ Y: q
已经搞定.# S1 w# [+ D* a1 w/ b+ v# Z8 P! W
2 e' o& a3 J8 E& A$ t( Y
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
, m$ {4 r6 r, @2 e6 f/ W4 ]# U$ w( i: O4 | \
1, python + pypdf 按章节拆分小的PDF
; I9 [/ \# B8 s5 y3 u3 f* J( A8 o6 M' ?6 }
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile( J( T- w0 m; K$ Y* d
7 E" x% g$ L9 b1 J3 M2 s
得到text file8 n8 T( K. X7 [" T$ I
5 C& I$ h( C( J
3, python 读取整个outputfile,丢给deepseek 矫正。
: h6 W" |/ N- J$ H5 D* s0 ^9 G1 d% H) |8 O( s7 e Z! u
模型是 deepseek-chat
- V( j, s& ?" y% V8 ~9 v4 f# I) x0 @ y1 Y- B; ~" k4 i9 e
max_tokens 最大是 8192,别的不用改。
h2 y, k1 q+ M# M6 G* E' G0 H" J' S; } G; q c( g
参考:+ a( W+ Z* r$ [, d
https://api-docs.deepseek.com/api/create-chat-completion
' e$ N0 s9 H! \+ S
$ P: Q1 R9 R& n( k d/ \) t4,费用:8 ]0 U- E+ v( J- E
% x) T* t9 U' G
实测:
1 n9 V: ^3 L9 B+ E1 r5 b
; S5 W+ a+ u. c4 w* \+ A- l296K 字母,用了 9 美分。3 G% a* w" Y( u# h/ z6 j4 A- |; o
5 Q( ~+ Z9 ?# ^英文字母 到 token 用量大约 1/36 ~- \7 E; W2 O: A; w4 o" D' U
0 L: J4 B4 D4 ytokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
! F6 J: e6 Y; y' ~/ o' j
/ ?/ f; M$ t! j. ]9 W- n6 a32899 个字母花费 11782 tokens,包含输入输出的 tokens t' M# F% Q. s
' u! w6 m/ r2 O( c. {+ S
价钱,非常非常便宜了。# v" H; q3 {6 k
, u3 ^! a- M; z+ ~' Q& i
参考如下可以计算,懒得算了。
6 K r6 r0 z2 u5 }2 D4 c' i
5 r( E% o, V1 N4 a+ Bhttps://api-docs.deepseek.com/quick_start/pricing3 ^) u2 o' C& W8 y! \
! p8 @# w% [: N7 k
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14+ H: x- c$ }* Y. _" X) ^3 R! z7 K
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55! { F9 J0 [+ a& Z4 q4 Y3 I
1M TOKENS OUTPUT(5) $1.10 $2.19
4 J6 }7 E' U1 S. T+ {" T, P0 a _- N, F! e
5, Balance
8 w- N# ]" C/ D8 x4 G: e- v7 K% @5 {6 y( O8 Z! Z3 F0 Z2 ?4 o* S
可以在程序里调用,知道每次运行结束后,balance还剩多少。
9 P7 M* Q& Z( i' I参考:
; K. x; I% E- P* v+ nhttps://api-docs.deepseek.com/api/get-user-balance1 A, [9 I( f( p* ^5 R9 B
9 N! d' e, }: Y' I+ ~
6, Models# ]% g+ w& o0 H- \
% C% e8 g5 w. [) t8 f目前就两个
# P! y- m% z, U2 t- q# deepseek-chat
1 n7 ?$ ]: E: e' ~% S+ ~# deepseek-reasoner6 z* Z B8 h/ {* x3 r1 F8 r* i u
. G0 e# C; L# r( ^
参考:
" L6 y+ \ J8 Shttps://api-docs.deepseek.com/api/list-models% [6 w0 @1 Q4 z
/ T1 c* D# Z" g6 f2 n7 a9 H v' z6 `( e; p
7, 问题
" c0 T# B; A) L. W
. r+ I0 n! _- R- g9 [deepseek 会将前后两段合成一段。2 \: G! p/ m' _& z
特别是那种大量的对话的段落,deepseek会给你合成一大段。. |$ l# [+ r% x
/ F, }, P9 Z, `" J" B
8, 钱说了算。
% G. |8 E9 o: ?0 X" t+ }$ O I* H7 W2 B; m
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。/ f/ M( C( z8 ~$ a w
但是API就不会出现这种情况,毕竟我们给钱了。
) k8 O9 R O7 u9 k2 K, cchatgpt也是这样的。# K2 Z5 L# ]7 {; Y+ H
+ E. T8 E8 @& z: r6 `9 G
* e' j- K' Z1 \' q; [3 ?1 q |
评分
-
查看全部评分
|