|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
1 q6 A$ p2 W6 u) [
; y: h4 [" X8 e# E已经搞定.$ P1 m; d F. z* L+ N+ M. ]0 `+ U) }
- s8 O: h% Y7 r1 Z! V
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
* f$ x& w b$ r3 u7 ?" `! S O8 z: {
1, python + pypdf 按章节拆分小的PDF: h9 ^- [0 e( w. U; D8 I! X
& o+ h' j1 t2 y; ?: I6 `; ^3 s
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile& i Q1 V( O! G0 c% Y2 W8 u2 @+ p& E, l
; ]0 F6 X7 {4 A; N. [* I% v得到text file: }+ Y4 p4 g. A) o: V. b
2 n8 t7 K8 s9 U) L- w# i6 l: L3, python 读取整个outputfile,丢给deepseek 矫正。- Z& s3 S+ ]( D B y% F
& C3 l% B1 [) Q. u9 |+ a模型是 deepseek-chat
/ i* E/ {. ?6 N$ A, Z( S: r6 h$ F4 P" p/ m" q# j2 W8 X: k
max_tokens 最大是 8192,别的不用改。
8 p! J$ P2 B7 r5 |, N
% R0 x6 r# x) L- O+ h6 ~参考:
9 [, d' v! \( H0 Z* p; d6 Khttps://api-docs.deepseek.com/api/create-chat-completion
' P/ o4 a- h4 ~$ Q
0 \! y! H- G8 H+ h1 m& l$ L" ?4,费用: D' F0 r* k+ A g% z
0 T" c- D+ `6 K8 O
实测:- b( e. R2 W3 {
% A7 I) U8 q& m j0 [+ T296K 字母,用了 9 美分。
/ @4 X8 ^. s! V
, t% t) _8 T1 o$ `1 j& b英文字母 到 token 用量大约 1/3
. \* \ o$ A8 J8 z9 u) s/ C. f+ R) \% G1 x4 |9 M
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899& p1 v- T2 |2 v$ n7 U4 L
. D/ T' O! X" ]) @3 Q( G0 ^# b
32899 个字母花费 11782 tokens,包含输入输出的 tokens$ p! O/ X& I; F% m. c
9 l6 p m) z+ h& H( X' n+ E. n8 L
价钱,非常非常便宜了。
! d3 W6 _4 Y" M; u0 o: r# p! U" T( W8 |2 ^1 s* p
参考如下可以计算,懒得算了。
! P* U: |$ i }1 F$ Z4 Y% M
' v+ F/ S0 m! U* ]0 Phttps://api-docs.deepseek.com/quick_start/pricing
$ V! k. q7 ^$ b% X# l6 p' D! e/ T& w- C- w) t4 E) u
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
5 R" U" E1 a7 l) Z0 l1M TOKENS INPUT (CACHE MISS) $0.27 $0.55) |9 t1 S7 i6 O! W! i: b8 @
1M TOKENS OUTPUT(5) $1.10 $2.19& H9 {. r1 A- p) t- e# R2 S, P
! w+ g% \, v1 y- S
5, Balance
2 j$ c; ?- Z/ S; \
. i4 y! p6 e' ^0 ?: F- l可以在程序里调用,知道每次运行结束后,balance还剩多少。( }- C( R! Y0 H% ]4 x" M& Q0 s. y
参考:" I- |* z/ v9 R- @ A9 r
https://api-docs.deepseek.com/api/get-user-balance
' {& R. \+ O1 D8 X
9 h' L. y. p. Z) d% I6, Models
* Q. ]& j; v. Q ^8 H6 f4 Q$ T. ?- v# P! x: C
目前就两个$ G9 ~( V, u* B( h' H8 c
# deepseek-chat$ @: V% k/ r/ p, b% x6 y: o
# deepseek-reasoner V2 r: J3 R, G
) p$ ~) J) K) F9 O3 Q, L
参考:
5 F2 }. G3 q# `. M! b9 w% E" P. b2 Thttps://api-docs.deepseek.com/api/list-models
, f9 X4 T: \4 j9 X g) W7 G! {6 o) V+ {3 L# m8 C
/ w& a/ ~) b" X) ^
7, 问题
0 |5 B: k2 a1 D$ h4 C; f/ m/ P$ i0 w. {% e9 m. `* U4 U
deepseek 会将前后两段合成一段。
7 G, t* _ x J+ ?8 U特别是那种大量的对话的段落,deepseek会给你合成一大段。
, B( U/ M& S' I3 W2 `. [- c2 ]; g; l- M$ Y/ H
8, 钱说了算。$ @5 P9 G& R2 j* ?- [
% V3 n& X7 \1 T8 g9 V' e# y7 L: u0 B) ~
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
4 F) k0 }2 y8 B. Z; u! W但是API就不会出现这种情况,毕竟我们给钱了。& X% x, M" X- c* w4 O& ~
chatgpt也是这样的。
4 l# L$ {: a |+ N4 `+ c4 [& `- P |5 ~- O, g
3 w) l9 T& U2 e U% s8 B& N |
评分
-
查看全部评分
|