数值分析 发表于 2022-9-24 23:04, K( b) t" {1 ?- o3 n
拉下来?拉多少?# z) ~0 u* R. ^% f' w1 C
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33# B u- f% S3 }3 D
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54/ [' k" L( ]$ D, r# G% C' V9 q
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:461 n9 h$ q3 _* Y$ r# U
有道理。# R( T1 J2 j) ^ V; f4 D
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20$ M0 y! F$ o, j# f1 Z) v9 h3 V
这个不是这么比的吧。。。
8 v2 c, c0 e6 V4 }$ x
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27' R$ p8 D* s, m9 R
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47% a2 j# x% |% T
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47. `, u0 a+ y. a; y* n
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);6 b; d0 X; m6 |
std::vector < float > vec2(N);
float* b1 = new float[N];* Y8 L* a7 K c" H
float* b2 = new float[N];' _( r# t8 R9 x
for (int j = 0; j < 6000; j++)
{
std::generate(vec1.begin(), vec1.end(), []() {6 I M" g6 x4 v" o) {0 _; H' E
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;+ {3 C; P! @/ @2 T' n" o
});
std::generate(vec2.begin(), vec2.end(), []() {* E) Y- C' i M3 A6 I" u
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});
for (size_t jj = 0; jj < vec1.size(); jj++)1 m# O( j/ d, x0 v8 x
{; O$ Z* b. H2 d2 Y8 R
b1[jj] = vec1[jj];3 \+ D0 Q8 S* q ^- N
}) V) T7 Y9 E( c3 e# D$ s" E6 `
& N: l4 T! G( T# m
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];
}
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);, q0 @+ P5 R# S5 f7 O
//Method - 2 N=100000 237s
/*0 [- {% y, ~' ?: `
for (int jj = 0; jj < N ; jj++)
{9 M2 k& t9 g7 P% w5 M8 m
fresult += vec1[jj] * vec2[jj];5 E/ z" g* }% l1 g! t b9 b0 O
}4 r5 N, [. I4 c4 Y# N+ T8 p
*/
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)# u+ Y% v. i9 E7 S# ~2 Q) S
{( g( A! x( F) G+ e" ^
fresult += b1[jj] * b2[jj];: |- T; T5 u2 k' |+ r4 y7 c0 n
}+ H+ V/ ]. E" i. R3 o
*/" r I7 [' C/ c! g
7 g( i0 b8 f- z. c4 k
//Method - 4 202s ` X: Y. a5 l* o+ ]# U- I0 W: a
/*
for (int jj = 0; jj < N; jj++)
{
}0 C0 `$ T7 ^, _ G
*/
//comment out all methods, N=100000 202s 5 H; H3 X- A$ a5 p' `0 E, f% ?5 w
}4 L# U( W- |# e
) T# i4 {( p% F8 M
delete []b1;. ]( b5 L/ e$ ?* z7 h, o @; y, ]
delete []b2;
机器猫 发表于 2022-9-27 00:15# _, L+ w& L) ?; n
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL2 _ E( z4 B- B% `; [
不和它 ...
雷达 发表于 2022-9-24 23:54( l3 p& S2 l$ X9 D7 b' N1 O5 F+ G
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{+ u; ^ A, n+ R" B/ j
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 1000009 j) G3 Q/ Z( t/ \ w, a
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39& H, G3 ]" D1 c" m% b
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)) Z1 C5 @( `7 f0 ]+ Z$ P( w
{6 W, ~5 d( H2 h+ P+ D
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |