数值分析 发表于 2022-9-24 23:04' U. ~( V( q2 ^; F
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:338 J0 X% O) z4 X# l" J, T9 F
Maybe Debug mode?
雷达 发表于 2022-9-24 23:548 R2 O: x" L$ f S1 Q+ \' c
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{ d2 U- V, G/ B2 t. x7 S( C7 ?
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20, d% R" ] N6 g3 Z7 l+ U
这个不是这么比的吧。。。' z! k+ ?9 W( G/ @
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:460 U5 r2 `% H) P
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。; C1 Y. _2 k8 R' A. i8 \: R4 I
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27* g3 _! q; v. \9 f
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58: T( }; q7 p% Z: @
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];5 u' F1 x7 }$ B7 v! {
float* b2 = new float[N];5 _, p9 `/ J7 e: n
for (int j = 0; j < 6000; j++). B! N- v) y: p: A, Y) H
{! a0 e; z! _' ~6 U4 ~+ D! F" o
std::generate(vec1.begin(), vec1.end(), []() {+ t8 K8 F/ x+ N3 l% |
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
std::generate(vec2.begin(), vec2.end(), []() {( [ C x7 X& g# o! O" X
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;! R5 s( A) L2 |6 \- H: w' n' A
});2 e4 e4 X# B6 ]" R" k- c0 t0 k& @
& `* Z4 o/ G; `1 F/ K# V% R' a5 }( K
for (size_t jj = 0; jj < vec1.size(); jj++): f) D$ `, r& M9 V7 p' R! l8 `! j8 E1 z
{) h e6 b- H- R7 Q, k0 t$ g
b1[jj] = vec1[jj];
}; e" u4 _6 d: `) c3 i0 r
* l; p$ k# l2 m2 |+ T. R* ]
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];7 k0 T3 Z# }5 w7 k( X* C9 P
}) \' Q+ E4 O& h
//Method - 1 N=100000 247s " r" s# x3 u( \8 g8 z+ h Y M
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);5 J; E: ~5 Z# T& h
//Method - 2 N=100000 237s. m6 Q- |; ?9 L @" ?9 Y) }- J, w
/*
for (int jj = 0; jj < N ; jj++)$ S6 u* R8 `4 h$ d5 l7 m3 e
{& K* Q- a8 h' ]: i0 c
fresult += vec1[jj] * vec2[jj];
}
*/5 Y1 M8 n. h6 q. R e
. p2 h- B# |$ Y( K0 _- \( j3 X
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)9 L0 P4 @ Y" D
{' Q N7 w& S L: O2 m6 t& }, ], F
fresult += b1[jj] * b2[jj];3 x/ L% l9 I; j" B, _* I
}+ b, `; }- s" @
*/- R; T! o6 A* S- h* w P
% @2 F- |! X5 \3 h
//Method - 4 202s
/*
for (int jj = 0; jj < N; jj++)2 F( Y0 \) k7 F0 B
{
[, w5 \1 H% i8 n4 u, r
}
*/
//comment out all methods, N=100000 202s # r2 w% U7 m8 x5 G- }
} Y- l# c( w, ~- W5 m8 \+ K
; t1 F* e5 h; Q
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?' p0 z' z: o9 {6 B* E" I2 X
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:162 r7 H2 d i7 e$ V, _% j
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL5 a' l7 y4 `" @9 }# m5 b
不和它 ...

雷达 发表于 2022-9-24 23:54$ }8 n6 _! t, z4 L
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30' P3 D# v- m+ n! s. J# e! [( g
理了理思路,重新做了一个测试。; W; g) {9 t& C+ @8 L1 }
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB): D+ @( G7 [( Q/ e: Z4 Y
{+ {1 k7 ]( h, [7 J0 F6 n% R _
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:292 u; \! N* | _/ c
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
。

& j A( n2 `$ W4 [% q| 欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |