数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?' y& q6 `7 I: [( d" X- [7 }6 r
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:207 _( a% ~8 D$ G G3 O4 i1 w0 ]
这个不是这么比的吧。。。! x3 N5 F( P3 a8 w- v M M7 j9 R
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:465 v1 ?& \+ G% H1 D! j
有道理。: D% B1 |# q3 j2 y2 c
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20/ ?( c: a- a! |- `
这个不是这么比的吧。。。, v) a8 D3 \/ n$ N, l+ v
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:482 T& |9 X5 T- F e- r8 [
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:272 h; C6 E; i @; h+ I: A
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47( ~ o0 X. E. \' Q$ E
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58& N/ p( M% [3 g# z$ d
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);$ L; J, x D; ^; O. Z
float* b1 = new float[N];
float* b2 = new float[N];
$ B. j' [: m/ `1 W# }4 p
for (int j = 0; j < 6000; j++)" ~0 p' E; u* ]$ v# P! p L
{
std::generate(vec1.begin(), vec1.end(), []() {5 o+ @/ z4 p9 Y7 w: O
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;# N( T h5 B2 K7 T0 Q
});9 [: C- T7 |" u& H, |3 N, ?2 b
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;9 F: s. T P% w' N8 Z# J
});
; z' S' p9 w$ V c( ^( t" t& e; j1 ~' \
for (size_t jj = 0; jj < vec1.size(); jj++)7 C4 x2 a4 U6 r1 }1 a
{
b1[jj] = vec1[jj];
}4 G2 g I. {- S. P3 f& S. {
for (size_t jj = 0; jj < vec2.size(); jj++); G4 o& h$ B' V2 W
{% r: o. G, h# J, G8 Z$ T
b2[jj] = vec2[jj];) D$ C8 b# ^3 `+ d% b
}
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);* w( c N3 H T: r. W% w
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)$ G7 V9 P- N$ D
{3 K0 _7 F7 o5 ^2 N) k8 B
fresult += vec1[jj] * vec2[jj];, N! |1 Q, j5 c2 G5 d5 ]
}7 n- O+ z; t6 X6 ?9 z
*/* O5 W: C/ f; j( j- C
8 H# ~+ }, s+ T
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)
{! k" y9 w. q6 c0 f
fresult += b1[jj] * b2[jj];
}: E: ^$ v0 U/ s' v6 W
*/
0 K3 e8 l) v6 x6 Y* k# ?9 q% [
//Method - 4 202s' ^" r3 l' T5 n- q" E" X
/*8 g* j0 }$ g9 a6 b+ T: q
for (int jj = 0; jj < N; jj++)
{
5 J* q) n" f. S- B3 P; Q9 E
}
*/% o; ?0 c) F) g* w* H5 ^
//comment out all methods, N=100000 202s / }2 K! L5 s9 S% S- E
}$ T" W- k! N" K+ r$ J- y
! \% n/ N4 |: i" B% O
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?* o0 W/ Q/ c8 y9 Q9 N8 p
: ?6 e& t6 o) @* f& p
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
不和它 ...
雷达 发表于 2022-9-24 23:54) J" e q7 v8 Q" r. u6 _0 E
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB); _1 N0 }! M! T8 m" q9 j
{: e* J8 y2 b0 n( ]' N6 w4 f
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30+ J% X* ]3 q8 c( q. J
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000' q% Q2 j+ ^) F6 H
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39! f! F! g5 x( ~0 s
这个时间是从哪里开始算的?$ V% L* D/ b% k: A
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:298 i, Z2 D! A q9 y
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗* s% z& B n* W% z
...
欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |