数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?3 Z) D0 o" D0 N: @7 I
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{7 g0 h8 w+ m0 N) o( }* @
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。( }+ u/ B4 E9 O# p+ f) k7 [& l0 y
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46! X3 o) |: J: t
有道理。* Q1 f, ~9 B( n+ p
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
+ X5 N/ L1 _ Q. F% _9 U+ x2 J4 E
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:480 z9 O# N4 |& g; l; ~0 U$ z
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:274 \2 h. d" ]$ _
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58) K; U8 K( i& i# M! n0 {5 y, v2 B
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);: c @7 s- X4 N; ]0 c& r* S
std::vector < float > vec2(N);
float* b1 = new float[N];
float* b2 = new float[N];
for (int j = 0; j < 6000; j++)
{
std::generate(vec1.begin(), vec1.end(), []() {0 ]8 z5 @* h# J) y
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;: P6 x9 P& i: g4 f! o
});
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;2 m9 b8 H+ f; R( k4 N2 M
});, ?, H* V8 H( f* k& u
: m( ~2 [- `! u7 [
for (size_t jj = 0; jj < vec1.size(); jj++)! V& f+ d0 M$ D1 f
{
b1[jj] = vec1[jj];/ I- {9 J6 x; B
}
2 n* Q% a: O5 |/ ^) w5 c/ ]5 e
for (size_t jj = 0; jj < vec2.size(); jj++)
{/ ?: b( o& e% L
b2[jj] = vec2[jj];, m c& q4 s0 f( W! }6 y5 i- Z$ D L% p
}0 x* [( W7 u" a: t" P
/ N- m# S5 o! v6 z
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);( [# [* N- W8 x: p+ p x; d
//Method - 2 N=100000 237s6 a! h6 |% E! o: i
/*
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];* s6 V2 o- T8 n3 f
}
*/4 I4 l) J( t; X2 v+ Z
//Method - 3 N=100000 204s: x/ a0 y4 X q. a' c. k" s- R
/*$ J1 B/ ~& M7 J2 e2 R) n' }( O
for (int jj = 0; jj < N; jj++)4 z+ x# D1 V, o& k- p( }
{
fresult += b1[jj] * b2[jj]; M, ^8 i) D) T; [
}
*/
//Method - 4 202s
/*
for (int jj = 0; jj < N; jj++)/ a$ T! g3 ^* p
{
}+ Y( P& G( L2 K& ]
*/
//comment out all methods, N=100000 202s
}
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL% ^* u) K1 G' J. ], L+ X( p
不和它 ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{& t$ T3 G+ L" Y( |; Z5 J/ _
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:309 F- q4 e& C: [5 a/ `1 o! b C; b# ^
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39* v, \+ s3 R$ z1 x; j$ m g
这个时间是从哪里开始算的?* X( }( H/ G8 V4 M c3 u- N
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:543 Y1 x! d6 T$ r$ e6 Y
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)) b0 i/ J F7 L
{- m1 N8 a) r5 N0 E5 s
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
2 Z7 Y8 N3 ]6 u. n2 u" E
...
欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |