数值分析 发表于 2022-9-24 23:04' J- u5 J. q1 } e8 J
拉下来?拉多少?1 O9 |% l0 P1 e1 h/ R+ b+ v
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33) y6 I$ ^$ U1 [: i$ }0 }) }. ~
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)/ x, r6 l# J$ K- l2 V6 u7 h0 Y/ a0 Z# B
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
+ K. d8 w+ [( y
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:466 p3 A9 E# `: S' R
有道理。' h; j9 [0 U- ]) d, K
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:207 Q i" ] {6 j$ D D) D3 W! b
这个不是这么比的吧。。。* s2 S Z$ z$ M
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48+ y- q0 S3 i5 J( n$ X9 g
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47) n& N0 g A ]5 B
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];1 K# i$ o9 Y5 l# _; i, M
float* b2 = new float[N];
for (int j = 0; j < 6000; j++)
{
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;' x( \* p( t, E! l% W* L
});
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;1 v) R" g5 f/ ~" ]4 `
});
for (size_t jj = 0; jj < vec1.size(); jj++) i) O! [) m8 _; [1 X
{1 v: h/ v7 Z0 \7 |) ~+ t
b1[jj] = vec1[jj];: x- `( ?7 ^/ S/ {# d
}
) e n% ~5 f7 _3 I
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];" ^; ]1 Y4 X8 T( G
}( _! I+ l" Q% B
) s1 a* U1 v( U# x9 `2 l* P( l' h
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
//Method - 2 N=100000 237s+ _7 x" @" L8 }4 e9 Z9 o% m
/*
for (int jj = 0; jj < N ; jj++)% }3 e7 H+ _; n# @- Z& S9 p
{& h+ ] U! U% k- f4 `/ ^' [
fresult += vec1[jj] * vec2[jj];
}
*/, z* ^. Y9 v4 `; \# a3 ^7 e
* D# \; a/ ~0 t/ }
//Method - 3 N=100000 204s
/*$ Q/ s \/ W# q2 w! J6 ]( s/ H
for (int jj = 0; jj < N; jj++)
{
fresult += b1[jj] * b2[jj];
}
*/
7 n( T( f/ ]7 `/ a$ `. r
//Method - 4 202s8 Q |3 U5 h0 D
/*
for (int jj = 0; jj < N; jj++)8 X; n m& ~" \4 w/ L
{
8 M$ i# w# |& k2 a
}
*/) [, B" N1 s+ O Q6 U( @2 m4 n
//comment out all methods, N=100000 202s " x; K8 _& @+ ~4 B0 V
}
/ z( k1 K4 W M2 a
delete []b1;( ~. {; Z& O" d) G
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
5 L2 {/ A0 Z6 V/ q
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16' v, @9 u0 t& J: o9 r
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
不和它 ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)9 k' e3 w( _! J8 o) q; q9 Y
{& l* ^5 ~3 r8 Y% E
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 1000009 I; u, e K1 [+ S; S
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB) L; [0 i* o! [
{# c' X0 C: ^/ X/ H b# v2 z
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29$ ~, j+ I; H# [5 K+ u% b" J
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |