今天是中国超算界扬眉吐气的一天 - 第3页 - 日志随笔 - 爱吱声

看客发表于 2016-6-21 08:55:37

沉宝发表于 2016-6-20 23:26
集群因为网络时延，对紧耦合的问题还是不行吧？除非算法上有突破

时延的问题，裸奔说的infiniband就是解决这个的，infiniband是RDMA的方案之一。
超算和集群同属并行计算，在算法优化上有许多共通之处。

江城如画里 发表于 2016-6-21 09:05:19

看客发表于 2016-6-21 08:55
时延的问题，裸奔说的infiniband就是解决这个的，infiniband是RDMA的方案之一。
超算和集群同属并行计算 ...

争论超算和集群，我觉得有点像争论内存大了是不是硬盘就没用了，这两个用途不一样。但就目前来说，SOC内集成的cache访问速度是任何ＲＤＭＡ技术所不能比的，所以对于追求性能的解决方案来说，超算的ＳｏＣ内信集成众核的方案恐怕是不二选择。集群的另一个缺点是，无用功耗太大，因为单个节点都能自己独立运行，这也势必导致有些可以共用的东西要独立存在，这部分冗余就构成了多余的功耗。太湖之光证明了现阶段做出千万核紧耦合超算是现实的，但是集群技术达到千万个核，还要解决更多的问题，不说其它，单就一个耗电就够行业研究一段时间了。
当然我并不是说集群没前途，这是追求指标不一样。超算因为要性能，当年ＣＲＡＹ连导线的长度都要一毫米一毫米的计量，但这样成本上目前还是问题，另一个问题是超算从扩展性来说，暂时还不如集群灵活。
所以目前阶段，两个技术间没什么鸿沟，超算中也有使用（包括神威）集群常用技术的，比如ｉｎｆｉｎｉｂａｎｄ。而集群的单机也一样在设法提高单机的核数。
这个争论更像是说，如果内存能够持久数据了，是不是就不需要硬盘了一样。

穿着裤衩裸奔 发表于 2016-6-21 09:20:41

江城如画里发表于 2016-6-21 08:54
这证明了集群的思路不如超算了吧。太湖之光，单个ＳＯＣ是２６０个核，单卡是２个芯片，单节点４张卡，共 ...

Infiniband都用上了，还说什么紧耦合呢。
200多个核一个soc, 核有多大面积可想而知。cache本质上就是静态ram。随便找个处理器解剖图就能看出来这一块是非常大的。以alpha的水准，充其量支持2m上下，再除以200，每个核平均也就10k，这么点cache连5刀的arm都比不上。所以只能跑很小的工作集。

再加上你要让200个核共享cache，就是要做一个200个口的多端口ram外加仲裁逻辑，而且这个ram速度要达到处理器主频的200倍，靠谱吗？你有没想过200个核同时跑memcopy有多欢乐？

不客气地说，整一堆intel加nvidia,秒掉这个超算是分分钟的事。

还有，现在所有的高速信号长距离传输技术都是8b10b serdes，就是usb 3.0用的，没啥先进不先进的，

看客发表于 2016-6-21 09:33:32

江城如画里发表于 2016-6-21 09:05
争论超算和集群，我觉得有点像争论内存大了是不是硬盘就没用了，这两个用途不一样。但就目前来说，SOC内 ...

只是解释沉宝的问题，没想争什么。
分布式集群与超算应用方向和范围不同，不完全可比。像各互联网公司提供的云计算这样的分布式集群，包括12306和淘宝这一类，吞吐量是更重要的指标，而超算排名好像不算这个。
SOC集成众核当然好，但就如你所说，这相当于cache层面的东西，跟RDMA没什么可比性，不是替代的关系。理解RDMA的目标需要理解并行编程模型。并行编程总的来说可分为两类，一类是共享内存的，比如MPI，超算应该都是这种吧；一类是非共享内存的。RDMA显然是要解决大规模共享内存并行编程时的时延问题。
超算可以作为集群的节点，比如谷歌云中的阿尔法狗；但反过来不行。
我们说的好像没什么冲突吧

江城如画里 发表于 2016-6-21 09:41:01

穿着裤衩裸奔发表于 2016-6-21 09:20
Infiniband都用上了，还说什么紧耦合呢。
200多个核一个soc, 核有多大面积可想而知。cache本质上就是静态 ...

好好好，没意义没意义。您用ＵＳＢ３．０＋INTEL的ＣＰＵ＋Ｎｖｉｄｉａ分分钟秒掉这个93petaflop/s的超算。我特别拭目以待，如果您需要捐款，尽管说，看好您。

江城如画里 发表于 2016-6-21 09:48:04

看客发表于 2016-6-21 09:33
只是解释沉宝的问题，没想争什么。
分布式集群与超算应用方向和范围不同，不完全可比。像各互联网公司提 ...

呃，从本质观点看，本来就没什么冲突。其实说到底，都是一个节点和连接问题。集群方案更看重单节点的独立性，力图用现有的技术（基本上就是PC技术），通过水平扩展提高计算能力，超算方案则力图突破现有的ＰＣ架构，比如使用交换方式而不是总线方式做连接，提高效率，降低功耗。
我个人更看好超算的思路而非集群的思路，可能是因为物理限制的原因。人体那么多细胞，单个细胞是无法存活的，靠的是多细胞合作，完成整体功能。这样的优点，是在完成功能的前提下，其功耗够小，每个细胞不用关心与它自己无关的部分。而集群的思路不是这样的，每个集群节点通常也是一台完整的计算机，这有好处也有不好处，但是从功耗角度说，无疑有不少无用的能源消耗在本来可以公用的部件上了。

穿着裤衩裸奔 发表于 2016-6-21 09:50:42

江城如画里发表于 2016-6-21 09:41
好好好，没意义没意义。您用ＵＳＢ３．０＋INTEL的ＣＰＵ＋Ｎｖｉｄｉａ分分钟秒掉这个93petaflop/s的超 ...

好啊，不多要，就20亿人民币，你一个人出

老马丁 发表于 2016-6-21 09:54:09

top 500, 中国有167台，美国165台，算下来其他国家168台。中国还差其他国家一截，要继续努力。

江城如画里 发表于 2016-6-21 10:05:19

穿着裤衩裸奔发表于 2016-6-21 09:50
好啊，不多要，就20亿人民币，你一个人出

行，真来２０亿人民币您做不出来怎么说啊，不需要您真的分分钟做出来，２０１８年美国能源部计划要上更牛的一个超算，在这个时间前，20亿，您用ＵＳＢ３．０＋ＩＮTEL的CPU+nVidia做出一个跟太湖之光性能一样的机器就服您了。要做不出来呢？您也画个道呗{:190:}

tangotango 发表于 2016-6-21 10:15:56

老兵帅客发表于 2016-6-20 22:05
也就是说，必须有全套源代码。假使这点成立的话，少数民族问题就不是个问题了。

另外，巨大物理机器里面 ...

超算通常是为科学计算服务的，没有什么科学计算任务是需要在windows下跑的，只要兼容Unix/Linux就行了。

赫然发表于 2016-6-21 10:29:16

老马丁发表于 2016-6-20 20:54
top 500, 中国有167台，美国165台，算下来其他国家168台。中国还差其他国家一截，要继续努力。 ...

哇，火星哥，你的算数水平突飞猛进，令人刮目相看！

当公知非你莫属！{:222:}

江城如画里 发表于 2016-6-21 10:59:06

不跟@穿着裤衩裸奔兄弟逗乐了，呵呵。说点正经的吧。
这个太湖之光的好处，可能最大的意义在于，告诉美国政府，限售INTEL的CPU没意义，可能反而有坏处。因为现在这个申威处理器，才65nm的工艺，从制程来说，够落后了。据说下一代正在改28nm，期待还会有巨大的提高。也就是说江南所至少证明了，搞超算的话，并非只能靠着INTEL的技术。
我反过来站在@穿着裤衩裸奔兄弟的立场上看，咱们也不能全红裤衩。这个头名意义重大，但不是说没缺陷。就我目前认识到的：
1.这个机器的HPCG指数不够高。
创了纪录的是LINPACK，但另一个指标HPCG，不如天河，甚至比日本理化所的K computer还低点，排在第三位。这就对于应用范围有了一定的限制
2.以Green500计，也不是最好的，同样排在第3位。
所以整体来说，这是中国超算的一大步，一来能够告诉美国，禁运CPU的作用没美国政府想像中那么大，二来，也启发了学界，通用ＣＰＵ＋ＡＳＩＣ思路可能是超算的未来。
但是这同样也是万里征程中的一小步而已。按计划，美国能源部在２０１８年要实施２００Ｐｆｌｏｐ／ｓ的新机器，如果按７０％效用，就是差不多１４０Ｐｆｌｏｐ／ｓ，又会超过太湖之光。
这场竞赛，也是人类智慧的竞赛，只有你追我赶才更精彩。所以，不止为江南所喝彩，我们也同样要为国科大团队和美国能源部团队鼓掌欢呼。

穿着裤衩裸奔 发表于 2016-6-21 11:07:26

江城如画里发表于 2016-6-21 10:05
行，真来２０亿人民币您做不出来怎么说啊，不需要您真的分分钟做出来，２０１８年美国能源部计划要上更牛 ...

你还真把超算当火星科技了？
超算这个行当式微就是因为没需求。那个infiniband也不是啥先进技术，都出来10好几年了。一个lane比usb 3.0也没快多少。
20亿做这个项目肯定是没问题的。你要用usb 3.0也行，Host/Device Controller自己设计就行了，再买个3.0的phy，往大了预算也就5m$。其实就是订做个高速网卡，不用把你愁成这样吧？{:187:}

20亿做不出来，上刀山下火海。。。你说怎么样都行
到你了，您那20亿呢？我先去磨刀。。。。。{:191:}

穿着裤衩裸奔 发表于 2016-6-21 11:19:45

江城如画里发表于 2016-6-21 10:59
不跟@穿着裤衩裸奔兄弟逗乐了，呵呵。说点正经的吧。
这个太湖之光的好处，可能最大的意义在于，告诉美国 ...

兄弟你误会了，我不是说你这个超算没技术含量，或者没意义。我是觉得集群比超算更有前途，而且超过超算并没有太多技术难度。
集群已经在业内应用的很广了。这个东西主要工作量还是软件，不是几个FLOPS.

江城如画里 发表于 2016-6-21 11:25:19

穿着裤衩裸奔发表于 2016-6-21 11:07
你还真把超算当火星科技了？
超算这个行当式微就是因为没需求。那个infiniband也不是啥先进技术，都出来1 ...

没没没，真没把超算当火星科技，不至于。我跟你主要的分歧还是在于你觉得超算没前景，我觉得超算是未来，如此而已。我是感觉集群的方案在未来功耗和绿色环保上势必要撞墙，真正的解决方案还是像超算一样突破现有PC的架构，通过SoC众核方案提高计算能力的密度，通过使用交换而非总线架构提高各节点的整体效能，通过共用基础设施（如智能电源等等）进一步减少能耗。
我总觉得，虽然不是说未来的计算机一定要学人脑，但是人脑现在这方案似乎是有一定的道理的。

江城如画里 发表于 2016-6-21 11:32:48

穿着裤衩裸奔发表于 2016-6-21 11:19
兄弟你误会了，我不是说你这个超算没技术含量，或者没意义。我是觉得集群比超算更有前途，而且超过超算并 ...

嗯，这个讨论我觉得挺有意义的。我的看法是这样的，目前各大云计算厂家，都已经开始在能耗问题碰墙了。IDC存在的毛病，一个是电费问题，一个是冷却问题，都显示似乎集群方案有一定的毛病。您估计也知道OCP，为啥要搞呢，如果看OCP，这不就是一种廉价的超算方案嘛。其实OCP我觉得就证实了，完全的集群方案不经济。
另外，随着深度学习越来越流行，向量化计算的比重越来越大，在集群方案中，向量化计算多数还是用ＧＰＵ来做的，但是ｇｏｏｇｌｅ现在开始搞ＡＳＩＣ方案，MS和百度在搞FPGA的方案，这都说明现有的PC架构，并不适合未来的深度学习。而超算在架构改进方面的探索，至少是选择之一，而且我认为是有希望的前路。

穿着裤衩裸奔 发表于 2016-6-21 11:49:38

江城如画里发表于 2016-6-21 11:32
嗯，这个讨论我觉得挺有意义的。我的看法是这样的，目前各大云计算厂家，都已经开始在能耗问题碰墙了。ID ...

说穿了这个是如何在软件和硬件之间分解设计的问题，假如说半导体技术撞墙，那要多核加手工优化算法，否则还是傻快赢。从中国目前人力资源成本来看，我觉得傻快会赢。找100个程序员，其中有一个懂得优化分布式算法的，就算烧高香了。

更何况美国的能源成本是中国的1/3，土地价格更是便宜到死，他们的集群发展会更快一些。
fpga开发效率非常低，一个pci core，都要编译5分钟。如果不是有很大的需求，基本上没有人这样做。

从业界发展历程看，所有做特殊架构的厂商，都活得不好，比如dsp大户ti和adi，freescale，Intel这个做傻快的成了大赢家。而且Intel大概4年前就出了带pci-e非透明桥的志强，功耗20W。连infiniband都不需要了，这东西做通用专用都行

看客发表于 2016-6-21 11:57:00

江城如画里发表于 2016-6-21 11:32
嗯，这个讨论我觉得挺有意义的。我的看法是这样的，目前各大云计算厂家，都已经开始在能耗问题碰墙了。ID ...

云计算这样的集群，主要是要应对并发，并行倒在其次。这方面是集群应用不同于超算的地方。所以集群的电费和冷却问题无法用超算解决。当然超算在这方面解决好了，作为集群节点还是对整个集群的能源效率和冷却问题有贡献的。
各有各的问题空间吧。

江城如画里 发表于 2016-6-21 12:05:25

穿着裤衩裸奔发表于 2016-6-21 11:49
说穿了这个是如何在软件和硬件之间分解设计的问题，假如说半导体技术撞墙，那要多核加手工优化算法，否则 ...

这个我还是不太同意。您说美国能源成本低，但是目前云计算厂家，google/aws，都在打降低能耗的主意，诸如海水冷却什么的，说到底都是因为能耗问题解决不了，他们并没有因为美国电费便宜就无视之了。
如果这个还没说服力的话，那facebook搞OCP不是更强的例证嘛。我理解OCP本质就是一种廉价的超算方案——当然，不是说FB不搞集群了，只是FB应该也认识到集群的不足了。
至于说特殊架构问题，只能这么说，如果老是沿用傻快方案，出不来革新性的成就的。特殊架构死的多不证明特殊架构就没前景。众核方案就是我认为更有前景的方案。
另外，关于ＦＰＧＡ，目前微软在深度学习框架中使用的就是ＦＰＧＡ，国内的百度在Ｎｇ的主持下也在搞ＦＰＧＡ方案。而ｇｏｏｇｌｅ现在的ＤｅｅｐＭｉｎｄ本身就是ＡＳＩＣ的而非GPU的。
还有，就是超算这类众核或者SoC方案，从上层看来，改变没那么大。因为向量化部分都封装好了，对于应用程序员来说，甚至可以不用学习相关的东西，只知道API调用就行了。底层的专门人才不需要那么多，对于大多数软件人员来说，超算给人的感觉也不过是一台跑起来特别快的电脑而已。

江城如画里 发表于 2016-6-21 12:09:56

看客发表于 2016-6-21 11:57
云计算这样的集群，主要是要应对并发，并行倒在其次。这方面是集群应用不同于超算的地方。所以集群的电费 ...

嗯这个我基本同意，就目前来说，集群和超算各有各的问题空间。集群重在并发，超算重在并行。
我和@穿着裤衩裸奔兄弟分歧可能在于。他认为集群技术未来可以用于解决并行问题，而我的观点认为超算目前在实践的一些东西最终也可以解决并发问题。
电费和冷却问题，我觉得集群方案一个大缺点，就是每个结点都可以独立成活，这似乎并不是必要的。因为我完全可以利用能够扩展的网络节点来解决并发问题，这样通过省掉公用设施，使得电费问题得到解决。
另外，超算中的众核和SoC，咱不管性能如何吧，其能耗较多ＣＰＵ方案无疑还是省电的。

页: 1 2 [3] 4 5 6 7

爱吱声's Archiver