今天是中国超算界扬眉吐气的一天

江城如画里 · 发表于 2016-6-20 22:00:57

老兵帅客发表于 2016-6-20 21:54
实际应用可不仅仅是LINPACK那点玩意儿。对应的例子，一直有人想在unix/linux上跑windows应用，也有对应的 ...

老兵可能对超算相关软件不是特别熟悉，这多数是开源的，所以关键在于把gcc/llvm跑通，只要有全套编译环境，移植优化只是一个工作量问题，并不存在什么本质性的障碍。另外，超算上跑WINDOWS，不是没有，但是太少见了。

江城如画里 · 发表于 2016-6-20 22:03:19

老兵帅客发表于 2016-6-20 21:55
结果就是宣传上的胜利，实际上没用。

也许我不了解这个领域的软件特点，也许那上面的软件都是各自从头开 ...

不是，超算上大多数软件，都是开放源代码的，以C/C++为主，所以移植这一块，最关键的是把编译器做好，而且更准确的说，就是gcc/llvm，只要编译器有了，下面要做的就是针对自己的CPU做优化，如果有ＧＰＵ辅助，则相应的软件包也得跟着优化，从CPU代码改为ＧＰＵ的代码。这个说实话吧，优化的水平有高有低，但是本质上的困难还是比不上硬件上的困难大。

老兵帅客 · 发表于 2016-6-20 22:05:51

江城如画里发表于 2016-6-20 09:00
老兵可能对超算相关软件不是特别熟悉，这多数是开源的，所以关键在于把gcc/llvm跑通，只要有全套编译环境 ...

也就是说，必须有全套源代码。假使这点成立的话，少数民族问题就不是个问题了。

另外，巨大物理机器里面的虚拟windows机器可不少见，我这边凡是比较大一些的公司，我能用到的服务器绝大多数都是虚拟机，不管是windows还是unix都一样。具体来说就是大量的CPU，内存、硬盘构成的物理机器，通过虚拟机软件为最终用户提供虚拟机下逻辑机器。

枫叶中原 · 发表于 2016-6-20 22:13:50

老兵帅客发表于 2016-6-20 21:04
这个申威SW26010貌似用的是以前DEC的Alpha 21164那套，那么软件可用性如何就是个问题了。

现在的主流操作 ...

记得以前曾经研究过，应该是订制的 LINUX系统吧。

江城如画里 · 发表于 2016-6-20 22:16:41

老兵帅客发表于 2016-6-20 22:05
也就是说，必须有全套源代码。假使这点成立的话，少数民族问题就不是个问题了。

另外，巨大物理机器里面 ...

理解，您说的是企业计算中常用的虚拟化技术，这类一般还是需要硬件支持Virutualization的，这个alpha 21164本身指令集并不支持类似INTEL的VT-x指令，所以似乎不能实现虚拟化（这个结论是猜测）。当然也不排除江南所自己实现了一套虚拟化指令，如果有了这个基础就可以跑KVM，然后做您说的虚拟化了。
不过就超算本身而言，并非一定得有虚拟化支持，至不济还可以用docker的。

穿着裤衩裸奔 · 发表于 2016-6-20 22:16:50

老兵帅客发表于 2016-6-20 21:04
这个申威SW26010貌似用的是以前DEC的Alpha 21164那套，那么软件可用性如何就是个问题了。

现在的主流操作 ...

算你敢说，我都没感冒泡

老兵帅客 · 发表于 2016-6-20 22:25:31

穿着裤衩裸奔发表于 2016-6-20 09:16
算你敢说，我都没感冒泡

好歹也算是咱们软件相关领域的，多说两句，多制造点人气，没坏处。

穿着裤衩裸奔 · 发表于 2016-6-20 22:36:19

本帖最后由穿着裤衩裸奔于 2016-6-20 22:46 编辑

老兵帅客发表于 2016-6-20 22:05
也就是说，必须有全套源代码。假使这点成立的话，少数民族问题就不是个问题了。

另外，巨大物理机器里面 ...

他这个超算本质上还是要手写算法，这部分不能和通用处理器比较。intel的志强是Numa架构，每个处理器有自己的内存总线，操作系统负责调度把集中使用某一些数据的进程集中放在某个处理器管理的内存段。以达到较高的性能。跨处理器的数据访问还是慢得多。通用软件要消耗很大的内存带宽，所以用于通用软件的服务器还是无法做到很大规模。

这个基于alpha的处理器本质上可以看成一个性能一般的通用处理器外加一个高性能gpu做向量计算，通常通用处理器用于任务调度，gpu完成向量计算，所以作为通用处理器用处不大。对特定的可手工分解为并发任务的算法才能有效果。

一般来说超算因为体积问题无法做成numa，逻辑上相当于10g以太网互联的一堆计算机，互联方式通常是PCI express 或者infiniband。

题外话，其实我不大看好超算得前景。随着通用计算能力的提高和高速互联技术的发展，使用通用芯片网络集群更加有前途。

沉宝 · 发表于 2016-6-20 23:26:25

本帖最后由沉宝于 2016-6-20 23:28 编辑

穿着裤衩裸奔发表于 2016-6-20 22:36
他这个超算本质上还是要手写算法，这部分不能和通用处理器比较。intel的志强是Numa架构，每个处理器有自 ...

题外话，其实我不大看好超算得前景 … …

集群因为网络时延，对紧耦合的问题还是不行吧？除非算法上有突破

谜团 · 发表于 2016-6-20 23:33:40

穿着裤衩裸奔发表于 2016-6-20 22:36
他这个超算本质上还是要手写算法，这部分不能和通用处理器比较。intel的志强是Numa架构，每个处理器有自 ...

各有各的任务这些是为科研任务服务的现国内很多企业也在利用超算中心做计算

赫然 · 发表于 2016-6-20 23:39:53

老兵帅客发表于 2016-6-20 09:05
也就是说，必须有全套源代码。假使这点成立的话，少数民族问题就不是个问题了。

另外，巨大物理机器里面 ...

我的理解是，这种超算主要是用来进行大规模数学计算的，主要是气象，理论物理，还有军工。这些软件都只能是自己开发的，买不到的。没见过有人想设计个氢弹新构型，去IBM那里寻个价的

。对JAVA和windows的兼容性实在不是个大问题。

还有，用这么昂贵的机时去跑个JAVA虚拟机，只能说是土豪！估计迪拜的那个就是派这个用处的。

老兵帅客 · 发表于 2016-6-20 23:42:38

赫然发表于 2016-6-20 10:39
我的理解是，这种超算主要是用来进行大规模数学计算的，主要是气象，理论物理，还有军工。这些软件都只能 ...

对，这是个特殊的领域，跟咱们商务领域的完全不同，不能用商务领域的模式去套

穿着裤衩裸奔 · 发表于 2016-6-21 00:04:08

沉宝发表于 2016-6-20 23:26
集群因为网络时延，对紧耦合的问题还是不行吧？除非算法上有突破

要看工作集的大小了。但我觉得超算应该是松耦合，否则规模难上去。
其实用PCI express 非透明桥做紧耦合也很容易，都不用自己开发芯片。

沉宝 · 发表于 2016-6-21 02:12:54

穿着裤衩裸奔发表于 2016-6-21 00:04
要看工作集的大小了。但我觉得超算应该是松耦合，否则规模难上去。
其实用PCI express 非透明桥做紧耦合 ...

我说的意思是紧耦合问题(比如空气动力、核物理等)对芯到芯之间的时延非常敏感，时延到一定程度后再添多少个芯整机性能也不会增长了。在这一点上，超算显然比集群好太多了。

如果通用计算机加装PCI express 非透明桥，那么相关的硬件软件的工作量都不小，这样即使还叫集群，已经基本上体现不出来集群的好处了。

山东老乡 · 发表于 2016-6-21 03:27:42

猪头大将发表于 2016-6-20 22:00
我认识的一位华为工程师的点评和问答。

技术流点评。多谢哦。

mezhan · 发表于 2016-6-21 07:30:47

前十名
中国 2
美国 4
日本 1
瑞士 1
德国 1
沙特 1

穿着裤衩裸奔 · 发表于 2016-6-21 07:31:38

沉宝发表于 2016-6-21 02:12
我说的意思是紧耦合问题(比如空气动力、核物理等)对芯到芯之间的时延非常敏感，时延到一定程度后再添多少 ...

规模上去后延时解决不了。延时本质上是光速限制。现在常见的商业服务器几个处理器之间距离只有大概10厘米左右，就要用Numa, 更远的距离现在只能用高速串行，
PCI exprexx有现成的片子做非透明桥，plx和idt两架都有系列产品。
不能并行化的运算，用超算不行吧？

dasa · 发表于 2016-6-21 08:37:41

老兵帅客发表于 2016-6-20 21:57
定制不难，难的是上面有能用的应用。

别的不说，windows nt开始的现代windows，经历过的硬件平台有多少 ...

超算和pc机是两回事。应用层面和领域更是天差地远。
前者是专业级，针对的工业应用和基础研究。后者是面对一般用户，尤其是终端消费者。
简单说，超算不需要干很多种活，文字处理，网上视频，数据库（专业级除外），这些事请找别家。但是，它要做的几件事都是别人打死也完成不了的。

所以说，相应的软件开发要求也完全不同

一目十行 · 发表于 2016-6-21 08:38:48

leekai 发表于 2016-6-20 21:16
这也是几个国产CPU之一

几个国产CPU好像一家用了一个指令集，貌似前些年热闹过的指令集都给用了一遍。Alpha，Spark， mips，还有什么来着。

江城如画里 · 发表于 2016-6-21 08:54:20

穿着裤衩裸奔发表于 2016-6-21 07:31
规模上去后延时解决不了。延时本质上是光速限制。现在常见的商业服务器几个处理器之间距离只有大概10厘米 ...

这证明了集群的思路不如超算了吧。太湖之光，单个ＳＯＣ是２６０个核，单卡是２个芯片，单节点４张卡，共１６０个节点，这个层次上，越往上越慢，最后１６０个节点是靠ｉｎｆｉｎｉｂａｎｄ连接的。这原因是节点间连接还是ｉｎｆｉｎｉｂａｎｄ能处理的了，就目前看，知期内还没什么集群内技术能够将上千万个计算节点连在一起的技术。另外，为什么把２００多个核封在ＳＯＣ里，一个重要的原因是内ｃａｃｈｅ在多核间共同，这访问ｃａｃｈｅ的速度，集群技术似乎在１０年内都很难追得上。
另外，一个题外话，目前ｉｎｆｉｎｉｂａｎｄ用的是mellanox的卡，但据我所说，国防科大在天河2上应用的技术比mellanox更强（价格倒不好说了，在这个级别上mellanox算是物美价廉了感觉）。所以这个太湖之光仍有上升究竟。

		自动登录	找回密码
密码			注册

[其他] 今天是中国超算界扬眉吐气的一天

点评

评分

点评

点评

点评