喜欢喝冰茶 发表于 2015-7-11 04:34:07

吐槽一把,都是钱闹的

最近开始成批量的和全基因组较劲,起因在于一旦真到了临床诊断这一步,那可真是是骡子是马拉出来溜溜了。临床诊断要求之苛刻,把所有其它的测序protocol都打回了原形,只有高大上的全基因组看起来才是真金不怕火炼。

现在的技术,30x的WGS成本和200x的WES差不多了。就是这计算量嘛,得按天算,文件大小嘛,是按T算。如果一旦投入流水线操作,这等的时间和文件的存储可真是要了命了。

MacArthur 发表于 2015-7-15 04:02:56

您这是。。。
{:199:}

喜欢喝冰茶 发表于 2015-7-15 04:30:01

MacArthur 发表于 2015-7-14 14:02
您这是。。。

http://www.ngscn.com/index.php/News/newslist/id/853

数据量太大,等时间太长,这要是上到临床诊断,流水线生产,崩溃中。

老兵帅客 发表于 2015-7-15 04:35:59

欢迎选购超级服务器阵列,性能保您满意,只要付得起钱。;P

喜欢喝冰茶 发表于 2015-7-15 09:20:16

老兵帅客 发表于 2015-7-14 14:35
欢迎选购超级服务器阵列,性能保您满意,只要付得起钱。

我们本来用的就是商用的云计算系统,数据处理是专门优化滴了,只不过全基因组太大太慢了,相对于另外一种常用的protocol,话说学校里的超算就是个渣渣,除非我的用户级别极高才行。这不还是钱闹得嘛,现在保险公司不买单不是。

eshark 发表于 2015-7-15 09:48:59

喜欢喝冰茶 发表于 2015-7-15 09:20
我们本来用的就是商用的云计算系统,数据处理是专门优化滴了,只不过全基因组太大太慢了,相对于另外一种 ...

全闪存那是必须的,有个DSSD听说过哇,号称可以提供内存级的外部存储访问。

喜欢喝冰茶 发表于 2015-7-15 09:56:35

eshark 发表于 2015-7-14 19:48
全闪存那是必须的,有个DSSD听说过哇,号称可以提供内存级的外部存储访问。 ...

原始数据一旦调入应该还好,当然读取越快越好,主要是有大量的de bruijn图在里面。

straw 发表于 2015-7-15 13:18:35

本帖最后由 straw 于 2015-7-15 13:20 编辑

这个最好还是超大内存单机组成的高性能计算集群, 并且要对blast等程序对大内存优化一下的,商用云计算那是用错了方向,根本不是你这种用途的。

straw 发表于 2015-7-15 13:24:47

靠,华大的,好吧,我已经脱离这一行了 {:188:}

eshark 发表于 2015-7-15 20:56:48

喜欢喝冰茶 发表于 2015-7-15 09:56
原始数据一旦调入应该还好,当然读取越快越好,主要是有大量的de bruijn图在里面。 ...

如果随机小IO众多,机械磁盘肯定不行的。哪怕是VMAX和DS8000都搞不定,一定要全闪。大块连续的对象数据可以考虑Islon

喜欢喝冰茶 发表于 2015-7-16 00:08:18

straw 发表于 2015-7-14 23:24
靠,华大的,好吧,我已经脱离这一行了

华大似乎在美国市场还没做到诊断阶段吧。

喜欢喝冰茶 发表于 2015-7-16 00:09:48

eshark 发表于 2015-7-15 06:56
如果随机小IO众多,机械磁盘肯定不行的。哪怕是VMAX和DS8000都搞不定,一定要全闪。大块连续的对象数据可 ...

个人感觉小IO应该比较少

喜欢喝冰茶 发表于 2015-7-16 00:12:56

straw 发表于 2015-7-14 23:18
这个最好还是超大内存单机组成的高性能计算集群, 并且要对blast等程序对大内存优化一下的,商用云计算那是 ...

太绝对了吧,cluster和商用系统有什么本质上的区别。如果不能把jobqueue和pipeline整合在一起,根本就快不了。华大有个gpu做这个很快,但是公开的据说是老版本的。

冰蚁 发表于 2015-7-16 00:58:05

喜欢喝冰茶 发表于 2015-7-15 11:12
太绝对了吧,cluster和商用系统有什么本质上的区别。如果不能把jobqueue和pipeline整合在一起,根本就快 ...

我记得前段时间看过一个文章里讲某牛人转行开发化学研发专用计算机,用于化学过程模拟什么的。这种计算机的出现极大地缩短了模拟时间,从多少天减到多少个小时就有结果。从而使得化学仿真可以得到极大的应用。所以直观感觉是你这行可能也需要类似的机器,不然速度搞不定。

eshark 发表于 2015-7-16 09:24:16

喜欢喝冰茶 发表于 2015-7-16 00:09
个人感觉小IO应该比较少

那就考虑Islon吧,看起来你们的应用和数字视频的非线性编辑比较像, 文件大,连续数据读写多,非常适合Data Lake的架构。还是基于以太网的,便宜哈。

straw 发表于 2015-7-16 10:54:06

喜欢喝冰茶 发表于 2015-7-16 00:08
华大似乎在美国市场还没做到诊断阶段吧。

抱歉抱歉,只是顺着你给的网页看到华大参与了

straw 发表于 2015-7-16 11:01:47

喜欢喝冰茶 发表于 2015-7-16 00:12
太绝对了吧,cluster和商用系统有什么本质上的区别。如果不能把jobqueue和pipeline整合在一起,根本就快 ...

我已经脱离这个行当满久了, 不知道现在的情况. 不知道你们需要超算是进行哪一步,图像识别这一步我不了解,但是序列比对,拼接基本都是用的隐马算法,大内存对这个算法的作用很大。而一般商用云计算基本都是虚拟机,内存不完全是直接访问的。我想你们是把单一序列分开进行计算,然后再整合起来。如果任务数量减少的话,对你们的处理应该是有很大的帮助的吧。

straw 发表于 2015-7-16 11:04:47

以前就听说有人把算法做成PLC进行计算。速度会快很多,不知道这个是否有帮助。

喜欢喝冰茶 发表于 2015-7-16 23:05:24

冰蚁 发表于 2015-7-15 10:58
我记得前段时间看过一个文章里讲某牛人转行开发化学研发专用计算机,用于化学过程模拟什么的。这种计算机 ...

该不是D.E.Shaw开发的那个可以直接硬件算氢键的用于MD Simulation的玩意儿吧。那东西确实挺快,不过用的人不是应该不很多,离应用有点远,不知道药厂有没有买的。反正他们家有钱,烧就是了。

喜欢喝冰茶 发表于 2015-7-16 23:10:29

eshark 发表于 2015-7-15 19:24
那就考虑Islon吧,看起来你们的应用和数字视频的非线性编辑比较像, 文件大,连续数据读写多,非常适合Da ...

文件大不假,连续数据读写不应该算多。这个问题不是硬盘快不快的问题,而是算法的问题,那玩意是个NP complete的问题。
页: [1] 2
查看完整版本: 吐槽一把,都是钱闹的