基因学正在改变人类的未来,针对遗传出生缺陷的产前检测,肿瘤基因检测,病毒和细菌的基因研究等,通过基因测序都能找出“元凶”。 所以,基因测序产业正迎来一个发展的大时代,相关数据统计,基因测序从2007-2013年复合增长率为33.53%,全球的市场规模2007年只有800万美元,而2018年将达到约117亿美元,说明基因测序的市场已经逐渐成熟。 如今,基因测序技术已被列为国家重点发展产业。据研究,每年的基因测序分析增长会在30%以上,数据量也将是越来越多,如何传输,保存和管理海量的基因数据是一个非常棘手的问题所以,HPC正被广泛应用于基因测序行业。 年轻的诺禾致源,怎么做到领跑基因测序行业 基因测序行业是一个风口上的行业,也充斥着大量的新老玩家,但同时基因测序又是一个严谨的行业,只有抱着科学合理的出发点,在不断试错,探索前进,才能最终胜出。诺禾致源显然正沿着这样一条路在前行着。 在国内基因测序领域,诺禾致源是一个标志性的企业。作为目前国内基因测序领域的佼佼者,诺禾致源的业务覆盖科技服务、肿瘤基因检测及遗传检测三大领域,为全球研究型大学、科研院所、医院、医药研发企业、农业企业等提供基因测序、质谱分析和生物信息技术支持等服务。 成立于2011年3月的诺禾致源最初以科技服务为主。2012 年,诺禾致源开始拓展肿瘤基因检测服务。发展至今,诺禾致源业务已经覆盖科技服务、肿瘤基因检测及遗传检测三大领域。 实际上,基因测序行业是一个知识密集型的产业,衡量的标准有两个,一是对基因学术的贡献度,二是先进基因测序仪的拥有量。 那么首先,在基因学术的贡献度方面。截止2018年6月,诺禾致源与项目伙伴合作发表SCI文章总计330余篇,累积影响因子大于2120;目前已取得软件著作权115项,自主研发专利49项。 其次,目前诺禾致源已在全球运行25台NovaSeq、20台PacBio Sequel、30台HiSeq X、11台HiSeq 2000/2500/4000、4台MiSeq、4台NextSeq 500、6台Life Ion Proton(DA8600)、2台S5XL和5套Q Exactive™ HF-X等最先进的基因测序仪,建立了亚洲通量规模最大的基因测序平台,将实现每年280,000人全基因组测序的超高通量。同时,全国首家引入Q Exactive™ HF-X高端质谱平台,打造最先进的生物质谱中心,为客户提供全面、深入的多组解决方案。 除了这两个关键点之外,诺禾致源的生态建设也已非常完善,合作伙伴遍布全球,包括超过1920家科研院所和高校、720余家医院、1430余家医药和农业企业等。诺禾致源的企业梦想是成为全球领先的基因组学产品和服务提供者。 算法和数据之后,计算的三大瓶颈如何打破? 基因测序最核心的资产就是基因测序仪产生的庞大数据量,所以随着基因测序的通量越来越大,行业产出的数据也越来越多,相对而言对存储、计算平台的能力也提出更高要求。 所谓高通量基因测序,是通过测序技术解析生物DNA分析排序特征,包括序列图谱构建,序列比对,变异检测等高性能计算。尤其在人类健康研究中,需要了解海量蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计等等。 所以在生物信息学的处理过程中会用到大量的软件,例如面向序列组装的SOAPDenovo,ALLPATHS-LG,Falcon, Trinity等;面向序列对比:BWA, Blast, bowtie2等;面向序列分析: CLUSTAL,HMMER等;面向进化树分析:PHYLIP,TreeBest, MrBayes等。 同时生物算法正逐渐成熟,生物数据通量也急剧提升,这必然会带来对分析软件和流程的全面优化,所以计算力成为了精准医疗行业面临的最大瓶颈。对诺禾致源来说,对HPC的需求也遇到很多挑战。 第一,数据量巨大。正因为基因测序仪产生的数据量是非常巨大的,这就要求在HPC系统中必须配置海量存储,满足测序数据的存放。 第二,内存的需求大。在序列对比或者拼接阶段,需要一次性将海量数据载入到内存中并且加以处理,如果内存不够或者性能不优,很可能无法进行对比或者下一步的计算等工作,因此,我们建议对于生物信息学应用环境,需要配置胖节点或者大内存节点,满足数据载入和分析,充分提高工作效率。 第三,计算量大。对于不同生物信息学程序而言,基于不同算法的对于CPU的要求也不尽相同,但是总体计算量都十分巨大,有的支持并行,有的软件在单节点内进行计算,总而言之,与其他高性能计算应用相似,生物信息学类的计算也为CPU密集型的。 很明显,如果有HPC的长期稳定的支持,将会助力诺禾致源对未来的发展,在多方考察之后,诺禾致源选择了联想HPC成为服务商。联想是如何满足诺禾致源的需求的呢? 用HPC筑底,诺禾致源背后的联想之力 联想作为国内HPC的领军者,首先对诺禾致源的问题做了缜密的需求分析。联想认为:生物信息学类计算的核心内容是内存密集型,存储密集型,结合联想多年来的经验,为诺禾致源提供了针对化专业化的解决方案。 主要解决诺禾致源对高性能、内存、存储和稳定性的四大问题。 首先,对于高性能计算而言,一方面是浮点处理性能,另一方面为CPU本身的综合性能,联想结合生物信息学行业的特点,推荐使用Intel处理器,不仅实现了较高的处理性能,并且在能效比,内存支持,以及CPU本身的架构上Intel都有很大的优势。 其次,在生物信息学应用中,先期数据的载入对于内存容量的要求越来越高,联想采用大内存服务器四路或者八路胖节点,可以在单节点中配置最高达2TB内存,充分达到应用的实际需求。 其三,海量存储系统是生物信息学计算的先决条件。联想不仅可以提供了专业级的直连存储,更有通过专有的存储节点构建并行文件系统或者是分布式存储系统,接入以太网,甚至40GB/56GB的Infiniband网络,总体容量可达到PB级,除此之外还考虑到用户的数据安全,数据备份等,从根本上解决了生物信息学的数据存储难题。 最后,一套高稳定性的系统能够使我们的生物信息学应用更加方便快捷,同时也能够高效率的处理数据,保证业务不中断,联想通过统一的集群监控管理,作业调度,结合联想高性能的服务器,从各个方面保证了整套系统的稳定性,大大提高了用户的使用稳定性和减少了故障率,为用户提高生产力提供持续不间断的支持。 据了解,联想提供的高性能运算系统,提供了将近200万亿次计算能力,配置超过10PB的存储空间。本套集群很好的承载了诺禾致源华东地区的业务,有效的改善公司在华东计算资源不够的限制。 如今诺禾致源已经拥有全球领先的高性能计算平台,数据中心运算能力已提升至1727T flops,总内存410TB,总存储60.2PB,有效地支撑着生命科学研究和医疗健康两大领域对大数据分析和存储的需求。在通过高性能计算探索基因学的未来之路上,联想HPC始终是诺禾致源最值得信任的技术服务商。 来源于联想商用搜狐号 |