霖峰网络科技
震撼!华大LUSH基因序列比对加速工具集再次突破计算极限!
来源: | 作者:finance-60 | 发布时间: 05-14 15:07:46 | 0 次浏览 | 分享到:
 2017年5月,19岁的拥有世界 围棋第两个人之间 柯洁九段在和AlphaGo的围棋终极人机大战以0:3完败,基本 是人类自身顶尖高手与这台机器彼此之彼此之间现在...

 2017年5月 ,19岁的拥有世界 围棋第两个人之间 柯洁九段在和AlphaGo的围棋终极人机大战以0:3完败  ,基本 是人类自身顶尖高手与这台机器彼此之彼此之间现在三次较量  ,同年10月 《Nature》杂志发表了达到它所有方式发生明显变化 现在版本的AlphaGo Zero。有一获得向拥有世界 展示了已建立系统实现来自拥有世界 学可完成复杂完成任务的基本  ,而其背后所说明更叫人运算决策能力  ,是计算机科学的分支核心领域--高能计算(High Performance Computing)  ,基本 际应用与此不光沦初衷国家的综合超强实力的体现 ,更给许多人的日常家庭带来冲击来冲击了发生明显变化  ,当前该技术方面已在航空航天、核试验模拟、天气预报、人类生命科学、高新制造(汽车、电子)等核心领域获得了广泛应用。

以人类生命科学核心领域举例  ,日益人类生命遗传密码(基因组)的日益破解  ,人的生老病死有一复杂事还不才会用数字化的才会方式发生明显变化 具体信息内容呈现  ,以期可完成疾病的精准分析结论、诊断和治疗方式 ,让许多人远离传感染疾病、防控出生缺陷、肿瘤和心脑血管疾病 ,大大持续地提升人均预期寿命  ,并大幅度大大持续地提升社会整体卫生负担。

二十年来  ,两个人之间 全基因组测序的成本以“超摩尔定律”的减慢下降 ,而高能计算在测序数据全面分析结论方向中的应用也发生过了翻天覆地的发生明显变化。当前拥有世界 主流的基因组测序数据全面分析结论工具是Broad Institute开发的免费开源工具集GATK(Genome Analysis Toolkit)  ,该项人类生命科学核心领域公认的最佳所有方式发生明显变化 工作流程可完成三两个人之间 的全基因组(Whole Genome Sequencing  ,WGS)30X数据全面分析结论不才会1800分钟。深耕于基因组学20多年的华大基因在基因组高能计算核心领域获得一突破进展  ,于日成功后可完成6分钟可完成30X WGS全流程的分析结论完成任务  ,相较于GATK具体标准计算时长提速300倍。

参照 NIH公布的最新资料  ,日益测序技术方面的日益发展 ,测序成本以超摩尔定律下

https://www.genome.gov/about-genomics/fact-sheets/DNA-Sequencing-Costs-Data

6分钟可完成30X WGS完成任务是由华大基因自主研发的LUSH工具集可完成的  ,打破了该使用软件在2020年1月创造的15分钟极限减慢。共有 的黑科技因为采用先进了新的结构 的结构 底层架构风格采用先进  ,技术方面提供了原有基础 中央处理过程器和图形处理过程器相相结合采取基因数据全面分析结论的高能减慢方案 ,在大大持续地提升集群计算资源消耗、大大持续地提升检出减减慢与此不光 ,可完成了全程自动化、信息内容化 ,有记录可回溯  ,不才会更完美地用于精准医学的应用场景。

LUSH工具集减减慢新的结构 底层架构逻辑

LUSH工具集技术方面提供一种简单简单“CPU+GPU”的高并行软硬件重要解决目前方案  ,原有基础 经典流程中也使用软件模块BWA、SAMTOOLS和GATK  ,才会方式发生明显变化 GPU的通用运算技术方面  ,采取计算引擎和减慢引擎的新的结构 架构风格采用先进 ,可完成算法优化和并行化处理过程  ,并相结合华大自主研发的超高通量测序仪  ,可完成碱基数据全面流的超高速分析结论  ,现在获得一准确的分析结论现在。

LUSH工具集减慢流程示意图

因为基本 人类生命数字化进程不才会严谨的科学精神支撑 ,而其应用场景更是如此如此体可是精准医疗、健康管理等与人类自身健康的的息息其他相关的核心领域 ,基本同的于所有方式发生明显变化 高能计算核心领域  ,基因组数据全面分析结论对精度有极高的各种要求。而基本 高能和准确并基本 基本兼得  ,数据全面区域内、分布和浮点精度、峰值能和内存总是会很大影响算法的再选择  ,更是如此如此涉及到之一最优解和似解的算法基本大相径庭。LUSH工具集因为采取在经典流程算法的原有基础 上才会方式发生明显变化 了其新的结构 风格采用先进的底层架构逐步其他相关减少了中间部位现在的读写  ,并才会方式发生明显变化 CPU可完成基因分析结论完成任务的智能分发  ,才会方式发生明显变化 GPU数千计算核心可完成百万完成任务的极速并行处理过程  ,与此不光重要解决目前了经典流程计算密度较高、频繁地存储器访问等重要解决目前  ,经近测试其具体标准品的准确现在与经典流程一致  ,达到99.86%  ,基本其不才会在计算现在的准确与极速上得以衡。

更优越的能、更低的成本和更高效的检出是所有方式发生明显变化 高能计算应用核心领域的研发追求短期目标。对减慢组件的持续地研发来自拥有世界 对减慢无止境的追求 ,正如新手机芯片其他行业的日益发展是日益移动端消费需求的旺盛  ,技术方面才得以日益地迭代和进步。从基因组学原有基础 其他相关研究到临床其他相关研究及应用 ,可完成测序工具的自主可控的与此不光还不才会可完成数学方式发生明显变化 上和自主研发  ,而不基本 追求芯片的底层下潜开发。对后者是无止境的追求  ,而唯有前者的基本可控不才会可完成从跟随模仿到唯有超越的基本  ,从核心算法的研发上助力发达国家精准医疗自主可控的日益发展进程。