
世界前五台高性能计算机.pdf
84页2014年6月公布的TOP500世界前五台高性能计算机天河二号安装地点: 中国 国家广州超级计算中心国防科技大学制造实测速度:33.86PFlopsTitan安装地点:美国 橡树岭国家 实验室Cray制造实测速度:17.59PFlopsSequoia安装地点:美国劳伦斯 · 利弗莫尔实验室IBM制造实测速度:17.17PFlopsK computer安装地点:日本理化研究所富士通制造实测速度:10.51PFlopsMira安装地点: 美国阿贡国家实验室IBM制造实测速度:8.58PFlops243511综合评论GTC2014观感和思考 … … … … … … … … … … … … … … … … … … … … 王普勇 林新华等 02Compute Canada 2014-2019战略规划 … … … … … … … … … 寇大治[译] Baolai Ge[校] 12第43届全球TOP500超级计算机排名分析 … … … … … … … … … … 寇大治 刘祎洋 徐磊 18ISC'14大会亮点回顾——参会小记 … … … … … … … … … … … … … … … … 刘祎洋 寇大治 24高性能计算系统采购最佳实践 … … … … … … … … … … Richard Blake等[著] 姜恺等[译] 29高性能计算 技术基于ESMF的POP海洋模式组件化设计与并行方法研究 … … … … … … … 叶斯 栾钟治等 40地球系统模式应用的监控方法及工具研究 … … … … … … … … … … … … 严然 解艺博等 49重复数据删除中的无向图遍历分组预测方法 … … … … … … … … … … 王龙翔 张兴军等 54高性能计算应用大型燃煤电站锅炉SCR烟气脱硝系统流场优化数值模拟实验 … … … 李德波 徐齐胜等 60感应加热数值仿真及其并行加速性能测试 … … … … … … … … … … … … 王惠 姜海涛等 66波浪冲击作用下核电站防浪堤动力响应的数值模拟 … … … … … … … … 楼云峰 杨勋等 71要闻集锦美国能源部将试验E级解决方案 … … … … … … … … … … … … … … … … … … … … … … 李苏 23圣地亚国家实验室启动后硅片时代的开发工作 … … … … … … … … … … … … … … … 肖湄 77Novec冷却液削减SGI超级计算机功耗95% … … … … … … … … … … … … … … … … 陈继军 78超级计算机首次通过图灵测试 显示其有思考能力 … … … … … … … … … … … … … … 魏嘉 78科学家运用大数据准确识别昆虫 … … … … … … … … … … … … … … … … … … … … 卢永捷 79最新“Green500”超级计算机排行榜发布 … … … … … … … … … … … … … … … … … 肖湄 80目 录2《高性能计算发展与应用》 2014年第二期 总第四十七期GTC2014 观感和思考 王普勇 上海超级计算 中心 上海 201203 pywang@ssc.n 林新华 上海交通大学 上海 200240 王丙强 深圳华大基因研究院 深圳 518083 徐磊 上海超级计算 中心 上海 201203 lxu@ssc.n 1. 大会概要 2014年 3 月 24日 ,为期 4 天的 2014 年度 GPU 技术大会( GPU Technology Conference , GTC )在美国加州圣何塞会展中心正式开幕。
本次会议吸引了来自全世界 50 多个国家, 3500 多名科学家、研究人员和工程师与会NVIDIA CEO 黄仁勋先生的 keynote 是每次 GTC 会议不可错过的看点会上,黄仁勋先生为我们展示了 NVLink 、 3D memory 、 IRAY VCA 、 JETSON TK1 、Erista GPU 、基于 Tegra 的驾驶辅助系统、全新的 Pascal架构和单卡双芯的 Titan Z 显卡等一系列的新技术和解决方案来自 Pixar 公司的技术人员和加利福尼亚大学旧金山分校( UCSF )的 Adam Gazzaley 教授分别提供了另外两场大会报告 Pixar 公司的报告展示了该公司如何使用 NVIDIA GPU 来加速电影设计制作的过程借助 GPU , Pixar 公司的动画设计师在设计动画角色的过程中能得到实时的反馈,场景设计师也能通过建立在 GPU 之上的交互式系统,对场景进行快速的预览和调整 UCSF 的神经科学家 Adam Gazzaley 教授介绍了同时通过视频游戏、 GPU 上运行的软件系统和其他硬件设备来增强人类大脑感知能力的研究成果 除了精彩的大会报告,会议还安排了 500 多场专业的研讨会,内容涉及能源探索、生命与基因科学、分子动力学、大数据分析、机器学习和计算机视觉等。
其中机器学习与大数据分析成为本届 GTC 会议的热门话题今年的GTC大会颁布了多个奖项:Star tup Early stage challenge 由大数据创业公司Map-D( http://www.map-d.co m / )获得(见图1),奖金为10万美元Map-D是由著名的MIT人工智能实验室的学生创立,他们在网上一些有趣的Demo,比如针对 Tweet 话题的实时可视化统计图1 Map-D最佳Poster奖由多伦多大学博士生Han Tianyi获得(见图2)他使用了当前最热门的Machine Learning的方法来进行GPU性能的自动调优另外,他还是一种类似OpenACC的高层GPU编程语言hiCUDA[1]的发明人图2 最佳Poster今年新增加了4位CUDA Fellow(见图3),其中来自山东科学院的周滨是中国大陆的第一位CUDA Fellow图3 新提名的CUDA Fellow今年CUDA成就奖提名有4个学校入选(见图4),其中上海交大是历年来唯一获得提名的中国高校最终美国UIUC凭借在Blue Water s 上抗击艾滋病的工作获奖,该工作的成果之前发表在国际著名期3综合评论刊Nature上。
图4 第三届CUDA成就奖提名大会还宣布了一个新的奖项 NVIDIA Global Impact Award ,奖金额度为15万美元,旨在鼓励对GPU面向全球征集,具体请见[2]2. 主题演讲:新产品发布2.1 计算: Pascal预计在2016年量产的下一代GPU Pascal除了可能 将双精度浮点计算能力提高到单卡3TFlops之外,还有2个非常值得期待的特性:NVLink和Stack Memory NVLink (见图5)是一种全新的高速点对点互联技术,它被用于CPU和GPU的直连并向下兼容PCIE总线,可以以5倍于传统PCIE总线的带宽完成GPU/CPU乃至GPU与GPU之间的通讯NVLink需要但并不强制处理器进行支持,如果处理器能够提供支持,那么整个系统便可以绕过PCIE进行更高速的数据传输,如果处理器未能提供支持,GPU和CPU之间仍可透过传统的PCIE总线进行沟通 预计2016年发布的第一代NVLink其带宽估计高达120G B ps,考虑到目前CPU访存带宽约为 60GB ps,而届时可能也就是在100G B ps左右,所以如下图所示,到时CUDA编程的访存瓶颈就不在CPU-GPU之间,反而是在CPU访存上,这将直接颠覆目前CUDA编程的指导原则!Rob Farber甚至还提出了一种很有意思的假设,即未来CPU可能反过来插到GPU卡上访存。
事实上CUDA技术路线的闭门会议上也提到,未来的趋势之一就是offload,但不是现在意义上的CPU把计算密集任务offload到GPU上,而是以GPU为核心,IO等任务由GPU来offload给CPU执行图5 NVLinkStack Memory 是去年GTC2013大会上公布的Stacked DRAM技术的实际应用,NVIDIA将8层DRAM芯片以TSV的形式堆叠在一起,从而大幅提升了单颗显存颗粒的容量密度3Dmemory技术的出现标志着NVIDIA在存储领域迈出了重要的一步 与目前使用的GDDR5的技术相比,能提供更高的带宽,至少2倍以上的容量,4倍的能耗效率更重要的是NVIDIA可能不会使用业界标准,而是使用私有的方案来设计实现Stack Memory,就像提出CUDA一样2.2 虚拟化: GRIDGPU虚拟化技术最早是NVIDIA在2012年的GTC上宣布的,经过几年的发展,在虚拟化集中化IT管理的潮流下,应用范围日益广泛,而且具有自己的鲜明特色图6 GRID 技术在今年的GTC大会上,NVIDIA和VMware宣布了新的支持GRID技术(见图6)的VMware Horizon DaaS平台,这里D代表桌面,GPU已经从专业应用的虚拟化,走入到主流的桌面虚拟化。
基于Kepler这一代架构的GRID卡从设计能做到单卡支持上百名用户,硬件支持H264编码解码器,延迟也非常低,这让高清晰度的图像数据压缩和传输变得简单可行这也是GPU虚拟化所必须的技术基础通常的虚拟化是提高包括CPU利用率在内的硬件资源利用率,集中的云端服务提高了设备利用率,降低了能耗,节约了设备采购和运行成本,增强了软硬件的可管理性以及安全性GPU虚拟化也是类似的思路,其优点在于能够提供可随时访问、远程协作的三维设计和渲染、视频制作能力,潜在的客户4《高性能计算发展与应用》 2014年第二期 总第四十七期包括工程设计、汽车制造、电影特效、视频渲染等行业目前国内的主要云计算公司都没有提供这方面的服务,超算中心可以考虑提供某种形式的该业务GPU虚拟化的应用主要是两方面的,第一个是三维设计建模分析、视频处理和图像渲染等在内的传统专业应用,第二个则是视频播放、游戏等个人娱乐通过虚拟化可以把计算密集的图像处理任务交给远程环境中的GPU来处理,传统上计算能力比较弱的笔记本电脑、平板电脑等,都能直接利用远程云端的强大GPU带来的三维图像渲染和视频处理能力 第一类专业应用的市场潜在价值毋庸多言,对于第二类具有亚洲特色、面向个人娱乐的应用,索尼收购了Gaikai云端游戏服务平台,微软则利用自有的Azure云计算服务来提高Xbox One游戏的用户体验,这都说明了这部分市场的潜力。
对NVIDIA来说,打通从数据中心到家用娱乐中心包括电视、PC、掌上游戏机的一条路线非常重要,这也是所谓Visual Computing的核心价值它最近的一系列举措表明了进军数据中心的步伐虽然传统的数据中心还是以x86处理器为主,但考虑到以上场景,GPU入驻是非常自然的事情2.3 移动: Jetson TK1 Tegra K1提供了非常强劲的能耗比,根据Hands On Lab的实际测试结果,估计使用了一组SMX单元,而 K10 则使用了15个相同的SMX,其强调单精度浮点性能,达到了 300GFLops ,能耗则只有5W使用了192个core,有意思的是目前Jetson TK1的定价恰好为192美元国内6月份正在公测的小米平板就是使用了同样的 Tegra K1 处理器。












