一、需求和挑战
计算机辅助工程(CAE,Computer Aided Engineering)是用计算机辅助求解复杂工程和产品结构强度、刚度、屈曲稳定性、动力响应、热传导、三维多体接触、弹塑性等力学性能的分析计算以及结构性能的优化设计等问题的一种近似数值分析方法。CAE从60年代初在工程上开始应用到今天,现已成为工程和产品结构分析中(如航空、航天、机械、土木结构等领域)必不可少的数值计算工具,同时也是分析连续介质力学各类问题的一种重要手段。
分布式内存的Cluster系统是近年来迅速普及的一种高性能服务器体系。集群是一组独立的计算机(节点)的集合体,节点间通过高性能的互连网络连接,可以协同工作并表现为一个单一的、集中的计算资源(单一系统映象)供并行计算任务使用。构建这类服务器的成本比较低,具有良好的性价比和可扩放性。集群作为当前高性能计算机的主流架构,在Top 500中占据了75%以上的份额。因此,当前主流的CAE软件都提供了对集群架构和MPI的支持。
高性能计算(HPC)从上世纪80年代起逐步进入CAE领域,承担诸多关键的计算应用。CAE-HPC的目标是“用最低的成本模拟真实世界”,即“用最短的时间、最少的人力、最低的资金,进行复杂单场模拟和多场耦合分析”。CAE在制造企业中承担着关键的业务,所以其高性能平台的选择非常重要,HPC平台直接影响CAE的运行性能表现、整体成本和系统维护等方面问题。
一般说来,CAE分析主要包括前处理、计算分析和后处理这3个过程。前处理主要是建立问题的几何模型、进行网格划分、建立用于计算分析的数值模型、确定模型的边界条件和初始条件等;计算分析是对所建立的数值模型进行求解,经常需要求解大型的线性方程组,这个过程是CAE分析中计算量最大、对硬件性能要求最高的部分;后处理则是以图形化的方式对所得的计算结果进行检查和处理。
二、浪潮CAE高性能解决方案
通过对CAE软件的分析我们可以了解到,对于大部分CAE应用,对于节点间并行MPI支持非常好,适合在双路计算节点上运行,做通用计算,而部分CAE软件对内存的需求比较高,则适合在胖节点上用OpenMP方式来计算,因此我们推荐大内存的四路或者八路服务器作为集群胖节点。
浪潮通过对于CAE应用性能的专业化分析和汇总,提供针对化的解决方案。浪潮高性能应用集群主要解决了CAE软件应用中的三个主要问题:
工作站
主要用于前后处理方面的工作,用于网格划分和可视化显示。由于对于服务器显示和处理能力的要求都比较高,因此我们推荐使用带有专业级显卡的工作站配置。
计算节点
显示算法和隐式算法对计算能力的需求不用,方案配置了双路节点,适合于分布式内存的显示计算和流体软件CFD的计算,配置了多路胖节点适合于共享内存的隐式计算。不同架构的设计既体现了浪潮针对化专业化的解决方案。
网络带宽问题
在大型CAE软件应用中,并行化对于网络延时和带宽的要求很高,我们根据需求配置了以太网交换环境或者更快的40Gb的Infiniband网络,满足所有节点无阻塞的计算交换需求,网络延时低。
存储带宽问题
部分CAE软件在计算过程中,会产生大量临时文件,一个优秀的存储系统能够满足软件对于网络带宽的需求。浪潮不仅可以提供了专业级的直连存储,更有8Gb接口的光纤存储系统,通过专有的存储节点构建Lustre并行文件系统,接入以太网,甚至40GB的Infiniband网络,不至于出现CPU等待数据计算的情况,大大提高了计算效率。
三.浪潮解决方案优势与价值
计算系统紧密结合客户应用
浪潮TS10K系统充分考虑CAE客户典型应用,针对客户应用定制化开发系统。针对隐式有限元分析应用浪潮配置胖节点,可选八路胖节点;针对流体类应用配置双路主流计算节点,针对前后处理可选图形工作站,塔式、机架可选;存储方面可提供NAS存储、光纤存储、IB SAN存储等方案,对于IO带宽需求特别高的场合,可以配置浪潮Ts Exastor并行文件系统。
互联系统完善
浪潮TS10K系统包含4套网络。管理网络采用万兆为主干的千兆线速网络,可开辟对教育网/公网的独立IP,实现广域网用户登录使用集群;IPMI网络采用非线速千兆交换机,互联所有节点,管理员通过办公用机可实现集群的带外管理;KVM本地监控网络通过菊花链方式,最多实现960台计算机的KVM监管;计算网络采用IB网络全线速互联,带宽达到56Gb/s,延时1微秒内,充分保证计算中间数据交互。
调度系统先进高效
浪潮ClusterEngine集群管理软件是专为浪潮天梭系列 HPC 集群定制的一款软件,该软件采用B/S架构,通过浏览器(IE,firefox等)进行操作,是一套全面实现了集群的监控、管理、报警的软件,用户通过ClusterEngine图形界面提交自己的科学计算任务,ClusterEngine会根据集群中的资源使用情况和作业的资源要求数量来合理的调度用户提交的作业,从而达到提高资源利用率和作业的执行效率的作用。ClusterEngine还可以为集群管理员统计作业的资源消耗情况和用户的资源使用情况,并生成报表,为集群管理员优化系统提供依据。
集群系统绿色节能
所有节点采用80PLUS高效电源,提高电源转换效率,降低用户运维成本。结合Cluster Engine节能组件,可以自动将空闲资源设置为待机或者关机状态,整体节能降低20%。