继曙光3000之后,国家智能计算机研究开发中心和曙光公司联合研制的曙光4000L超级计算机再次登上全国十大科技进展的榜单。曙光4000L是我国最大的数据处理超级服务器,整个计算机系统由40个机柜组成,峰值速度可以达到每秒钟3万亿次浮点计算。在用户需要的情况下,该系统还可扩展成为80个机柜,峰值速度达到每秒6.75万亿次浮点运算。
曙光4000L属于曙光4000系列高性能计算机系统之一,曙光4000系列高性能计算系统分为3种,它们分别是“曙光4000L”、“曙光4000-A”和“曙光4000-H”。曙光4000L代表运行在IA架构下的Linux,曙光4000-A代表64位计算(Advanced),曙光4000-H代表高密度专用机群(High-dense),它们的体系结构,许多关键技术,机群操作系统等都是相同的,但它们各具特色,能够满足不同应用目标下的复杂需求。和其他的大型项目一样,曙光4000L的研制也离不开合作单位的大力支持:曙光公司的重点在于工程任务和产品化工作,某大学从事了机群数据库的中间件的开发工作,哈尔滨工业大学重点开发了应用软件,帕拉代姆公司完成了石油应用软件的优化工作。
曙光4000L的重点在于高效率的支持数据密集类型应用,它具备百万亿字节的数据处理能力。从测试结果看,4000L的表现十分出色。进行并行数据库操作时,它每天能处理163亿次以上入库操作,86亿次以上数据库混合操作,进行百万记录表规模的数据挖掘的平均响应时间为2.5秒。形象地说,一台曙光4000L有能力实时存储4千万网民每人每天进行200次短信操作的全部内容;进行Internet数据处理时,4000L单结点的接入能力为每秒65万数据包,整个系统能够满足32Gbps的实时数据流的并发接入要求,系统的数据特征扫描能力为平均每结点400Mbps,能满足中国电信的Internet骨干网数据业务的数据处理的要求。
科技服务于社会,曙光4000L诞生后在社会各行业中得到广泛的应用,为国民经济的发展做出了贡献。去年5月份,面对“非典”的肆虐,计算所无偿开放曙光4000L,并提供支撑软件,为抗“非典”战役提供了服务;5月,峰值速度达到3万亿次的曙光4000L交付用户;8月份,4.2万亿次曙光4000L入驻中石油,被石油界誉为“找油先锋”、“石油勘探的‘神眼’”;10月,曙光4000L又成功进入内蒙通信公司,成为国内最大的在线网络游戏“传奇世界”的后台服务器。
支持特定应用的专用技术
由于曙光4000L的应用是特定的,因此研制开发了服务于特定应用的专用技术。这些技术遵循“通用平台+专用技术=专业化系统”的技术路线,通过面向特定应用的开发和优化,使系统硬件的能力得到充分发挥,满足用户对整个系统实际处理能力的需求。在曙光4000L系统中的智能控制台和Internet负载模拟就是服务于目标应用的专用技术。
曙光4000L系统的智能控制台是基于智能终端的思想研制的,它有两个技术特色:一是使用用户身份令牌的安全访问控制机制,二是可以动态部署的监控软件。
智能控制台使用基于USB接口令牌的用户身份认证系统。USB令牌集智能卡的安全、不可复制性和USB设备稳定、灵活性于一体,通过将智能卡的功能和USB接口集成在一个设备中,避免了对传统的专用读卡器设备的需求。这样一方面避免了读卡器自身故障影响到系统的功能,另一方面因为USB接口是每个主机节点都属标准配备,从而扩大了身份令牌的适用范围。用户的身份密码和权限信息存放在令牌内,令牌本身则具有PIN码保护和自锁死功能,即使丢失也不会泄漏关键信息。
用户指定的系统管理和监控软件由系统通过曙光4000L系统管理软件服务器动态部署到智能控制台上使用,具有开电即用,关电即离的特点。智能控制台软件是一个后台进程,该进程定时查询令牌的状态、键盘鼠标操作,并根据具体情况做出相应的处理,任何软件在终端运行都必须始终有相应的身份令牌在线,通过在运行过程中检查令牌状态,4000L具有持续的安全特征。
Internet负载模拟软件通过已经总结出的Internet的工作负载,模拟产生真实Internet环境下的网络包,通过测试的结果可以全面指导对Internet有关应用的优化工作。模拟测试系统的思想是将现有的性能评测系统按阶段进行划分,横向分析评测系统每个阶段的一般性和特殊性,将共同的部分抽象成服务器性能测试基础平台,将特有的部分构建成组件,结合分布式和面向对象的系统设计方法进行硬件和软件结构的设计。弥补了现在服务器评测系统只能对一种固定应用的支持、不支持工作负载的适度动态定制、测试环境的部署复杂和测试成本高等不足之处。
曙光4000L对支持数据密集型应用
曙光4000L的研制重点放在对数据密集型应用的支持,分析数据密集型应用的特点,掌握所需关键技术。在曙光4000L系统中,高性能系统域网、专用高速数据接入系统、可扩展底层通信软件、高性能TCP/IP协议、机群文件系统、智能文件浏览器、远程磁带备份软件、高可用软件以及数据密集应用性能评价软件包都对数据密集型应用提供了有力的支持,这里简要介绍一下智能网卡和智能文件浏览器。
曙光4000L使用的双光口智能千兆以太网卡具有速度快、兼容性能好,可移植性好的优点。它在设计上采用了高性能的I/O处理器和大容量内存,具备强大的数据处理能力,通信性能更为卓越,同时该网卡与普通的千兆网卡电气规格完全兼容,可以和任何标准的千兆以太网交换机相连接使用;该卡可以使用在任何Linux、Unix及Windows系统平台上。
对于Internet内容处理这类数据密集型应用,在传统的千兆以太网和TCP/IP协议数据传输模式下,机群节点上的CPU既要对接收数据进行分析处理,又要参与通信过程中协议的处理。如此在网络负载加重的情况下,就会出现由于节点机上CPU不能及时对数据包进行处理而造成大量丢包,甚至由于负载过重而造成系统宕机。为提高曙光4000L系统上Internet内容处理这类数据密集型应用的处理能力,科研人员研制了智能双光口千兆以太网卡和运行在网卡上的专用软件,利用智能网卡上CPU的处理能力,由专用软件完成数据包的接收和相关的协议处理工作,使节点机上的CPU主要用于对数据包的分析处理。通过使用智能千兆以太网卡,为节点机增加了一个通信处理器,而节点机自身的CPU成为计算处理器。这种节点机结构对其它数据密集型应用也是非常有益的。此外,智能网卡上的专用软件还可以承担部分原本由节点机CPU完成的数据分析处理工作,从而进一步提高整个系统的处理能力。
文件系统的未来在于数据库与文件系统在功能与结构上的融合。智能文件浏览器就是一种用数据库管理文件系统元数据的文件浏览系统。它的重要特色是用数据库辅助管理与使用分布在机群范围内的文件,解决了大量文件数据的显示问题,并能够以逻辑视角操作计算机系统的文件资源。
在机群系统中有大量的分布于各节点上的本地文件,对这些文件的使用和管理并不方便,尤其是对于数据密集型应用,情况更为突出。智能文件浏览器就是为解决上述问题提供的一个图形化工具,不仅可以按文件或者目录的名称浏览集群范围内的文件与目录,还可以按照文件的属性并行的查询与操作文件与目录,从而有效的提高机群范围内文件、目录操作的效率。利用智能浏览器,不同的用户还可以获得自己需要的逻辑文件视图而不必关系系统文件的具体的物理视图。
网格使能技术
Internet的发展使网格的概念深入人心。网格应用模式对作为格点的超级服务器提出了新的要求。研究网格使能技术,使曙光超级服务器能够对网格提供支持,适应网格环境下超级服务器的工作模式,成为曙光4000系列超级服务器研究的一个重要内容。曙光4000L系统中网格使能技术的阶段性成果在基于服务的机群操作系统DCOS(Dawning Cluster Operation System)、网格监控中心软件GridView等软件中得到了体现。应该指出的是,曙光4000L中的各种技术不是相互孤立的,它们综合体现在不同的系统软硬件中,而且许多技术是曙光4000系列超级服务器共同需要的。
曙光机群操作系统(DCOS)的技术路线是一体化设计思想、层次型结构、面向对象的设计方法、面向服务的结构并支持嵌入网格构件,它采用服务做为机群操作系统提供功能的界面。服务虽然没有确切的定义,但具有一些公认的特征。服务是位于网络之上独立运行的软件实体,具有注册、注销、查询等行为,具有开放的标准接口。曙光4000L支持全部3种服务嵌入的方式,并实现在DCOS体系中。服务嵌入的原则是保护机群资源的安全,提高机群使用效率,网格用户必须通过机群操作系统访问机群资源,而不能直接操纵节点操作系统。通过嵌入网格服务,4000L的集群操作系统保持了良好的结构和可扩展性。
网格监控中心GridView负责完成对网格环境下各格点的状态监控和整个网格状态的监控。通过GridView,用户可以获得任何一个格点的系统软件、硬件和应用软件的状态并预警,可以进行事件管理并保存系统数据,还可以与监控历史数据比较。
在曙光4000L机群内部整个监控中心分为三层,形成树状结构。这较普通的主从式两层结构在结构的可扩展性上有了很大提高。这种结构减轻了主控结点的负载和资源消耗,降低了网络资源的占用。传统的机群监控软件主要提供机群资源状态的物理试图,即资源多是以节点为单位进行组织。GridView在此基础上进一步提供整个机群、整个网格的逻辑视图。在逻辑视图中整个机群、整个网格就是一台超级服务器,已经不再有节点和格点的概念,比如机群系统CPU使用率的逻辑视图将整个系统所有CPU看作一个逻辑上的CPU,其使用率反映出整个系统计算资源的使用情况。GridView在状态显示上实现了物理视图与逻辑视图的自然衔接,和谐统一。
支持大规模系统
曙光4000L目前有322个节点,可进一步在线扩展为600个以上节点的系统规模,因此需要支持大规模系统的关键技术。曙光4000L在大规模系统的可扩展软件树状层次结构、系统监控与管理自动化工具和系统软件自愈能力方面取得了一定的阶段性成果,并和网格技术一起在机群操作系统和网格监控中心软件中成功运用,收到满意效果。下面主要介绍一下支持大系统的硬件监控与终端切换网络和具有良好二进制兼容的并行运行环境。
对于曙光4000L这样的大型系统,其系统的可靠性要求很高。由于节点、硬盘的数量大,故障概率相对较高,对系统的易损部件如电源,风扇的运转情况进行监控,及时发现和预测故障就显得十分必要。新一代硬件监控系统继承了曙光3000监控系统的主要技术,在模块化、监控系统的扩展性和灵活性以及监控数据等方面进行了改进。曙光4000L的硬件监控系统的设计原则是,尽量避免由于监控系统本身的问题而影响主机的正常工作,因此采用了独立硬件监控网络尽量使该系统独立于主机而不与主机的其他硬件软件发生联系。
目前石油等重点行业的大型应用软件都有基于TCP/IP通信协议的MPI版本(简称网络版),而且都是二进制码。在4000L以前,这些软件在上不能可靠的运行于曙光并行运行环境中,如果强制运行上述应用软件,则用户不能使用曙光并行运行环境中资源管理软件实现的分区的概念对系统资源进行管理,对并行程序的运行进行方便、有效的监控。
为了在新研制的曙光4000L并行运行环境向前兼容并同时保留新的管理功能,4000L的并行运行环境改写了MPI的核心指令。用曙光并行运行环境中资源管理软件提供的加载机制替换原有的加载机制,使得二进制网络版MPI应用程序可以在曙光并行运行环境的管理控制下加载和运行。
曙光4000L的推出不仅代表着国产高性能计算机产业的全面发展,也进一步展现了中国在高性能计算机技术方面的强大实力,这无论对于本产业的健康发展,还是对于国民经济、国防等领域的全面进步都具有十分重大的意义。曙光4000L在电子政务、网上银行、证券、石油等市场有广阔的应用前景。 |