2010年即将过去,在我们一系列的回顾过程中大家可以发现2010年是服务器大年——包括处理器、小型机、高性能计算、刀片系统和面向云计算的一些定制化产品都在2010年留下了浓重的一笔。那么在即将到来的2011年服务器领域都有哪些重大事件呢?笔者结合已知的一些信息将重点的产品发布和市场变化分享如下。
1、英特尔十核心Westmere-EX年初登场
2010年3月英特尔发布了采用32nm工艺制造的至强5600处理器(代号Westmere-EP,详见这里),以六核12线程的超强规格全面取代至强5500(Nehalem-EP,详见这里)成为双路市场的主力。而在四路及八路以上的服务器市场,英特尔推出了至强7500(代号Neahlem-EX)以八核16线程的巅峰性能成为x86处理器之王。然而在2011年,Westmere产品线中面向四路以上服务器的新处理器Westmere-EX也将推出(名称应该是至强7600)。
作为Nehalem-EX的接班人,Westmere-EX采用32nm工艺制造,接口向下兼容,支持10个物理内核(20个线程),并且内存的支持数量翻番(达到32GB),还会嵌入更多的安全机制。这款处理器无疑将会把x86处理器的性能推到一个新的高度,并为四路以上的高端平台带来更多与传统小型机竞争的优势。
感兴趣的读者请关注IT168服务器频道明年的重点报道。
▲Westmere-EX引人瞩目的不是10核心20线程,而是翻倍的内存容量支持(意味着更多的内存控制器,QPI带宽方面是否也会增加呢)
2、AMD“推土机”架构正式推出
早先据外媒披露,2011年第二季度AMD将发布基于“推土机”架构和“山猫”架构的皓龙处理器。前者面向后端大规模计算对性能和扩展性需求,而后者则面向兼具灵活、低功耗和小巧的客户端平台。
▲国外网站曝光的八核心“推土机”晶圆图片(详见这里)
从AMD透露的资料来看,代号“推土机”的新架构处理器采用了模块化设计方式,每个模块内包括两个四管线核心、两个整数调度器、一个浮点调度器、两个128位FMAC单元、共享二级缓存以及预取、解码单元,然后多个模块共享**缓存。每个模块的两个核心彼此紧密关联,可以高效共享资源,同时还有大量新的能效和电源管理,IPC特性更丰富,栅极/时钟更低。
笔者认为,从产品创新的角度来看“推土机”绝对是AMD在64位处理之后引入的又一重大架构变动——将整数模块和浮点模块的非对称性排布确实增强了整数计算性能,但也对“通用处理器”的通用性产生了冲击——这样的产品需要对应用的把握足够精准。
3、英特尔“Sandy-Bridge”架构至强处理器发布
英特尔将在2011年第三季度推出基于32nm工艺制造的新架构至强产品“Sandy-Bridge”,其规格最多为八核心16线程。按照英特尔Tick-Tock战略(一年工艺,一年架构),2010年Westmere-EP至强5600采用了32nm工艺量产,实现了45nm工艺向32nm工艺的跳转。那么2011年在32nm工艺彻底成熟的前提下,新架构(Sandy-Bridge)也已经准备好了。
与消费级Sandy-Bridge(消费类产品将在明年一季度上市)不同的是,英特尔企业级Sandy-Bridge至强处理器(命名应该是至强5700)将不会集成GPU计算单元(见下图),而是全部替换为高速缓存(更多的L3 Cache)。另一方面,Sandy-Bridge处理器所含的**X指令集和新一代睿频、功耗管理技术也将大幅度提升处理器的能效和可信计算的含金量。
▲这是Sandy-Bridge(消费级)的核心,上方是四个计算核心(Core0-Core3),下方是**缓存,右侧有内存控制器,PCI-E控制器等等,左侧是亮点:暗淡的重复色调意味着这里有大量重复结构的晶体管:这里是英特尔32nm工艺的图形核心(企业级将换成更多的L3缓存)
4、ARM架构服务器市场或将冲击x86市场
2010年,手机芯片巨头ARM公司一方面凭借苹果iphone、ipad以及Android系统的诸多手机大红大紫。另一方面,也在其ARM处理器架构中做了很多改动,进而让人看到其处理器挑战传统CPU的野心。5月份,戴尔宣布开始测试基于ARM架构的低功耗服务器(见这里),而著名SNS社交网站Facebook也于8月宣布在新数据中心中使用ARM架构服务器取代传统x86系统(见这里)。
▲从当前的A8、年底的A9到两年后的A15 ,性能将翻5倍
2011年基于ARM架构的处理器性能将随着工艺制程的改进和架构衍生在性能上逐步逼近到目前x86处理器的水平。而即便是x86处理器也在发展,其能耗和效率也远远不是ARM的对手。尽管英特尔在凌动领域推自己的低功耗x86产品,但从ARM公司的策略来看(自己不生产,只做架构,扶植合作伙伴研发和生产芯片),其ARM处理器在产品的统一性方面会遇到阻力(服务器应用的兼容性问题)。
笔者认为,ARM处理器相比传统x86架构处理器的优势在于超低功耗和高执行效率。但不足之处在于其生态系统还普遍在手机等移动终端领域,并不如x86生态圈那么开放。此外,ARM架构由于是RISC架构的一种,因而在程序开发上存在难度。对旧有x86系统和程序兼容性差乃至不兼容的问题是阻碍ARM接管x86世界的重要壁垒。
5、曙光6000搭载龙芯刀片亮相2011
2010年国内高性能计算领域的两件大事分别是曙光“星云”超算在6月份冲上Top500排行第二名,以及12月份国防科技大学的“天河一号A”夺得年底Top500排行第一名。可以看出,国内高性能计算的发展进入了黄金时期。2010年6月曙光发布了基于“龙芯3A”国产处理器的刀片服务器曙光CB50-A(详见这里),而2011年我们将迎来搭载着龙芯处理器的国产超级计算机“曙光6000”。
▲点击查看龙芯刀片相关专题
作为超过千万亿次计算能力的高性能计算平台,曙光6000一方面要解决异构问题(x86处理器于龙芯的异构计算问题),另一方面也要解决好超多核计算系统的通信问题(多核系统间通讯),在此之上的任务调度和系统管理则是不可或缺的支持服务。
笔者认为,明年Top500榜单上必将有更多的国内超算系统进榜,但使用了国产通用处理器的超算系统“曙光6000”将标志着国内超算系统研发的又一个里程碑。
6、刀片面临变革,定制化将成趋势
凭借高密度、高可管理性、高度整合等优势特性,刀片服务器一度被认为是机架产品的替代品,甚至有厂商喊出了“Blade Everything”的口号。但刀片真的能适应所有环境,并完全取代机架吗?答案显然是否定的,因为没有一种架构完美到可以适用所有的场合,什么时候用刀片,关键还得具体情况具体分析。
由于刀片机箱在很小的空间里把服务器、存储、网络、供电、散热、管理等模块集成在一起,使得其单位空间的能耗大大提升,一般功率都在 2000-5000W 之间,远远高于同等空间大小的机架服务器。而且,实际上并不是所有的客户和机房都能支持这种高密度的设备,由于供电能力有限,数据中心里往往出现一个42U机柜里只能放置 1-2台刀片机箱的情况,宝贵的机柜空间反而被大大浪费。
此外,机架服务器由于有足够的散热空间,可靠性也比刀片服务器更高,并且机箱里也有足够的空间去支持更高的 I/O 扩展能力。而这些因素对于关键业务应用而言都是不可忽视的。因此,用户在选型时应该根据应用特点来决定,特别是对于 I/O 吞吐比较大的应用,如数据库、大规模网络输入输出等,机架式产品反而更有优势。
由于应用负载多种多样,一般会存在计算密集型、内存密集型、I/O 密集型等差异,而且对于某些用户,特别是大规模 Web2.0企业、超级计算中心、云计算数据中心等,还有着更多的特殊需求,因此,我们看到服务器定制化在2010年得到了长足的发展,并且在2011年会壮大起来。
笔者认为,这种定制化体现在两个方面。第一种是工业标准服务器的“定制化模块”,如 IBM 在其最新的 eX5 架构中,引入了 FlexNode 节点互联技术和 MAX5 内存扩展技模块,可以把 HX5、x3690 X5、x3850 X5等三款产品扩展成覆盖“普通应用、内存饥渴型、计算密集型和复杂大型应用”在内的 12种不同优化配置。第二种是专门针对某类应用进行优化的功能型服务器,如面向高性能计算的 CPU+GPU 混合架构服务器集群,针对高密度互联网数据中心的“双胞胎”或“四胞胎”高密度服务器(即一台服务器里装有多块主板),针对云环境部署的软硬件集成化机柜式系统等等。
可见,前一种仍然是标准化服务器,只是通过技术创新实现了更好的扩展性,因此适用面更广,而后一种定制化服务器往往适用面比较窄,一般适合的都是“服务器大户”。当然,对具体用户来说,在选型时仍然是要首先分析自己的工作负载,然后衡量投入产出比。
7、服务器新品将更注重I/O瓶颈
尽管应用负载会存在计算密集型、内存密集型和 I/O 密集型等差异,但对于 CPU 芯片和通用服务器系统来说,这些应用需求都需要照顾到。值得注意的是,在不同时期,随着应用需求的变化,要考虑的侧重点会有所不同。
对x86服务器来说,今天 CPU 的发展速度远远超过了内存、磁盘、网络等 I/O 系统,使得 I/O 瓶颈在实际应用中越来越突出,特别是对于虚拟化、大规模数据库等内存密集型应用而言,更是如此。我们知道,在一个向上扩展的多核系统中,数据存取的层次是 CPU、缓存、内存、硬盘,越往外层,I/O 越慢,因此,随着 CPU 的核心数量越多,CPU 喂不饱的现象会更加严重,I/O 因此成为多核计算之路上最重要的因素。
这一点也得到了从芯片厂商到服务器厂商的一致认同,如英特尔最新的至强7500处理器通过引入QPI 直连架构、集成内存控制器和大容量缓存,跟上一代产品相比,内存带宽提高了9倍;甚至还发布了至强 6500这样一款处理器来满足那些需要“双路服务器计算性能+四路服务器内存容量”的用户,比如一些内存密集型的高性能计算应用。
在服务器厂商层面,IBM 在其新一代 eX5系统设计架构中更是着重考虑 I/O 问题,如 MAX5 内存扩展技术可以提高 2倍内存容量,eXFlash 固态存储子系统大幅提高磁盘 I/O,同时将网络 I/O 虚拟化技术引入 x86系统。比如,IBM System x3690 X5就是一款采用eX5架构设计的双路机架服务器,支持英特尔至强 6500系列(Nehalem-EX)处理器。一台 x3690 X5机箱里可以支持32个内存 DIMM,如果再配上 MAX5 内存扩展单元(上有 32个内存 DIMM),即可以扩展到 64个 DIMM; 而如果通过 QPI 线缆将两台 x3690 X5 连在一起,形成四路系统,总共内存 DIMM 数就可以达到 128条!可见,IBM 的 eX5已经巅覆了划分双路、四路系统的传统标准。
笔者认为,由于明年的几大新品处理器推出(见本文第一页),厂商按照以往惯例也会升级服务器产品,但是计算性能的加强将会使得I/O问题更加突出。因此,2011年服务器厂商将会相继拿出不同的方案来解决I/O问题,或者百尺竿头更进一步,或是用更多定制化的产品来满足客户需求。
发表于:
2010-12-30 15:48 Arthas 阅读(910)
评论(0) 收藏 好文推荐
本博客所有内容,若无特殊声明,皆为博主原创作品,未经博主授权,任何人不得复制、转载、摘编等任何方式进行使用和传播。
作者该类其他博文: