本文件的内容不需要擅自转载,用于非商业用途。为了更好地与读者互动,请记录作者、微博ID:唐僧_黄良。

今天下午有位同事在公司感到身体不适,几位同事陪他去了医院,所幸并无大碍,应该是有些劳累了。我想起自己半年前那次胳膊感染和发烧,虽然心里清楚不会太严重,但当时也是一连两三天坐立不安。

记得生病前的一周,我连续几个晚上1、2点睡觉。这里提醒下大家,到了中年不能再像年轻人那样拼体力,不要都等到生病了才知道注意休息。工作想干是做不完的,而自己的身体和家人才是最重要的。

思科提醒背后:Atom C2000集成频率发生器隐患

这几日我想不少朋友都看到了新闻,我觉得严谨地说“思科部分型号设备存在故障隐患”比较合适,因为出问题的概率有多大还不清楚。有人指出始作俑者是网络设备使用的管理处理器Intel Atom C2000系列SoC,在《Intel AtomProcessor C2000 Product Family Specification Update(January 2017,OrderNumber: 329460-016US)》文档中对应的描述如下:

简单说就是SoC LPC_CLKOUT0/1信号可能停止工作,导致系统不能启动。这牵涉到Atom C2000集成的一个功能模块——clock generator(频率发生器),俗称时钟IC。

从上面的Atom C2000模块图可以看出,这颗SoC集成了传统意义上CPU和PCH芯片的功能,连南桥都不需要了。其中也包括频率发生器模块,就是它出的问题。

在早期的PC和服务器主板上都是一颗SOP封装的小芯片,记得2000年前后我每拿到一款新的板子都会找下它的位置,还有附近的14.318MHz晶振。在今天流行的Intel x86平台上,频率发生器已经集成进PCH芯片组,所以单独见到它的机会少多了。

“时钟IC”与石英晶振之间的关系

由于手头没有合适的机器,我打电话给一位老朋友——老谢,让他帮我拍一张时钟IC的照片。上图是一款Dell较老的服务器主板,左边是BMC(iDRAC管理芯片)及其内存,右边有南桥以及右下角这颗SLG74800T频率发生器。

在当今主流的双路服务器(如PowerEdge R730等)上,我们仍然能看到一颗与之接近的时钟IC。它单独存在的意义我会在后面解释。先回过头来看Atom C2000的时钟架构:

早年我跟老谢还有身边的朋友学习,了解到主板上几颗石英晶振的作用。晶振通常是银白色金属外壳、横卧在主板上一个不大的小元件,它们在加电后能够稳定输出标称的震荡信号。频率发生器以这些信号为基准,经过调节(放大/缩小)后输出给CPU、内存等各个部件的工作频率。

上图中的32.768 KHz晶振,是专门用于RTC实时钟,也就是主板CMOS走时间的那个电路。通常它的位置距离电池以及清除CMOS的跳线不远。我还标出了25MHz和50MHz两个晶振,它们都是用于对应的网卡,直接输出给PHY即可,与SoC的主频率发生器无关。

其它设备需要的工作频率,基本上都是由另外一颗14.318MHz晶振,经过频率发生器转换得来。在这里它和32.768 KHz这两个晶振都是必须起振系统才能工作的,有些朋友一开始以为这次思科的问题出在晶振上是不对的,因为只有频率发生器集成到了Atom C2000芯片里面。

本次出问题的Atom C2000 SoC的LPC_CLKOUT,输出的是25MHz频率。整个LPC部分包括SPI(存放主板BIOS的闪存)在内的一些设备。

现代主板设计与14.318MHz的缺失?

正好我手头有一台Dell Precision Tower 3000 Series (3420)工作站样机,是比《当Xeon核显遇上3ds Max、Solidworks:T30评测之二》一文中使用的服务器还要小的Mini塔式机箱,主板也是定制的尺寸和设计。

今天的目标很明确——就是看上面的晶振,我只找到2颗——一颗在网卡芯片附近,另外一颗挨着PCH芯片组,并且距离电池和CMOS电路也不远。自始至终也没有看到14.318MHz,Why?

银色的这个25.000MHz晶振大家一看就能认出吧,它是为下方的Intel i219千兆网卡芯片服务的。

32.768KHz这颗晶振在以前许多主板上都是一个细小的银白色圆柱体,立在主板上以至于厂商们需要点胶固定的。后来有人专门给它设计了一个“塑料外套”,可以更好地斜卧在主板上。如今这颗的体积进一步减小乃至完全在外面包了一层,如果不看上面的文字都认不出来了。

我确认了一下T3420工作站的资料,CPU支持Xeon E3和Core系列等,芯片组是Intel C236。时间有限我还没仔细研究这款机器,先找到另一款与之接近的芯片组时钟架构图。

如上图,不难看出PCH集成了频率发生器,而25MHz时钟信号同时输出到网卡和PCH上。也就是说,以前14.318MHz的基础频率晶振被这种新的设计替代了。

最后再来解释下主流服务器上为什么许多还有独立的频率发生器芯片:这时带外管理的原因,在南桥不工作或者硬件系统不正常的情况下,BMC仍然要有自己相对独立的一套系统,这大概就是前面照片中时钟IC距离iDRAC管理模块不远的原因吧。

既然频率发生器集成进南桥早已不新鲜,那么做在Atom C2000里面也是正常的,像ARM SoC啥的估计也都这么干。那么Intel此次出事之后肯定会更加小心,毕竟对于交换机/路由器这些企业级通信设备的管理处理器而言,可靠性远比性能重要。

——————————

由于这篇文章有我那位朋友老谢的功劳,这里也给他打个小小的广告。我们认识快20年了,他人很实在,起初是艾葳(Iwill)主板北京办事处的芯片级维修高手。当年在440BX和Slot 1 Pentium II/III的时代,艾葳的双路服务器主板绝对是一流的。

由于电子电路技术方面的特长,老谢(QQ:53926516)现在北京主营二手服务器等生意,因为机器出现点啥问题,如果他鼓捣不好的话别人也够呛了:)所以遇到服务器硬件等方面有啥疑难问题,包括有朋友RAID数据恢复啥的我也经常找他。

注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,可以加我的QQ/微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)

尊重知识,转载时请保留全文。感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage

原文链接:;mid=2649775379&idx=1&sn=93e8e262d89658ab233babd89770a0ba&chksm=83773c4eb400b55827c10367fb05c7ec32f3426ce00c9603fb9d97be2d2f50b41c57bb260ecc#rd

相关推荐