![]() |
构建未来计算引擎 英特尔下注3D芯片堆叠技术 |
2018年12月24日
【
转载
】 编辑:
|
本文标签:英特尔 |
编者按:近期英特尔举办了一场引人注 目标“架构日” 运动,公布了 将来多年的产品技术路线图、技术 策略规划以及一系列新技术 。外媒The Next Platform随即公布了一篇深度 综合文章,对Tick-Tock模式演进和Foveros 3D芯片封装技术进行了深度解析 。作者认为,面临压力,英特尔能从现有工艺中 开释出超乎 设想的更高性能;而Foveros将在不久的 将来为英特尔计算引擎的构建奠定 根底 。
以下为 部分摘选:
创新离不开动力 。从财务角度来看,RISC/Unix供给商的 衰败以及AMD在服务器市场的缺席使英特尔大为受益,它在数据 核心的霸权也从未如此 壮大,收入和利润不停 打破记录 。
这也 起源于超大规模 经营商和云构建商的崛起所带来的 机会,同时也带给英特尔一些竞争压力,这些压力在之前一般来自于直接竞争对手、OEM和ODM 。 固然英特尔在数据 核心计算服务器方面仍 厄运地 维持增进且接近垄断,并 扩大到网络和存储 设施且都 获得了一些 成就,但不足竞争 确切伤害了英特尔的工程优势 。
关于英特尔来说轻松赚钱是好事 。服务器市场的增进速度比微小竞争对手吞食市场份额的速度要快得多,AMD Epyc和Marvell ThunderX2的 突击以及IBM Power9的一系列动作并没有真正打击到英特尔的核心服务器业务 。延迟了两年的10纳米工艺 固然扰乱了英特尔的路线图,但也没造成什么确切影响 。然而在2019年,随着AMD和Marvell 使用台积电的先进工艺推出下一代产品,战火将会延伸,并很可能会波及英特尔 。
挫败这些 突击,是英特尔公司 解决器核心和视觉计算高级副总裁、英特尔边缘计算解决 方案总经理兼首席架构师Raja Koduri,以及高级副总裁兼硅工程事业部总经理Jim Keller的工作 。Koduri和Keller是分别负责让AMD Radeon GPU和Epyc CPU产品线 新生的人物 。这两位和 其余英特尔高管在近期 举办的架构日 运动中,在英特尔联合 独创人Robert Noyce旧居公布了攻防 方案 。在这里,英特尔从高处 俯视硅谷,试图在数据 核心拿下更大一块地盘 。
罗马不是一天建成的,也不是一天 灭绝的
大家都 相熟英特尔十多年来采纳的Tick-Tock模式 。英特尔将芯片改良的过程分为两个 部分以减低风险,其中Tick阶段是晶体管创造工艺的缩短,Tock阶段是基于前阶段工艺的架构改良 。 使用Tick-Tock模式,英特尔 可以维持 巩固的性能 晋升,该模式也运作得十分好,直到Tick阶段需要 花费更长的 工夫且Tock阶段变得越来越难 。
英特尔从14纳米开始 攻破Tick-Tock模式, 延伸为Tick-Tick-Tick-Tick模式,试图从一个芯片工艺节点 获得更高的性能 。这种转变很有必要,10纳米工艺的 迟延招致了14纳米Tick阶段的拉伸以及10纳米Tick阶段的延期,接着影响到依赖于10纳米工艺的一大堆Tock阶段 。
从中得到的 教训可能便是Tock阶段不能过分依赖于前面的Tick阶段,需要学习混搭不同工艺的芯片将它们塞进一个2D封装,或者 重叠成3D封装 。实际上 惟独要在最有用的芯片上 使用最先进的Tick工艺,而把其它的小芯片组件放在封装上, 比方把 消费大量电能的内存操纵器和I/O操纵器放在芯片之外,这样成熟的晶体管蚀刻工艺尺寸会更大,但创造成本也更低 。
关于制程,有丝毫十分主要 。面临压力,英特尔能从现有工艺中 开释出超乎 设想的更高性能 。目前14纳米FinFET工艺蚀刻的酷睿台式机 解决器便是一个很好的例子,而且这也 实用于凌动或服务器的至强芯片 。下表显示了过去几年酷睿芯片最高时钟速率随工艺优化的演变:

制程更新 性质上是更平滑的优化, 即便新的工艺已经推出,每个制程节点仍会 连续更长的 工夫 。这种更平滑的 模式 可以协助缓解一些竞争压力,但随着英特尔添加10纳米 设施而削减14纳米 设施,招致了2018年PC芯片和一些服务器芯片的短缺,迫使英特尔集中精力在最佳良率上,并把最好的14纳米工艺 利用于最畅销的PC和服务器芯片 。
英特尔需要让客户习惯这种Tick-Tick-Tick-Tick-Tick模式,它将转变工厂增减设施来满足需要的 模式 。
Koduri 盼望大家了解的是,英特尔现在已经掌控10纳米工艺,而且正在前瞻7纳米甚至更先进的5纳米 。这是目前路径的样子:

如图,英特尔每个制程节点有两个不同版本,一个针对计算优化,一个针对I/O优化,由于二者需要不同的晶体管属性 。以偶数结尾的制程变数用于计算,以奇数结尾的用于I/O 。在最初的10纳米制程后面,有两个优化的计算节点,英特尔可能会对外称之为10纳米+和10纳米++ 。与此同时,后续的7纳米工艺,目前正在开发中 。英特尔也正在对5纳米制程进行“寻路”探究 。
制程工艺过剩
然而还有一个更大的问题需要解决,那便是数据 核心的计算类型如同寒武纪大迸发一样增进 。英特尔向来在构建不同计算类型的产品组合,除了至强和凌动服务器CPU、Arria和Stratix(来自收购的Altera)FPGA,及其Crest神经网络 解决器(来自收购的Nervana)之外,英特尔十分清晰它还需要加入可用作加快器的独立GPU 。英特尔需要可与Nvidia Tesla和AMD Radeon Instinct GPU加快器直接竞争的产品,这也是其首先雇用Koduri的缘由之一 。
目前尚不清晰英特尔将如何协助客户 取舍用于任意特定工作负载的计算产品,由于在许多状况下会浮现大量的重叠 。
然而在我们 深刻了解这些让人 目迷五色的芯片组合之前,且先退一步看看 。英特尔一再 示意,它 谋求的不再是价格仅450亿美元的客户端和服务器 解决器市场,再外加一些闪存和 部分超微互连,而是 谋求更 广大的3000亿美元的计算市场,将其产品嵌入数据 核心、园区和边缘各式各样的 安装中 。要 累赘全部这些芯片的探究和工厂建设费用,英特尔将必须大规模生产 。
Koduri 揭示大家的第一件事是,并非全部的晶体管都 实用于不同的场景,而且在这个摩尔定律放缓的世界,作为一个多元电子器件供给商,需要为不同类型的电路 使用不同的制程工艺 。 即便 可以 使用单个制程技术大费周章地在芯片上 构建单片系统,那 兴许并不算 理智的做法 。
“我们 期冀 构建一个3000亿美元的潜在市场规模,并进入不同的市场领域,我们 留神到需要建筑的晶体管设计十分多样,”Koduri解释道 。“例如,台式机CPU就关于性能和功率都有 宽泛的需要,新晶体管在这些场景中并不总是更 实用 。事实上,没有晶体管 可以 遮蔽全部这些需要 。另外,我们需要集成的晶体管越来越多样——我们有通讯晶体管,I/O晶体管,FPGA晶体管,以及传统的CPU逻辑晶体管 。“
因此,出于经济和技术因素,以及不同市场需要依据功率 制约、性能 特色、 特点和成本集成不同原件,单个大芯片需要被拆分成多个小芯片(chiplet) 。正如我们已经指出,不只仅是英特尔,业界的 所有都将向插槽内多芯片封装进展 。
所以,这便是英特尔将要做的 事件 。尚不清晰具体什么时候、 使用什么电路,但显然 将来英特尔可编程解决 方案事业部的“Falcon Mesa” FPGA将采纳模块化插槽设计,并 使用10纳米工艺至少来实现其核心逻辑 。小芯片的模式不只不过将 利用不同制程的组件 部分组合,而是还能创造出比单个大芯片能适应更 宽泛的性能和功率 规模的一系列部件 。
另一个采纳10纳米工艺的组件是英特尔112 Gb/s SerDes电路,它的制程可能在 将来相当长一段 工夫内不会缩短 。它 支撑脉幅调制,可在一个信号中承载更多比特 。英特尔 占有112 Gb/s SerDes, 象征着英特尔 可以提供能与业界相媲美的Omni-Path 200及以太网衔接,这关于英特尔和众多网络厂商竞争是很有必要的,其中一些对手同样销售英特尔 解决器的竞品 。
全部这些因素最后带来了Foveros 3D芯片封装技术,它将在不久的 将来为英特尔计算引擎的构建奠定 根底 。Foveros是一种系统级封装集成,为嵌入式多芯片互连桥接(EMIB)多芯片封装技术添加了第二个维度,EMIB是英特尔一项探究多年的工作,并最后在衔接小芯片的Stratix 10 FPGA、以及在 径自封装的配置AMD GPU和高带宽内存(HBM)的Kaby Lake-G 酷睿芯片上得到 利用 。
使用Foveros系统级封装多芯片模块,为计算复合体( 可以包括内存及其它组件)提供服务的I/O电路、SRAM缓存和电源电路 可以在基层芯片上构建,基层芯片 遮蔽于封装衬底上,衬底 可以 搁置针脚与插槽配合,抑或直接焊接到主板上 。有源中介层被 搁置在该封装衬底上,其上方的各种小芯片通过硅穿孔(TSV) 可以 彼此衔接 。小芯片上的微凸块 可以通过TSV向下 深刻中介层,从而衔接到 重叠芯片的最底层, 而后在中介层内 可以 到达邻近,或 到达 重叠其上的其它芯片 。除了一层底层芯片和另一层顶层芯片, 可以有众多分层:

使用Foveros工艺的第一个产品在架构日上进行了演示,如下图:

这个 设施是超便携 利用,封装尺寸为12毫米×12毫米,远小于一枚美元硬币 。 存在I/O和其它片上系统组件的基层芯片 使用1222工艺,该工艺是 根底22纳米工艺的代号,十分久远,在完善后被 利用于“Ivy Bridge”和“Haswell” 至强上 。更大晶体管更 合适电源和I/O电路 。在其上方是 使用10纳米工艺实现的计算复合体(1274,前缀P 示意 使用Foveros 重叠),在这个例子中,它包括了来自“Sunny Cove” 酷睿的一个核心和来自“Tremont” 凌动的四个核心,以一种ARM已经 利用多年的 模式混搭 。最顶层是一大块叠层封装内存 。英特尔没有 注明这种芯片复合体在负载条件下功耗多少,但 确切 示意它在待机状态 消费为2毫瓦,大概是能 获得的最低值 。
英特尔并未明确 示意在 将来的酷睿和至强 解决器中 使用Foveros技术,但显然 将来的“Falcon Mesa” FPGA,和2020年的Xe独立GPU中将用到它 。我们认为 将来的至强和凌动,以及各种CPU与GPU、FPGA、及Nervana神经网络 解决器等混搭芯片上都会用到Foveros技术 。
英特尔不再仅靠制程和架构来推进其计算业务,还将 充足利用内存和互连芯片,将安全性嵌入到全部元素中,并与一个涵盖这些计算元素的更 方便的集成软件 集中在一同,也便是oneAPI 。之后,我们还将 深刻探讨oneAPI以及各种计算引擎的路线图,以及它们对回归摩尔定律轨道的预期影响 。