每年一度的 Hot Chips 是半导体业界最重要的技术会议。在其中,芯片领域专家齐聚一堂,全球芯片厂商也经常选择在这里发布新产品,或是阐述未来的发展方向。下一代英特尔芯片,要有巨大的性能提升。
当地时间周一,在斯坦福大学举办的 Hot Chips 2023 上,英特尔首次披露了新一代数据中心芯片「Sierra Forest」,它的每瓦性能较前代提升了240%,并有望于明年推出。同时,英特尔首次将旗下数据中心芯片分为两类:一类是 Granite Rapids,专注于高能耗高性能;一类是 Sierra Forest,专注于高能效英特尔两款数据中心芯片性能曝光。

整体来讲,得益于引入了面积高效的 E 核(能效核),Granite Rapids 和 Sierra Forest 将有望成为迄今为止英特尔 Xeon(至强 )可扩展硬件生态系统中最重要的更新之一。
首先是 Sierra Forest,它是英特尔首款用于数据中心的 E 核 Xeon 可扩展芯片,还是基于 EUV 的 Intel 3 工艺的主导产品。英特尔表示,Sierra Forest 有望于明年上半年上市。同时,Granite Rapids 也采用相同的 Intel 3 工艺。
在设计上,Granite 和 Sierra 都是基于小芯片(chiplet)的设计,依赖通过英特尔 EMIB(Embedded Multi-Die Interconnect Bridge, 嵌入式多核心互联桥接)技术封装在一起的计算和 I/O 小芯片的混合。不仅如此,这次的小芯片设计还有独到之处,使用不同的计算 / IO 小芯片,而不是将「完整的」Xeon 小芯片封装在一起。这意味着,Granite 和 Sierra 可以共享基于 Intel 7 工艺构建的、通用 I/O 小芯片。除了共享平台的详细信息外,英特尔还首次提供了 E 核和 P 核(性能核)所用架构的高级概述。正如现在多代 Xeon 的情况一样,英特尔正在利用与其消费部件相同的基本 CPU 架构。
因此,Granite 和 Sierra 可以被认为是解构的 Meteor Lake 处理器,Granite 配备 Redwood Cove P 核心,而 Sierra 配备 Crestmont E 核心。
如前所述,这是英特尔首次尝试为 Xeon 市场提供 E 核。对英特尔来说,这意味着要针对数据中心工作负载调整 E 核设计,与上一代以消费级应用为中心的 E 核心设计大有不同。
英特尔透露,Crestmont 正在提供 6-wide 指令解码路径以及 8-wide 隐退后端。虽然不如英特尔的 P 核心强大,但 E 核心绝不是轻量级核心,英特尔的设计决策反映了这一点。尽管如此,它的设计在芯片空间和能耗方面都比 Granite 中的P核心要高效得多。Crestmont 的 L1 指令高速缓存(I 高速缓存)将为 64KB,是早期设计中 I-cache 大小的两倍。与此同时,Crestmont E-core 系列的新成员可以将这些核心打包成 2 或 4 核集群,这与目前仅提供 4 核集群的 Gracemont 不同。最后,对于 Sierra/Crestmont,该芯片将提供与 Granite Rapids 尽可能接近的指令。这意味着有 BF16 数据类型支持,以及对各种指令集的支持,例如 AVX-IFMA 和 AVX-DOT-PROD-INT8。
同时对于 Granite Rapids,我们有 Redwood Cove P 核心。Redwood/Granite 是 Xeon 处理器的传统核心,对于英特尔来说,变化并不像 Sierra Forest 那样大,但这并不意味着他们没有改进。在微架构方面,Redwood Cove 获得了与 Crestmont 相同的 64KB I 缓存,容量是其前身的 2 倍。但最值得注意的是,英特尔成功地进一步降低了浮点乘法的延迟,将其从 4/5 个周期减少到仅 3 个周期。像这样的基本指令延迟改进很少见,因此我们总是期盼能够出现。
除此之外,Redwood Cove 微架构还有分支预测和预取等特性,这是英特尔的典型优化目标。它们可以采取的任何措施来改进分支预测(并降低罕见失误的成本),经常会在性能方面带来相对较大的红利。Redwood Cove 的 AMX 矩阵引擎获得了 FP16 支持,尤其适用于 Xeon 系列,而 FP16 的使用不如已支持的 BF16 和 INT8 那么多,但它总体上改进了 AMX 的灵活性。对于内存加密的支持也正在得到改进。Granite Rapids 的 Redwood Cove 将支持 2048 个 256 位内存 key,而 Sapphire Rapids 则支持 128 个 key。


数据中心服务市场望迎来新一轮爆发。
据IDC最新发布的《中国数据中心服务市场(2022年)跟踪》报告显示,2022年,中国数据中心服务市场同比增长12.7% ,市场规模达1293.5亿元人民币。IDC预计,未来五年,中国数据中心服务市场将以18.9%的复合增速持续增长,预计2027年市场规模达3075亿元人民币。值得注意的是,多地出台政策支持数据中心发展。河南提出“加快建设中部算力高地”,支持算力应用,推动绿色数据中心建设、行业型数据中心建设和算力基础设施配套建设储能设施方面建设;成都出台20条新政助力AI 发展,其中包括强化智能算力供给,推进算力产业自主可控,围绕“算力”“存力”“运力”等关键领域,大力发展芯片、服务器整机、液冷设备等高端硬件,聚力推动存储芯片产业发展;云南提出将创新打造一批行业级大数据中心,推动大数据产业全产业链发展,首批交通、地质、电力能源、农业科研等4家行业大数据中心发展已取得成效。
AI芯片的生态建设和产业规划。

对于国内厂商,建设生态系统有两条路线。一是兼容英伟达的CUDA,可以减轻开发和迁移难度,快速实现客户端导入;二是自建生态系统,借鉴AMD和Google的做法,摆脱对英伟达的依赖,打造自己的生态圈核心壁垒。预计硬件性能高效且能构建符合下游需求的生态体系的国产厂商有望脱颖而出。
未来算力升级路径有:
1、Chiplet是AI芯片大势所趋
如何打破算力和制程工艺方面的瓶颈限制尤为重要,特别是在14纳米以下的制程无法生产且无法做出来的情况下。解决这个问题,我们需要依靠先进封装技术。系统异质整合是提升系统性能、降低成本的关键技术之一。AI芯片中,Chiplet技术正在兴起,类似于搭积木的方式,通过先进的集成技术将一些预先生产的实现特定功能的裸片(Chip)封装在一起,形成一个系统级芯片(SoC)。封测产业在国内芯片行业的产业链中处于最成熟的阶段,通富微电和长电科技已经是全球第三大封装企业,华天科技也处于市场战略很高的地位。
2、存算一体:打破“存储墙”限制
存算一体是一种新型的算力架构。在传统处理器设计中,主要关注提升计算速度,而存储方面更注重容量提升和成本优化,这导致了“存”和“算”之间性能失配的问题,即冯诺依曼架构中的“存储墙”和“功耗墙”。从处理单元外的存储器提取数据的时间往往是运算时间的成百上千倍,整个过程的能耗大约在60%到90%之间,能效非常低,成为了计算的瓶颈。在我国,存算一体的市场空间很大,预计到2025年将达到125亿元,到2030年有望达到1136亿元,增速也非常惊人。
3、加速计算+生成式AI=重塑行业
英伟达管理层认为,加速计算和生成式AI正在重塑整个行业,带来新的增长机遇。这是长期积极趋势。
数据中心行业正经历两大平台转型:加速计算和生成式AI。这是长期趋势,不仅提升成本效益和能源效率,还推动了整个行业的变革。数据中心资本支出正逐步聚焦于这两个关键趋势,加速计算和生成式AI,这不仅是短期现象,更是行业长期转型的趋势。
(图文部分来源网络,侵删)
现在许多公司正在认识到这一转折点,开始投资于加速计算和生成式人工智能。这可能是我们面临的机会最简单的方式。这个独特的应用正在推动需求,这代表着一个新的计算平台。正在发生的是一个全球性的新计算过渡,世界各地的数据中心都在积极响应并广泛转变。英伟达还表示,正在建立的Omniverse正是为了更广泛行业的转型而准备的:我们正在建立NVIDIA Omniverse,以数字化和启用全球数万亿美元的重工业,利用生成式AI来自动化他们建设和运营实体资产的方式,从而实现更大的生产力。生成式AI起源于云,但最重要的机会在全球最大的产业领域,企业可以实现数万亿美元的生产率提升。这对于NVIDIA、我们的客户、合作伙伴以及整个生态系统来说,都是一个激动人心的时刻,推动计算的这一代变革。