在年初CES上,Intel就说过今年会推出两代处理器,包括11代的TigerLake-H移动高性能处理器和RocketLake-S桌面处理器,还有12代酷睿处理器AlderLake,当时并不以为然,觉得Intel大概率不会这么快推出桌面版的12代处理器,因为以往都是移动低电压版先行的,毕竟11代的RocketLake-S是3月才推出。然而,令人惊喜的是Intel真的在10月就把AlderLake-S拿出来了,11和12这两代桌面处理器之间才隔了7个月,这也是Intel更新得最快的一次了,之前的记录是年推出的第7代与第7代,中间也隔了10个月。
12代酷睿处理器这么快到来固然惊喜,其实更让人惊喜的是,AlderLake可以说是近年来x86处理器的一次大变革,是首次大规模在主流市场上应用混合x86架构,年Intel已经在Lakefield处理器上试验过这种类似ARMbig.LITTLE的异构计算架构,而现在正是那次试验修成正果之时。
与第11代酷睿RocketLake相比,AlderLake采用了许多新特性,制作工艺从成熟的14nm升级到最新的Intel7,并首次应用了DDR5内存和PCI-E5.0,CPU接口也从LGA变成了LGA,当然最重要的是,它采用了全新的混合架构设计,目前最高端的有8+8的内核组合。
AlderLake架构解析
在谈论AlderLake处理器之前,我们需要了解组成AlderLake的两种核心:能效核(E-Core)与性能核(P-Core),以及为了让系统更好的调配两种不同架构不同功能的核心所推出的技术:Intel硬件线程调度器。
能效核
Gracemont是能效核的曾用代号,它是Atom处理器所用的Mont系列的第七代架构,它更追求能效,会在多线程以及线程吞吐上有所加强。此高能效x86微架构在有限的体积内实现多核任务负载,并具备宽泛的频率范围。它能够通过低电压能效核降低整体功率消耗,为更高频率运行提供功率热空间。这也让能效核提升性能,以满足更多动态任务负载。
能效核可以利用各种技术进步,在不额外增加处理器功率的情况下对工作负载进行优先级排序,并改进处理器的IPC性能。
Gracemont大幅扩大了分支预测器,现在拥有个条目的分支目标缓存区,实现更准确的分支预测。一级指令缓存增大到64KB,在不耗费内存子系统功率的情况下保存可用指令,它还拥有Intel的首款按需指令长度解码器,可生成预解码信息,加速具有大量代码的现代工作负载。采用两组三宽度的簇乱序执行解码器,可在保持能效的同时,每时钟周期解码多达6条指令。
后端执行单元拓宽了,具备5组宽度分配、8组宽度引退、个乱序窗口入口和17个执行端口,共计拥有4个整数ALU、2个载入AGU、2个存储AGU、2个跳转端口、2个整数存储数据、2个浮点/矢量存储、2个浮点/矢量堆栈、以及第3矢量ALU。
存储系统采用了双载入双存储的配置,每4个核心共享4MB二级缓存,缓存带宽高达64Bytes/cycle,延迟则是17时钟周期,并支持深度缓冲、高级预取器和Intel资源调配技术。
指令集方面,支持控制流强制技术和虚拟化技术重定向保护等功能;同时它也是首款支持AVX2指令集的“Mont”核心,以及支持整数人工智能操作的新扩展。
与Skylake核心相比,能效核能够在相同功耗下实现40%的单线程性能提升,或者只有不到40%的功耗提供相同的性能。与双核四线程Skylake相比,四个能效核能够在功耗更低的情况下同时带来80%的性能提升,或者在提供相同性能的同时功耗减少80%。
性能核
性能核的曾用代号是GoldenCove,是SunnyCove与WillowCove这条核心线路下的直系后代。TigerLake所用的WillowCove核心与IceLake上的SunnyCove相比只是改动了缓存部分,改动非常小,而GoldenCove与WillowCove相比改动则非常大。
性能核旨在提高速度,突破低时延和单线程应用程序性能的限制。工作负载的代码体积正在不断增长,需要更强的执行能力。数据集也随着数据带宽的需求提升而大幅增加。全新性能核微架构带来了显著增速同时更好地支持代码体积较大的应用程序,与现有CPU架构相比,性能核的改动可以归纳为更宽、更深、更智能。
从Skylake到SunnyCove,前端的改动非常小,主要是增大了缓冲区,而GoldenCove这次则是直接拓宽了前端,解码长度从16字节翻倍到32字节,解码器由4个增至6个,每时钟周期执行微指令从6增至8。微指令队列每个线程从70条目增加到72条目,单线程则从70增加到。微指令缓存从2.25K扩大到4K,增加了命中率与前端带宽。
增强了编码预取能力,4K指令TLB从条目增加到条目,2M/4M指令TLB从16条目增加到32条目,分支目标从5K增至12K,同时改进了分支预测精度,具备更智能的编码预取机制。
乱序引擎分配由5路增至6路,执行端口由10个增至12个,重排序缓冲区当年SunnyCove已经从条目增加到条目,现在GoldenCove进一步增加到条目,重命名和分配阶段也可以执行更多指令。
整数执行引擎增加了第五个通用执行端口,五个端口都有ALU和LEA单元,增加ALU数量很重要,因为ALU操作非常普遍,很多软件都对其加以利用。
矢量执行引擎在端口1和端口5下方各加了一个FADD快速加法器,此前Intel的处理器浮点加发都是交由FMA单元处理的,在端口0和1上需要4个时钟周期,而端口5上则要6个时钟周期,现在交由FADD做的话只需要3个时钟周期,效率更高而且延迟更低。
FMA单元现在支持FP16浮点数据类型,它属于AVX-指令集的一部分,这在加速网络应用方面非常有效。
此外端口5上还多了个AMX单元,它的全称是AdvancedMatrixExtensions高级矩形扩展,它可执行矩阵乘法运算,现在支持AVX_VNNI的处理器每个内核每时钟周期可执行次int8运算,而现在借助AMX可让这性能提升至8倍,达到每时钟周期执行次int8运算,这可用于AI学习推理和训练,让处理器的AI性能大幅加速。
缓存系统方面,增加了一个AGULoad的端口,载入端口从2个增加到3个,吞吐量提高了50%,可同时载入3组bit的数据或2组bit的数据,这有效的降低了L1缓存延迟,同时加深了载入与存储缓存区,使其具备更强的内存并行性,对大型数据和代码体积较大的应用程序提供更好的支持。
L1数据TLB从64条目增加到96条目,L1数据缓存可并行多获取25%以上的未命中,数据预取器得到了增强,可面对更强的乱序执行架构,可同时服务4个page-tablewalks,较上代架构翻了一倍,这对现代大型、不规则数据集的工作负载更为有利。
L2缓存桌面与移动端每核心还是和TigerLake一样是1.25MB,但与现在11代桌面处理器相比则是增加了%,服务器的SapphireRapids则是每核心2MB,优化了全写入预测带宽,减少内存读取。
GoldenCove相比目前第11代酷睿桌面处理器的CypressCove,在通用性能的ISO频率下,针对大范围的工作负载实现了平均约19%的性能提升,大家可以理解成IPC提升了这么多。
两种核心的性能差距
那么效能核与性能核之间到底有多少性能差距呢?
传统的处理器,单线程性能与多线程性能是呈线性关系的,核心架构的单线程性能越强,多线程性能就越强
但在AlderLake这种混合架构处理器中就不一样了,P-Core性能核的目的是提升处理器的单线程性能,而E-Core效能核的目的设计目的则是用更低的功耗来提升多线程性能,根据Intel的示意图,四个效能核加起来才等于一个性能核那么大。
在相同频率下,P-Core的性能比CometLake(也就是Skylake)提升了28%,比RocketLake提升了14%,而E-Core的性能也是要比经典的Skylake高一个点的,当然P-Core与E-Core的同频差距还是蛮大的。
性能核在同功耗的情况下单线程性能比效能核高出50%,而且实际情况是性能核的频率与功耗会比效能核高得多,所以这个差距会更大,当然了,效能核本身的性能不差,别把他们看作ARM处理器的小核。
多线程的时候就会变得很有趣,4个性能核与2个性能核加8个效能核的芯片尺寸应该是差不多的,前者有8个线程,后者则是4+8共12个线程,而Intel给出的测试结果是2+8的组合比单纯4个性能核多线程要领先50%。
很明显想提升多线程性能堆效能核其实更省芯片面积,更加划算,当然了实际使用时大部分应用不会直接把CPU的线程数占满,这时就需要性能核展现其高效的单线程了,Intel肯定是实际考量过各种日常应用的负载情况才有了各种不同核心数量组合的AlderLake处理器。
在制程和架构双升级的情况下,第12代酷睿处理器与上一代产品能耗比有非常大的提升。
上一代酷睿i9-K的PL2是W,而酷睿i9-K的PL2降低到W,虽然功率下降了,但多线程性能依然可以领先50%。如果把功率降低到W的话,它依然会比上一代有30%的性能提升,而要做到和酷睿i9-K相同的性能,酷睿i9-K只需要65W的功率就能做到了。
英特尔硬件线程调度器
AlderLake处理器内有性能核与效能核两种核心,为使操作系统能够更为正确的使用两种核心,Intel开发了一种改进的调度技术——IntelThreadDirector,也就是英特尔硬件线程调度器。
硬件线程调度器直接内置于硬件中,可提供对内核状态和线程指令混合比的低级遥测,让操作系统能够在恰当的时间将合适的线程放置在合适的内核上。硬件线程调度器具有动态性和自适应性——它会根据实时的计算需求调整调度决策——而非一种简单的、基于规则的静态方法。
传统的操作系统调度器会根据有限的数据来分配任务,如前台和后台任务,硬件线程调度器则是根据实时的监控内核状态然后做出一个动态和智能的反应,从而帮助操作系统做出更智能的调度决策,将需要更高性能的线程引导到当时适合的性能核上,它只需大概30ms就能识别出工作负载的类型并反馈给系统的调度程序。
这一点带来的最大好处是软件不需要重写代码,如果是固定线程调配,软件就需要考虑把哪些线程放到更高性能的核上,哪些线程要放到更追求能耗的核上面,而通过硬件线程调度器这种实时动态智能调整,软件不需要做这样的适配和调优。
其次是通过与微软合作,在Windows11系统上实现了硬件级别的线程调整,硬件线程调度器能够把更多内核信息通过回报给操作系统的调度器,操作系统就可以更好的在系统级别去做线程的调度,这套体系能更好服务于AlderLake混合的性能核和能效核。
至于Windows10系统,要用上硬件线程调度器还有一些工作要做,现在还没有更多信息可披露。
第12代酷睿处理器AlderLake
上面说了这么多架构方面的东西,其实都是第12酷睿AlderLake处理器的一部分,而接下来终于要介绍这款处理器的规格了。
AlderLake是Intel首款大规模推向各级市场的混合架构处理器,而此前的Lakefield只是一个试点,新一代处理器将采用Intel7工艺生产,也就是原本的10nmEnhanedSuperFin,会囊括TDP9W到W的产品,新的处理器支持DDR5、PCI-E5.0、Thunderbolt4以及WiFi6E。
AlderLake处理器有三种不同的封装方式,包括桌面的SocketLGA,移动版的BGAType3以及低功耗移动版BGAType4HDI,两种移动版的都会与PCH一同封装在同一块PCB上。
桌面版的最多8个效能核8个性能核,16核心24线程,配备32个EU的核显,TDP最高W,从方框图上可以看出桌面版的没有整合Thunderbolt4控制器,也没有用来处理图像输入数据的IPU图像处理单元。
移动版最多8个效能核6个性能核,14核心20线程,配备96个EU的核显,TDP应该在15W到45W之间,BGAType3的封装尺寸为50*25*1.3mm。
低功耗移动版最多8个效能核2个性能核,10核心12线程,配备96个EU的核显,TDP小于9W,BGAType4HDI的封装尺寸是28.5*19*1.1mm。
目前发布的只有六款桌面版处理器,包括Corei9-K/KF、i7-K/KF和i5-K/KF。其中酷睿i9有完整的8个P-Core和8个E-Core,16核24线程;酷睿i7少4个E-Core,12核20线程,酷睿i5则少了2个P-Core和4个E-Core,10核16线程。
AlderLake的每个效能核心可提供1条线程,而每个性能核心则可提供2条线程,所以才有了16核24线程这样的组合。L3缓存的话则是每个性能核心最多3MB,每4个效能核心也最多3MB,所以桌面版的最多会有30MBL3缓存,而移动版的应该是最多24MB。
各款处理器的具体睿频设置如下表所示:
核显从上一代的UHD升级到UHD,视频编码器翻倍到两个,最大输出从3屏增加到4屏,最大分辨率也从0*
60Hz提升至*60Hz,内核依然是Xe-LP架构,32个EU,不过由于制程的升级,频率从最高MHz提高到MHz,性能也有对应的提升。12代的默认功耗设置也进行了升级,现在不用TDP了,PL1叫处理器基础功耗,PL2则叫作最大睿频功耗,12代酷睿K系列处理器默认的功耗设置都是PL1=PL2,以酷睿i9-K为例,它默认的设置就是PL1=PL2=W,你在BIOS里面改回原来的那种设置,此时PL2=W,PL1=W,后续的非K系列处理器则会明确区分PL1与PL2功耗。
K/K/K处理器图赏
我们手头上12代酷睿处理器K系列处理器是齐的,有酷睿i9-K、酷睿i7-K以及酷睿i5-K,这三颗都是正式版。
第12代酷睿处理器的接口从LGA变成了LGA,外形也从LGA一直沿用的37.5*37.5mm的正方形变成了45*37.5mm的长方形,顶盖大小从上上一代的31.6*27.65mm增大到38.25*28.25mm,表面积增加约24%,理论上能提供更好的散热能力,同时也为散热器升级提供了契机,另外CPU防呆缺口位置也从左右两侧改成上下布置,缺口从两个增加到四个。
LGA(左)与LGA(右)触点对比,注意LGA的触点形状不是完全一致的
左边是酷睿i9-K,右边是酷睿i9-K
此外CPU的PCB与顶盖厚度也有所变化,经测量,PCB厚度从上代的1.21mm降低到1.12mm,但PCB加顶盖的整体厚度从4.35mm增加4.42mm,说明顶盖的厚度是有增加的。
实际上第12代酷睿处理器芯片的封装厚度以及所用的TIM材料与第10以及11代处理器相比是变薄了的,但顶盖厚度增厚了,Intel说这样有助于改善散热能力。
此外LGA插座的散热孔距从LGA15xx/插座的75mm改为78mm,但底座的高度降低了0.8mm,根据我们实测,底座再加装上CPU的高度总体上比上一代降低了约0.9mm,虽然有主板同时提供两种孔距,但使用LGA15xx/的扣具时会出现压力不足的问题,对散热性能有一定影响,主板厂提供旧孔距是为了方便玩家可以使用原来的旧散热器,但如果散热器厂家推出LGA扣具的话请立即更换。
搭配的Z芯片组
桌面版AlderLake可提供16条PCI-E5.0通道与4条PCI-E4.0,很明显PCI-E5.0是给显卡的,PCI-E4.0则是给M.2SSD,16条PCI-E5.0是可以拆分成两条x8的,但不能拆分成x8+x4+x4的模式。
CPU与ZPCH是用x8DMI4.0通道相连的,带宽相当于PCI-E4.0x8,与11代酷睿的x8DMI3.0相比带宽翻了一倍,是10代酷睿的4倍,现在CPU与PCH相连的通道是主流桌面平台上最宽的。
ZPCH最多可提供12条PCI-E4.0与16条PCI-E3.0。整套平台可提供PCI-E5.0/4.0/3.0各16条,一共48条PCI-E通道,作为对比,现在11代酷睿搭Z可提供20条PCI-E4.0与24条PCI-E3.0,共44条PCI-E通道,而AMD锐龙/处理器搭X平台则可提供36条PCI-E4.0。
其他的变化包括USB3.2Gen2*2接口数量从最多3个增加到4个,SATA口数量从6个增加到8个,整合的无线网卡也从WiFi6升级到WiFi6E标准,需要搭配AX无线网卡使用。
DDR5内存与XMP3.0
AlderLake的一大新特性就是支持DDR5内存,是第一款支持DDR5的处理器,根据JEDEC的标准DDR5起步传输速率就要达到MT/s,这也让DDR5在最初就会拥有比DDR4高出50%的传输频率。
当然DDR5并不是通过提升频率来提高传输率的,而是提高数据预读取位宽,DDR4和DDR3都是8-bit预取宽度,在DDR5上每个时钟周期都会预取16-bit的数据,让等效频率的倍数再翻倍,在与DDR4核心频率相同的情况下,DDR5内存的等效频率要比DDR4高出一倍,并引入判决反馈均衡器帮助改善信号纯度。
此外在使用DDR5内存时会发现安装两条内存时CPU-Z里就会显示你在用四通道,当然这并不是传统意义上的四通道,总内存位宽还是-bit没变的,DDR5将单条DIMM分割成了两个更小的通道。原本每根DIMM上只有一个64-bit宽度的数据通道,现在总的数据宽度没有变化,但它是由两个32-bit的子通道所组成的,两个相互独立的子通道将可同时进行数据读写操作,大大提升了内存操作的灵活度。
DDR5与DDR4的防呆缺口位置是不一样的
供电方面,DDR5除了把标准电压从1.2V降低到1.1V外,还把内存供电模块转移到内存上,以往这部分是主板负责的,现在内存可以自己管理电压,这样可提供更好的供电环境,使其工作更为稳定,速度更快、容量更大的DDR5内存对供电纯净度的要求更高,另一个是可以减小主板设计的复杂程度,降低主板的成本。
Intel在DDR3时代推出了XMP1.0,DDR4时推出了XMP2.0,现在DDR5来了,XMP3.0也来了,与上代相比主要改进地方有三点:
1、预设文件从原来的两个增加到五个,其中三个是出厂就写死不可再更改的,另外两个可供用户自行更改,这样玩家就可以把自己设置好的时序、电压直接写到内存上,换了主板也只需要打开对应的XMP文件就可以了。
2、现在可以用16个英文字母来命名自己的XMP文件,这样使用时会更加便利,也有利于分享。
3、现在电源管理芯片在内存上面,有VDD、VDDQ和VPP三个电压,XMP3.0也包含这三个电压。
12代酷睿桌面版同时支持DDR5和DDR4两种内存,官方给出的频率是DDR5能到MHz,DDR4能到MHz,并且支持动态内存频率调整技术,如果说CPU负载比较高,就会跳到比较高的频率,也就是XMP的频率。没有负载时它会调回它自己的默认频率,此功能可以在BIOS里面开启,只要是支持XMP的DDR4和DDR5内存均可开启。
PCI-E5.0
AlderLake也首次把PCI-E5.0引入消费市场,与之前的PCI-E4.0相比,PCI-E5.0依然采用同样的b/b编码方式、目标比特误码率(BER)、信令和加扰方案等,但更改了EIEOS和数据比特率定义等。此外,还有其他的设计更改,比如二阶响应的时钟数据恢复(CDR)和CEM连接器。
PCI-E5.0带来了更高传输速度,x16带宽(双向)从PCI-E4.0的64GB/s提升到了GB/s,提高了设备传输速率的上限,以满足数据中心、高性能计算、边缘计算、机器学习、人工智能和5G网络等场景里日益增长的带宽需求,也可以让设备制造商用更少的通道数实现同样的带宽。
在PCI-E5.0的物理和电气接口规范基础上推出了对应的CXL2.0规范,增加了内存池的支持,以最大限度地提高内存利用率,并且提供了对持久性内存的标准化管理,允许与DDR同时运行,从而可以释放DDR用于其他用途,同时向后兼容CXL1.1和CXL1.0版规范。CXL作为一种开放性的互联协议,能够让CPU与GPU、FPGA或其他加速器之间实现高速高效的互联,满足现今高性能异构计算的要求,并且提供更高的带宽及更好的内存一致性。
CXL2.0使得PCI-E5.0的应用进一步拓展,解决了CPU到设备、设备到设备之间的内存一致性和统一问题。
测试平台与说明
这次要测试的处理器包括12代的酷睿i9-K、酷睿i7-K、酷睿i5-K,我们拿了上代对位的酷睿i9-K与酷睿i5-K来对比,由于酷睿i7-1K与酷睿i9-K的差距不大所以就不对比了,但加了个采用Skylake内核的酷睿i9-K给大家作参考,至于对手AMD那边我们也基本把锐龙全拿出来了,包括锐龙X、锐龙90X、锐龙X和锐龙X。
LGA平台使用华硕ROGMAXIMUSZHERO主板,LGA平台则是ROGMAXIMUSXIIIHERO,AM4平台用的是ROGCROSSHAIRVIIIFORMULA,为了避免显卡上的瓶颈,采用了NVIDIAGeForceRTXFounderEdition显卡。内存方面LGA平台是两条16GB芝奇RIPJAWSS5DDR5-,时序是CL40-40-40-76,而LGA与AM4平台则采用两根16GB的皇家戟DDR4-,时序是CL16-19-19-39。
散热器统一使用华硕ROG龙神II一体式水冷,比如还有像APEXPlusi这样的LGA平台专用的散热器,为了统一测试平台,我们选择了龙神II。
酷睿i9-K在测试中全程开启AdaptiveBoostTechnology,温度与功耗限制采用主板设置,不过Intel平台功耗设置都是解除的。12代酷睿处理器是可以把能效核全部关闭的,但性能核至少得开一个,所以纯能效核的性能是测不了的,但可以测试纯性能核的成绩,我们就拿酷睿i9-K把所有效能核关闭单独测一个成绩,经过我们测试,把效能核全关后AVX-就能开启。
CPU缓存与内存测试
12代酷睿处理器同时支持DDR5和DDR4内存,DDR4内存控制器分频设置和上代是一样的,频率在MHz下时会工作在1:1模式,而超过MHz就会工作在1:2模式,而DDR5内存默认就会工作在1:2模式,此外DDR5还有个1:4模式,但以目前DDR5的频率,尚需要一段时间才能找到分频点是多少。
现在DDR5内存才是刚起步阶段,频率不高但时序非常高,结果就是酷睿i9-K搭配DDR5-内存与DDR4-相比内存带宽高出将近50%,但内存延迟也从55ns暴增到74ns,此外酷睿i9-K在使用DDR4时内存延迟是要比酷睿i9-K要高的,但依然比锐龙X低。
再来看看缓存,AIDA64的一级和二级缓存带宽是算所有核心平均值的,所以测出来这个值并不代表性能核的表现,但延迟是用性能核来跑的,可以看得出二级缓存的延迟是略微所上升,三级缓存的带宽翻了一倍,但延迟也加了许多。
基准性能测试
SisoftwareSandra的处理器多媒体测试是支持AVX-指令集的,处理器多媒体测试的浮点项目是支持该指令集的,所以酷睿i9-K在关闭所有效能核后在这测试里得分反而高了。正常跑的话酷睿i9-K整数和浮点性能基本都和锐龙X差很多,但浮点性能可以做到与锐龙90X互有胜负。而酷睿i7-K基本上能浮点性能都比用AVX-的酷睿i9-K更高,也要高于锐龙X。酷睿i5-K的浮点性能也要优于酷睿i5-K和锐龙X。但处理器多媒体测试项目里面12代酷睿的表现有点奇怪,我怀疑这项测试只用到了性能核。
处理器计算测试的话,酷睿i9-K的整数性能比锐龙90X要好,但弱于酷睿i9-K和锐龙X,但精度浮点性能它是最好的,但双精度时下滑得非常厉害,12代酷睿都有这个现象,比较有趣的是双精度浮点计算只使用性能核的酷睿i9-K性能下滑幅度和前两代产品是差不多的,所以有一定可能性是效能核没参与这项测试。
得益于DDR5内存的高延迟AlderLake跑SuperPi反而比上一代RocketLake还要慢,这测试虽然说是频率至上,但CPU与内存的延迟也是一个很重要的因素,在L3和内存延迟大幅增加的情况下AlderLake在这项表现不太好,但依然要比对手的Zen3要好。
另外这次没有wPrime测试,因为AlderLake会把这测试的线程全扔给效能核去跑,得出来的成绩根本不正常,不过这也是很古老测试,程序不更新不适应新处理器也是没办法。
国际象棋这测试最多只能测试16线程,并不适用于这次的全部受测产品,所以我们只用它来测试CPU的单线程性能,酷睿i9-K的性能和锐龙X没太大区别,酷睿i7-K的性能略低于上代旗舰酷睿i9-K,而酷睿i5-K的表现比酷睿i5-K好得多,和锐龙X很接近。
7-zip使用最新版本内置的Benchmark测试,在压缩测试里面酷睿i5-K的表现其实已经比上代旗舰酷睿i9-K更强了,比十核的酷睿i9-K弱一点,只使用性能核的酷睿i9-K表现都比对手8核的锐龙X强不少,但8+8的酷睿i9-K依然比不过12核的锐龙90X。
解压缩测试,酷睿i5-K要优于锐龙X,但与只有8个性能核的酷睿i9-K差距还蛮大的,酷睿i7-K表现优于酷睿i9-K与酷睿i9-K,但略低于锐龙X,酷睿i9-K表现比锐龙X好得多,但与锐龙90X差距很大。
3DMarkCPUProfile测试可以测试CPU在不同线程下的性能表现,其实酷睿i9-K和在1到8线程时性能都是由于对手锐龙X的,但16线程则是对手高一点,最大线程依然是酷睿i9-K好,估计是锐龙X在32线程全开时频率下降比较厉害。酷睿i7-K在任何线程下表现都比锐龙90X好,但在1到8线程时性能表现低于酷睿i9-K,同样酷睿i5-K在任何线程下都比锐龙X强。
关闭效能核的酷睿i9-K在4线程与8线程的跑分结果下降幅度很大,16线程时全开的酷睿i9-K会有优先把辅助交给效能核而不是用性能核的超线程,此时只有性能核的酷睿i9-K性能会下降10%,在特定线程下效能核作用还是很大的。
创作能力测试
x以及x是两个老牌开源编码器,应用相当广泛,这次我们使用了新版本的Benchmark,它能更好的支持AVX2指令集,此外x的测试是支持AVX-的,这测试酷睿i9-K的结果和锐龙X相当接近,酷睿i7-K的表现略低于锐龙90X,但比锐龙X好得多,而酷睿i5-K的表现则强于酷睿i9-K。
X的测试里面酷睿i9-K与酷睿i7-K的差距没拉开很多,表面这测试没有充分利用这些处理器的全部线程,他们两个的表现都优于锐龙90X,酷睿i5-K的性能表现强于锐龙X,和酷睿i9-K毕竟接近。
CoronaRenderers是一款全新的高性能照片级高真实感渲染器,可以用于3DSMax以及MaxonCinema4D等软件中使用,有很高的代表性,这里使用的是它的独立Benchmark。这测试里酷睿i9-K和锐龙X差距还蛮大的,但表现优于锐龙90X,而少了四个效能核的酷睿i7-K表现则不如锐龙90X,但比酷睿i9-K和酷睿i9-K强,酷睿i5-K表现则强于锐龙X。
POV-Ray是由PersistenceOFVisionDevelopment开发小组编写的一款使用光线跟踪绘制三维图像的渲染软件,其主要作用是利用处理器生成含有光线追踪效果的图像帧,软件内置了Benchmark程序。单线程测试12代酷睿表现得十分生猛,对上代基本上是两位数的性能提升,多线程的表现也不弱,酷睿i9-K领先锐龙X,酷睿i7-K也领先锐龙90X,酷睿i5-K也比锐龙X强,顺便把自家上两代旗舰也超了。
V-Ray是由专业的渲染器开发公司CHAOSGROUP开发的渲染软件,是业界最受欢迎的渲染引擎,其内核可应用在3Dmax、Maya、Sketchup、Rhino等多个软件内,测试使用的是官方Benchmark。这项测试里,酷睿i9-K的表现略低于锐龙X,但比90X强,酷睿i7-K得分比锐龙90X低一些,但比酷睿i9-K和酷睿i9-K好得多,酷睿i5-K的性能表现和锐龙X是比较接近的。
Blender是一个开源的多平台轻量级全能三维动画制作软件,提供从建模,雕刻,绑定,粒子,动力学,动画,交互,材质,渲染,音频处理,视频剪辑以及运动跟踪,后期合成等等的一系列动画短片制作解决方案,我们使用的是2.93.5版本,现在只用测试工程来测试CPU的单线程性能,多线程测试使用官方的Benchmark工具。12代酷睿处理器单线程性能表现依然非常优秀,即使性能核频率最低的酷睿i5-K单线程都比上代的酷睿i9-K更快。
这次多线程测试跑了全部六个项目,其实酷睿i9-K和锐龙X、酷睿i7-K和锐龙90X、酷睿i5-K和锐龙X在不同测试里面是互有胜负的,但总耗时其实AMD那边还是要低一点,但12代酷睿与自己上两代相比确实提升非常大。
CINEBench使用MAXON公司针对电影电视行业开发的Cinema4D特效软件的引擎,该软件被全球工作室和制作公司广泛用于3D内容创作,而CINEBench经常被用来测试对象在进行三维设计时的性能,R20与R23的差别其实不算大,主要区别是R20的默认测试是只渲染一次,而R23则是最低渲染10分钟。这两个测试12代酷睿处理器提升非常大,单线程与11代酷睿有两位数的性能提升,多线程即使是酷睿i5-K都比酷睿i9-K要高,酷睿i9-K领先锐龙X,酷睿i7-K也领先锐龙90X。
ULProcyon的图片编辑测试,会使用PhotoShop与Lightroom两个软件,其实可以把图片修饰测试看作PhotoShop的结果,而批量处理看作Lightroom的测试结果,其实这两个软件测试关掉效能核的酷睿i9-K表现是最好的,但和核心全开的也没太大差距,整体表现的话酷睿i7-K其实比锐龙X还好一些,酷睿i5-K比锐龙90X好一点,但没酷睿i9-K强。
而视频编辑测试用的就是PremierePro,测试分CPU与GPU的渲染导出,在GPU渲染时是利用显卡来加速视频的编码与解码,但主渲染线程还是得由CPU来负责,所以即使用显卡加速导出视频,CPU依然有数个线程占用会比较高,而纯CPU导出的时候其实也用不到CPU的所有线程,但这测试依然反馈了这CPU在运行PremierePro时的实际表现,相当有参考价值,测试的总成绩是12代酷睿全部都名列前茅,其实原因就是它们在CPU导出测试里面比其他的快得多,所以总分自然高。
游戏性能测试
游戏测试为了反映CPU的真实性能,测试全部都是在p分辨率下进行的,尽量减少显卡上的瓶颈,不过画质依然是开启最高,但《银河破碎者》是没有开光追的,FSR也没开。
很明显《地铁:离去重制版》的瓶颈依然是显卡上,Extreme画质的需求太强了,其他游戏基本上都是12代酷睿的天下,毕竟上代的酷睿i9-K基本上就能在游戏上赢过AMD的锐龙系列处理器,现在的酷睿i5-K在游戏上的表现基本上可以与酷睿i9-K打平了,而核心数量更多频率更高的酷睿i7-K和酷睿i9-K会提供更好的游戏体验。
需要注意的是酷睿i7-K在《尘埃5》、《地铁:离去重制版》和《银河破碎者》里面开启全部核心会报错,把效能核关掉就不会出现这问题,但酷睿i9-K和酷睿i5-K在测试时并没有出现这个问题,12代酷睿的游戏兼容性其实还比较迷,但等游戏更新后应该就能解决问题。
酷睿i9-K在关闭效能核后游戏性能基本没有影响,部分游戏甚至还能跑出更高的帧数,表明游戏的线程基本上不会被分配给效能核的,即使会分配过去也是不太重要的后台进程。
温度与功耗测试
在功耗测试方面,我们使用专用的设备直接测量主板上CPU供电接口的供电功率,但也会给出软件记录的CPUPackage功耗数据,虽然CPU的供电主要来源是CPU供电接口,但我们也发现有一小部分是来自24pin接口的。
此外必须说明的是,目前我们测量的是主板上CPU供电接口的输入功率,并非直接的CPU供电功率,因此从该理论上来说应该是略高于CPU的实际供电功率,而且会更因为主板的不同而产生变化,但是这个测试数据仍然有很高的参考价值,因为电源实际上是对主板进行供电而非直接对CPU进行供电,因此对于电源的选择来说,直接测试CPU供电接口的供电功率更有实际意义。
主板的温度保护和功率设置都维持默认值,AIDA64FPU烤机并没有使用AVX-。
其实从CPUPackage功耗来看的话,酷睿i9-K的功耗比酷睿i9-K和酷睿i9-K是要更高一点的,不过温度的话则是酷睿i9-K比较高,FPU负载下满载达到了93.5℃,以龙神II水冷来看还是压制住了。不过如果我们把酷睿i9-K的效能核关闭后,其核心电压会自动升上去,虽然看上去功耗有所降低,但温度更高且频率更低,显然是进入到温控保护状态了。
至于酷睿i7-K和酷睿i5-K,他们两个就温和得多,前者CPUPackage功耗只有W,后者只有W,两者的温度也不算高,比酷睿i9-K好压多了。
待机测试并不是完全桌面待机,而是开着HWinfo在一旁监控的,有很轻度的负载,但这样其实更贴近日常使用的待机状态,在待机是AlderLake的效能核价值体现出来了,待机功耗非常的低,如果把效能核关闭的话待机功耗会提升很多,酷睿i9-K就从9.8W提升到了14.4W,不过即使是纯性能核待机时功耗依然比对手以及自己的一众14nm处理器更低。
DDR4与DDR5内存的选择
第12代酷睿处理器是同时支持DDR5和DDR4内存的,都有不少对应的Z主板,我们简单对比了酷睿i9-K在使用DDR5-和DDR4-时的性能,给大家在选择内存时做个参考。
CINEBenchR20测试用DDR4还是DDR5差别不大。
对内存带宽比较敏感的压缩软件7-Zips结果比较有趣,压缩测试带宽更高的DDR5是明显比DDR4快的,但解压缩DDR4却比DDR5更快。
游戏里面带宽更高的DDR5内存会比DDR4快一点,但整体差价不会很大,总体来说用DDR4和DDR5不会有太大差别。
总结
AlderLake对于x86处理器来说是一个重大的变革,能效核与性能核这种混合x86架构是首次大规模应用到消费级市场上,而PCI-E5.0与DDR5内存也是由AlderLake处理器首次消费级市场,两年前被AMD抢了PCI-E4.0的首发后,这次Intel直接拿下了PCI-E5.0与DDR5的首发,说AlderLake是一款非常激进的处理器也不为过。
此外陪伴多年的Intel14nm终于要说拜拜了,第12代酷睿处理器采用了最新的Intel7制程,再加上全新的Gracemont与GoldenCove内核,能耗比大幅提升,单线程性能至少比上一代产品提升了11%,达到官方宣称的19%IPC提升是完全可能的,多线程方面,采用8+8组合的酷睿i9-K比上一代8核的酷睿i9-K提升了43%之多,就如Intel所说那样,效能核其实是引爆处理器多线程性能的关键。
当然了目前开着效能核可能会出现游戏或者软件兼容性的问题,这是因为系统线程调度引发的,这些问题是有概率的,现在也不好说这概率是大还是小,不过如果真碰到的话可以把效能核关了基本都可以解决,当然这也会引起处理器功率与温度上升的情况,这个问题我们日后再探讨。
随着单线程性能的提升,游戏性能也随之提升,上一代的酷睿i9-K其实已经可以在游戏方面战胜全部AMD锐龙系列处理器,但酷睿i5-K的游戏性能是要比它还要高1.5个百分点的,更别提性能更强的酷睿i7-K和酷睿i9-K。
CPU迷你天梯榜(完整CPU天梯榜)
从我们的CPU天梯榜上可以看到,12代酷睿处理器在多线程性能上其实是要比对位的锐龙系列处理器弱一点,但他们的单线程性能是绝对领先的,如果应用程序不能利用全部线程的话他们就会有很大的领先优势,上面的Adobe的PhotoShop、Lightroom以及PremierePro的测试结果就很能说明这个问题,真正能完全利用CPU全部线程的应用估计就只有仿真以及渲染类应用了。
售价方面,旗舰级的酷睿i9-K是元,酷睿i7-K是元,酷睿i5-K是元,完全对位对手的锐龙X、锐龙90X和锐龙X,与对手相比,第12代酷睿处理器可提供更强的单线程性能,游戏性能是彻底领先的,而且与之搭配的Z平台可提供强得多的扩展能力,12代酷睿的到来对AMD来说是一个非常大的冲击。
对于游戏玩家来说,酷睿i9-K代表着目前最强的游戏性能,价格自然也很贵,少4个效能核的酷睿i7-K其实是一个性价比非常高的选择,酷睿i5-K少了两个性能核所以差距还是很明显的,但在游戏方面影响不算大,所以酷睿i7-K和酷睿i5-K对追求性价比的玩家来说都是一个不错的选择,至于DDR5内存,想尝鲜的可以去试下,日后还可以换频率更高的,但对于务实的玩家来说,DDR4才是最佳的选择。