【图吧杂谈】为什么IPC或同频性能代表不了芯片设计水平?

2024-02-23 半岛足球俱乐部官网首页下载

  额……老铁们,我图吧老捡垃圾的了,今天咱简单说下为什么IPC或同频性能代表不了芯片设计水平这个问题。

  前作:为啥说兆芯挤牙膏是伪命题 中我们提到了同频性能不能代表芯片设计水平,能效对现代芯片产品改变使用者真实的体验甚至使用成本至关重要的这个概念,但是显然一些评论来看还是不能理解这样的一个问题,所以这期咱简单说明一下情况。

  前情提要:龙芯在抛弃MIPS之后一直在扩大单核心的规模,目前流水线发射的水平,同频性能号称打平了4发射的I3 10100。

  之前在4发射的3A5000出现之后,龙芯吧小吧主以及龙芯圈就以“IPC代表芯片设计水平”为幌子到处拉踩其他国产同行,包括华为海思。BV1v84y1q7d7 01:30

  《龙芯的足迹》反复宣称只有使用MIPS开发处理器才有国产处理器的未来,其他引进技术兼容现有指令集的路线S被央媒誉为的标志而不是3A6000。

  3A6000和麒麟9000S使用的自研CPU同为6发射的架构,虽然麒麟9000S只有一个大核三个中核是自研但是在功耗只有10W的前提下跑分同频性能达到50W的3A6000的一半。因此长期宣传同频性能代表芯片设计水平的回旋镖终于飞回来了。

  过去龙芯那些人总说引进技术、兼容ARM X86主流指令集架构是没有未来的,是买办路线,产品是买办CPU,就算有国产X86 ARM的自研也总是说什么单核性能太差,不能抗制裁,指令集会被人卡脖子,没了先进工艺性能就无法提升或者同频性能不行就是设计能力不行之类的鬼话。这个上期也说过了这套典中典的词。

  现在麒麟9000S上了自研大核中核架构之后老百姓终于见识到了华为海量的研发投入下砸出的强悍自研能力,丝毫不输苹果的国际水平(CPU+GPU全自研,还捎带手自研了NPU ISP DSP 5G基带等等,后者苹果没有),以及顶着制裁下的能力,虽然只有DUV工艺,但是已达到了能效不输三星4nm的水平(根据A510小核实测,顺带说下,A510小核的存在说明华为有ARMV9),而且因为自研的架构可能原定是给服务器使用核心规模很大,因此同频性能也不差,在控制整个芯片功耗在手机芯片的水平下,同频性能依然达到了很高的水平,1大核+3中核的跑分只比龙芯35W SDP 50W TDP的桌面级U低一点。

  按照龙芯那些人的理论应该算是设计能力先进了,虽然过去一直在攻击其他国产路线,而现在龙芯中科董事长胡伟武在学校演讲时面对学生提问关于过去龙芯在单核同频性能领先国内同行那么多结果现在华为新架构自研CPU与麒麟9000S跑分单核性能这么高和联系到鲲鹏920很可能这款IP未来会产生与龙芯的竞争关系时被这么一句无心之问直接造成暴击,导致其之前还在照着PPT夸夸其谈,而被问到之后语无伦次答非所问甚至前言不搭后语只得回避问题。“华为应该和苹果高通比”“这样的一个问题不好多说”“都在进步”:

  过去一直宣传所谓的同频性能=芯片设计水平的回旋镖终于甩回来了,而指令集自主才能实现全自主,把指令集与自主研发能力等同的论调也完全破产了。

  为什么我会知道这些?因为我看过《龙芯的足迹》这本书,龙芯把自己这么多年来的想法都写在里面了,甚至公开出了没有出版社和版号的书而且看售价应该出了不少本。他们就敢这么写在书里,和无法无天的美国佬一样什么坏的冒泡的事都这么白纸黑字的写出来,算是海内存知己天涯若比邻的一种志同道合了。

  其实现在回头看来,设计什么指令集的CPU都是设计,有自主设计自研核心的能力就可以了,至于性能高低的差异,也完全没法用单核同频性能去对比,因为大核心小核心的成本都是不一样的,就像虽然CORE和ATOM的单核性能迥异,但是从成本上看买一个大核心的成本可以买四个小核心,而四个小核心的性能就已经无论怎么看都不会比单个大核心低了而且在同样的制程下能耗可以更低(N4100 TDP:6W/解锁15W 9700K TDP:95W/解锁150W Intel14nm)。

  就像华为的鲲鹏920和现在麒麟9000S一样,鲲鹏920是一个类似小核心的设计,四核为一簇IOD CCD分离设计可以很容易的堆出64核的规模。思路就是单核可以弱一些但是在使用7nm工艺的前提下一个DIE就能放下32核心,服务器标准版两个CCD一个IOD就是64核:

  至于4核 8核 16核 48核之类的参数明显是屏蔽得到的,相当于这个核心因为面积很小良率就算低一些也很容易屏蔽有瑕疵的核心继续正常出厂,而由于IOD类似原来的南北桥依然是使用16nm工艺分立生产,所以CPU是一个比较纯粹的低成本的计算核心,大部分因为生产的基本工艺瑕疵损坏的次品也可以很容易的屏蔽掉损坏部分降级使用。

  至于鲲鹏930由于受制裁没办法使用麒麟9000同款5nm工艺无法量产所以咱并不知道是否原计划就是要扩大核心规模,据架构分析文章说现在的TSV架构很可能就是19年传说中的新款鲲鹏的架构。然而扩大核心规模的鲲鹏930和之前的鲲鹏920比肯定是存在进步但是无法证明华为过去研发实力就比现在弱设计能力就差,这个是没有因果关系的。无论采用大核心还是小核心其实都是基于市场做出的选择,英特尔既有大核又有小核难道说研发大核心的部门因为CPU同频性能高所以研发能力就强于研发小核心的部门?没有的事。

  原计划今年已经应该有鲲鹏950了,现在鲲鹏930依然没有发布。这个架构大概率是下放到了麒麟9000S上了。所以这个说明了一个问题是要么现在华为装备的鲲鹏920的性能优化算法之后够用不要升级迭代或者现在华为还能用XEON的FusionServer Pro,要么就是换大核心架构之后核心太多面积太大良率太低没法像手机一样砍了一大堆东西缩了缓存核心数也少降低了面积所以能相对不计成本的使用略差一些的国内工艺生产。代价太大没法批量生产,就算量产之后也会因为成本太高没法销售。

  顺带说下,鲲鹏920是HPC,需要提高算力加节点就是了。这还不算AI计算现在已经转向NPU,昇腾910在算法优化的前提下落后两代也能算出和国外相当水平的模型。纠结单核性能同频性能根本没用还要能够以尽可能低廉的成本提供尽可能更高的CPU性能、内存性能、I/O 性能以及网络性能。如果过于纠结单核性能核心过大很容易出现一种情况就是单核性能很强,但是产出之后用户用不起,如果能效还比小核心更低那就更拉了,对于超算来说反倒是反向升级,KW级的耗电能效稍微低一点很快就能体现在使用成本上。所以只有在见过的大多数计算机产品核心数都不多且没有接触过集群概念的情况下用户才会有闲心纠结同频性能单核性能这种东西吧。

  作为用户来说电脑和车一样是生产生活工具,是一个整体,使用的时候不仅要看发动机怎么样还要看售价看变速箱看油箱轮胎甚至看修车报价和旧车残值。所以很多时候对用户来说GPU比CPU对使用体验来说更重要。而矿潮那些年垃圾佬感觉最明显的就是由于显卡的涨价配不起好显卡一个个CPU就好像挂不上档一样有劲使不上。垃圾佬买得起I5 8400的板U当时也就1000多但是随便一张GTX960都涨到了800+笑死根本就买不起结果最后就只能核显UHD630凑合用,然后就基本告别什么大型3D AI运算之类的软件了除非用CPU硬算,游戏也别想,CPU用核显就像一个2.0T的发动机配个4AT的变速箱,这车是人就开着难受,还不如弄个5MT的手动挡。后来矿难之后给这机器花100配了张P106舒服了。

  而单论发动机来说就像CPU一样,设计时其实已经想好了该如何正确地处理。就像开车一样,用户其实不是非常关心CPU的单核性能而更关心整体性能以及能效,就像没人会纠结发动机是几缸,L4 L6 V8这些其实都无所谓,除非三缸机。正常的情况下只要车好开动力够省油就行了,至于它是四缸还是八缸甚至混合动力作为驾驶员来说这些其实都不是很重要,真正带来体验改变的无非是加速推背感以及大幅度降低油耗。换言之发动机排量差不多油耗也相近动力也相当的前提下,用户根本就不在意这车是L4还是V8。

  而CPU的同频性能甚至对不上单缸排量,单缸排量对应单核性能,同频性能的话就应该看发动机每次做功输出多少能量了,而有的发动机红线高转速可以拉上万,有的发动机干六千转就不行了,说到底功率上限和上述参数无关,用户最后还是得看整个发动机的最高功率以及经济油耗。所以CPU看同频性能这个参数也是没啥意义的,不如看看TDP和能效比这些参数,这是最终决定用户会用多少电设备需要顶多高发热的关键参数。

  然后说回同频性能和能效以及工艺之间的关系。不知道各位记得上期咱对比VIA以前的产品的时候发现90nm SOI工艺的C7M ULV在1.6G跑分是40nm TSMC工艺双核L4350 1.6G+/1.73G的约三分之一(象棋1.03倍/3.34倍)的情况下TDP只有约四分之一(7W/27.5W)吗?不同的架构不同工艺对功耗的影响其实很大,只不过各位可能不知道。所以垃圾佬宁可用45nm的AMD K10.5速龙羿龙也不愿意用32nm的推土机就是这样的道理。性能差不多,价格还更贵,功耗甚至更高,谁爱用谁用反正图吧垃圾佬捡垃圾都不用。

  其实想知道同样的架构不同的工艺会不会带来同频性能提升对比J1900/1800和Z8300的跑分其实就能算出来:

  单核每37.35,反倒更低了,说明最佳频率不在这么高,毕竟14级流水线两发射的架构。

  单核每Ghz35,同频性能(所谓的IPC)基本没变,甚至略低于J1800。

  这就能看出来怎么回事了吧,Airmont是Silvermont的衍生微架构,14级流水线nm时代Intel引入了乱序执行到14nm初代ATOM架构是没怎么改过的。Airmont核心面积减少了64%,是专门为手机和平板等平台推出的处理器架构。因为锁了功耗所以其实在架构基本不变的前提下CPU整体的跑分其实也相对更低了得解锁功耗性能才能起来。

  简单来说盲目上先进制程不仅不会提升同频性能,对功耗也没啥帮助(参考AMD 32nm FM1的K10.6,比45nm的K10.5能效好不到哪去)。

  FM2的打桩机到挖掘机,28nmGF制程不变的前提下功耗降低40%,面积几乎相同,但晶体管数量增加29%,虽然跑分来看同频性能基本没变甚至相比一些过去高端的型号频率还降了(比如A10 7870K在频率更高的前提下跑出的分数比A8 7680更高),但是同样画质同样显卡帧数就是能提高,影响CPU使用体验的除了跑分和能效以外还有访存能力 延迟 分支预测精度 缓存命中率之类的,其实这些能提高使用体验也都能提高。

  作为垃圾佬比较遗憾的就是AMD在ZEN1之后放弃了HSA异构APU的发展,其实到后期挖掘机的U能效十分好的,甚至有45W的2M4T,按这个能效上了14/12nm之后出个4M8T甚至8M16T也不是不行可惜历史没有如果。RYZEN好歹也算得上是比较阳间的产品虽然有点性能之后AMD价格就起来了但是无论怎么说好歹不失为一个正经产品,有一点利润提供研发是能够理解的,总比买个体验感人的垃圾回来强,不论什么价钱用着遭罪浑身难受就够呛。

  最后简单说结论吧:就像提高CPU的流水线级数就更容易超频一样,核心大流水线宽度高同频性能自然就高,核心简单规模小单核同频性能自然就弱,但是功耗却能够更好的降低也能够更好的降低面积降低生产所带来的成本甚至更容易堆核最后产品的总体性能不一定会比大核产品差而且通常能效比和性价比更高。所以就像垃圾佬之前说的芯片产品不能不顾能耗唯性能论一样,唯同频性能(或者被一些人称为IPC)论也是相当不可取的,这种思想就像是二十年前看见奔腾4就大喊高频低能那些人一样,如今看来给人感觉是只知其表不知其里,奔腾4也好推土机也好带来的使用体验恶劣是因为感人的能效比,而不是糟糕的同频性能,同频性能很差的ATOM、ARM用着都好好的,提高能效堆核就好了。

  所以今天看来一些人总喜欢拿同频性能代表芯片设计水平说事,属实是比较拙劣的话术了。话说这些人该不会真是这么想的吧不会吧不会吧不会吧,不会真有人觉得能效比和芯片架构+物理设计水平无关吧,不会有人不知道在工艺不变的前提下能够最终靠改进设计提升能效吧?