为什么还用A76 ? 麒麟990 详细解析

发布时间：2019-10-07 12:26浏览次数：作者：

返回列表

昨天，华为在德国柏林和北京同时发布最新一代旗舰芯片麒麟990系列，包括麒麟990和麒麟990 5G两款芯片。两款芯片在性能与能效、AI智慧算力及ISP拍摄能力等方面进行全方位升级。这标志着，华为在5G和端侧AI两大领域同时实现了全球引领。

两款SoC：麒麟990（4G）和麒麟990 5G

随着我们进入5G时代，现在市场上出现了分差，很多区域还没有准备好5G，因此迫切更换到5G手机的需求不是特别大。所以4G手机将会和5G手机共存一段时间。华为不是为这两个市场提供单一解决方案，而是首次将其战略与两种版本的麒麟990分开。这些版本将正式称为麒麟990和麒麟990 5G。两个麒麟芯片组和标准基本级基本相同。相同的核心配置，相同的相机支持，相同的内存，相同的存储。但是，在调制解调器之外的一些关键领域，存在差异，例如NPU性能和核心频率。我们稍后会讨论这些问题。但值得强调的是，麒麟990 5G版本是如何展望未来的。现在高通、三星每家公司都宣布了自己的分立式5G调制解调器，这意味着我们有一个带有4G的标准处理芯片，然后还需要外挂一片5G支持芯片。这样做及增大了成本又增加了线路板的面积。因此如果要获得最佳性能，5G芯片应集成在同一硅片上，在5G模式下实现更高的效率，以换取芯片面积和设计复杂性。华为是第一家为智能手机市场做到这一点的公司。

Kirin 990 5G是一种真正的统一设计，支持SA和NSA架构上的Sub-6 GHz 5G网络。为了控制芯片尺寸，华为正在使用台积电最新的7nm+制造工艺和EUV，这有助于为芯片进入的各种器件实现更小的芯片尺寸。到目前为止，无论是高通还是三星都没有统一的接近商业化的旗舰芯片设计。（虽然早前联发科近日也推出了集成5G SOC，但是首部搭载该款芯片的手机要到明年推出）。麒麟990系列详情这次麒麟 990 5G 挑战了芯片工艺物理极限，在一颗指甲大小的芯片上集成了 103 亿晶体管，是目前晶体管数最多、功能最完整、复杂度最高的 5G SoC。与此前的麒麟980相比晶体管增加44亿个。

由于采用了TSMC的7FF+和EUV，这使得芯片面积并没有增加太多。

麒麟980 5G芯片面积仅100平方毫米（4G版本80亿晶体管，面积90平方毫米），麒麟980（TSMC 7纳米，69亿晶体管）为74.13平方毫米而麒麟970（TSMC 10纳米，55亿晶体管）则达到了96.72平方毫米。可见7FF+工艺的带来的芯片面积减小相当的可观。

CPU

两个SoC的核心配置相同 - 两个高频A76内核，两个中频A76内核和四个更高效的A55内核。它们分为各自的功率和频率域，可根据工作负载提供更好的灵活性。然而，基于7和7+过程之间的差异，990 5G和990 4G的频率会略有不同。

对于高速缓存，所有四个A76内核都具有512kB L2，而A55内核各为128 kB。从技术上讲，华为将A76内核称为“基于A76”，因为对缓存系统中的内核进行了一些增强，以改善内存延迟。华为不会说它的“SmartCache”实现有助于GPU，也可以帮助CPU和NPU。我们认为这基本上是DynamiQ DSU之上的下一级缓存，类似于高通和三星的实施。

这里有一个侧面说明：我们原本预计华为将在今年早些时候宣布推出采用Arm最新A77核心的全新麒麟。尽管作为Arm合作伙伴的优先成员，该公司的技术团队向我们解释了两件事：首先，两年前核心决策是针对这款芯片做出的，但除此之外，他们没有看到台积电的A77预期频率。7nm工艺。

华为表示，虽然A77达到了更高的峰值性能，但A77和A76在7nm上的功率效率实际上是相同的，但是由于A76在7nm上的体验更好，他们能够将核心频率推得更高。据报道，其他拥有A77产品的公司在其他晶圆厂采用类似的工艺技术时，只能达到2.2 GHz。据说A77很可能会在未来的产品中出现，最有可能的是当5nm变得更加广泛可用。此外关于LPDDR5支持的话题，华为表示LPDDR5仍然是一项昂贵的技术，正在考虑未来的产品中使用。

GPU

提高核心，降低主频。麒麟990 采用了16核Mali-G76实现，高于麒麟980中的10核Mali-G76。部分原因是芯片尺寸增加：华为认为更低的电压，更低的频率但更宽的GPU将提供更好的芯片整体。

随着我们从10核750 MHz设计转向16核700 MHz设计，GPU的性能有所提升。

NPU

除了实现了内置5G调制解调器，麒麟990最大的变化将是NPU。在麒麟970和麒麟980 中，华为直接采用了寒武纪公司提供的NPU许可。随着麒麟810以及最新的990的问世，已经完全转向了采用华为自研达芬奇架构的NPU。

在AI+5G的全新赛道，麒麟990 5G将再度引领AI潮流。麒麟990 5G是首款采用华为自研达芬奇架构NPU的旗舰级芯片，创新设计NPU双大核+NPU微核计算架构，NPU大核展现卓越性能与能效，微核NPU实现超低功耗。达芬奇架构是华为在2018年推出的全新自研AI计算架构，基于其灵活可裁剪的特性，华为面向全场景推出昇腾（Ascend）系列芯片，可用于小到几十毫瓦，大到几百瓦的训练场景，横跨全场景提供最优算力，而此次麒麟990 5G搭载的正是面向智能手机场景的Ascend Lite和Ascend Tiny。在双大核NPU（Ascend Lite*2）加持下，麒麟990 5G实现业界最强AI算力，与业界其他旗舰AI芯片相比，性能优势高达6倍，能效优势高达8倍，持续刷新端侧AI的算力高点。无论是在业界典型的中载神经网络模型ResNet50（用于检测、分割和识别），还是在移动端更流行的轻载神经网络模型MobilenetV1（用于分类、检测、嵌入和分割）下，麒麟990 5G的FP16和int8性能和能效均达到业界最佳水平。业界首发NPU微核（Ascend Tiny）赋能超低功耗应用，在人脸识别的应用场景下，NPU微核比大核能效最高可提升24倍，让AI运算更省电。在990 5G和990 4G之间也存在差异。除了调制解调器，GPU和制造工艺之外，芯片尺寸差异的一个原因是990 5G的NPU内核数量是其两倍。990 5G将拥有两个“大”NPU核心，同时支持双ML流程以及Tiny Core NPU。相比之下，990 4G只有一个“大”NPU核心，加上微核NPU。这意味着我们可能会看到Kirin 990 4G设备可能无法实现的某些功能。

巴龙调制解调器

除了是第一款集成智能手机5G设计外，最终华为并未提供有关新5G调制解调器或4G设计更新的详细信息。据称，麒麟990 5G是第一款商用的支持NSA和SA架构的全频调频调制解调器。

峰值速度将高达2.3 Gbps下载和1.25 Gbps上传，额外的基于ML的波束成形技术有助于在高速旅行期间支持更快的速度。对于弱信号区域，该设计还允许同时连接到5G和4G。我们确认该公司仍在使用Tensilica DSP，技术团队表示尽管存在国际问题，但Tensilica的许可仍然有效。

麒麟990 (5G)的性能

图中所示从Kirin 980到Kirin 990 5G的单线程性能增加了9％，主要是通过更高的主频来实现。多线程性能整体上涨10％。然而，与去年相比，中端A76核心的电源效率提高了35％，华为预计大多数非要求性能相关的工作负载都要在这些中间核上运行。（华为表示高性能内核的效率比上一代高出12％，较小的内核的效率提高了15％。）

GPU方面，麒麟芯片始终追求更好的用户体验。针对GPU在运行重载游戏、播放高清视频等高负载场景下容易出现的发热、掉帧、卡顿等问题，麒麟990 5G搭载16核Mali-G76 GPU，与业界主流旗舰芯片相比，图形处理性能高6%，能效优20%，实现业界领先的性能与能效。全新系统级Smart Cache分流，支持智能分配DDR数据，在重载游戏等大带宽场景下带宽较上一代最高可节省15%，功耗可降低12%，进一步提升GPU能效。

余承东在现场表示，在双大核NPU加持下，麒麟990 5G实现业界最强AI算力，与业界其他旗舰AI芯片相比，性能优势高达6倍，能效优势高达8倍，持续刷新端侧AI的算力高点。无论是在业界典型的中载神经网络模型ResNet50（用于检测、分割和识别），还是在移动端更流行的轻载神经网络模型MobilenetV1（用于分类、检测、嵌入和分割）下，麒麟990 5G的FP16和int8性能和能效均达到业界最佳水平。业界首发NPU微核（Ascend Tiny）赋能超低功耗应用，在人脸识别的应用场景下，NPU微核比大核能效最高可提升24倍，让AI运算更省电。

本文为EETOP原创，欢迎转载，注明出处

上一篇：没有了

下一篇：做大芯片要靠堆

新闻动态

为什么还用A76 ? 麒麟990 详细解析

NPU

巴龙调制解调器

麒麟990 (5G)的性能

关注我们