您好!欢迎访问亚博ag到账速度快的!
专注精密制造10载以上
专业点胶阀喷嘴,撞针,精密机械零件加工厂家
联系方式
陈小姐:13899999999
周先生:13988888888
您当前的位置: 主页 > 新闻动态 > 常见问题 >

常见问题

从TegraK1和Denver,看那些年我们一直误会的NVIDIACPU

更新时间  2021-02-21 01:23 阅读
本文摘要:如果驳回NVIDIA,99%的朋友可能有“显卡”和“GPU”的反应。是世界两大GPU巨头之一,是GPU领域有意义的霸主啊。地球人说,前几天刚刚推出了新的Turing架构和RTX 2080Ti/2080/2070显卡。 这没有任何问题,但近年来人们在NVIDIA GPU强大麻木的同时,可能在冥冥之中忽视了什么。NVIDIA的GPU强吗? 明显强,爆炸强,无论PC终端还是SoC,谁都知道……emmm,还有,你听说了吗?

亚博ag到账速度快的

如果驳回NVIDIA,99%的朋友可能有“显卡”和“GPU”的反应。是世界两大GPU巨头之一,是GPU领域有意义的霸主啊。地球人说,前几天刚刚推出了新的Turing架构和RTX 2080Ti/2080/2070显卡。

这没有任何问题,但近年来人们在NVIDIA GPU强大麻木的同时,可能在冥冥之中忽视了什么。NVIDIA的GPU强吗? 明显强,爆炸强,无论PC终端还是SoC,谁都知道……emmm,还有,你听说了吗? 之前,在现在市面上的主流SoC的详细总结中,我看到了生动形象易懂的图。但是看最后的时候,瞬间注意到人们以前忽视了哪里: NVIDIA SoC的CPU怎么样? 你知道就像图上画的一样吗? CPU勇气? 这事实上,NVIDIA对SoC的设计一无所知,但迄今为止已经推出了7代Tegra系列SoC。

NVIDIA依然在Tegra SoC中用于家里的GPU架构,但上一代CPU部分使用Arm公版CPU核心。与同时期的高通三星联发科处理器相比,除了“祖传”的GPU以外没有其他明显之处。即使倒下,很多手机和平板电脑也被用于Tegra处理器,算术差异很大。但是,即使时间仅限于此,也可能不认为NVIDIA SoC的CPU有什么问题。

必须说的是,我知道NVIDIA黄教主是否是苹果乔的助手铁杆粉丝,这一代Tegra没有构建neon协处理器,flash的广播能力很好。关于Arm公版CPU核心我不会说谎,同时期的三星华为联发科德克萨斯机器用也是公版核心。此外,NVIDIA CPU上的野心和实力取决于人们的固有形象。

在2011年的CES上,NVIDIA宣布了Denver计划,开发了基于64位Arm v8指令集的自研体系结构,并宣布将其用作从移动设备到服务器的各种设备。仅3年后的2014年CES、NVIDIA之后发售了自研Denver架构用的Tegra K1,这是苹果以来第二家发布基于Arm v8指令集的消费级SoC的公司。时间重置了4个月,2013年9月,苹果意外地在该A7处理器上用于基于Arm v8指令集的Cyclone体系结构。

在随后的一年多里,市场上还包括基于Arm v7指令集的Cortex A15公版体系结构、高通Krait自研体系结构,甚至在某种程度上还包括基于Arm v8指令集的Cortex A57,其他同时期的CPU体系结构除了Denver。可以理解,现有的CPU架构设计分为顺序继续执行和紊乱的顺序执行两种。正如其名,顺序继续执行系统严格按照交接顺序继续执行微命令,顺序紊乱执行系统允许在不迁移命令运算结果的情况下调整继续执行顺序。

依然有人指出,无序执行将继续执行无限大发展后的进化。CPU继续执行的任务很复杂,RAM等外围部件可能会堵塞命令的顺序继续执行。在这种情况下,打乱顺序会显着提高运算的灵活性,从而有效地提高吞吐量。迄今为止(公众号: )在说明ArmCortex A76和Samsungexynosm3体系结构的文章中,多次提到了无序执行,但在这些高性能Arm内核中,无序执行可能已经成为不二的自由选择。

但是,必须在重新排序执行中添加重新排序执行窗口,有效地识别可以重新排序的命令,保证命令能够安全地重新排序执行。这没有增加体系结构的复杂性,芯片尺寸和功耗似乎显着下降。

他指出,NVIDIA是提高体系结构性能的另一种方法,以混乱的顺序运行并不是解决问题的唯一方法。不仅如此,Denver知道退出Arm公版高性能架构的主流乱序执行方式,在低功耗处理器上以罕见的顺序继续执行,具备有效的二进制翻译和代码优化方案。NVIDIA的想法非常简单。

顺序继续执行系统面临的基本问题是具体的,没有内存衰退等硬件问题和指令排序错误等软件问题。那么,这些问题一定要软件变更为体系结构体系吗? 你能用“硬级别”解决问题吗? 这是Denver的中心想法。

这个体系结构并不奇怪。Denver的一个奇怪之处是其内部的命令格式与ARMv7或ARMv8有很大不同。在明确的内部结构中,Denver用于GPU极为罕见的VLIW(Very Long Instruction Word )格式的继续执行指令(NVIDIA )。

在架构前端,Denver的指令解码幅度超过了前所未有的7发射,比Cortex A15(3发射)、Cortex A57(4发射)、applecyclone(6发射)长。NVIDIA正式称为“7”架构,其中的“”是指NVIDIA为Denver设计的dco(dynamiccodeoptimizer )。

DCO的任务是将Arm代码切换为Denver的本机格式,并优化代码以在Denver上更好地运行。因为对整个CPU来说,DCO是最重要的一环,其性能需要DCO来要求。长期以来,Denver最初的设计意图射击的传闻是x86,其基础设计和二进制翻译机制的目的是以不侵犯任何x86专利为前提支持x86指令的继续执行。

不管是否知道这个谣言,最终NVIDIA在软件层面取得了令人难以置信的成果,构建了能够将硬件设计和指令集分离的体系结构。但是尽管DCO如此逆天,NVIDIA除此之外还配备了Arm命令解码器。官方回应是这个Arm解码器不是“备胎”,但实际上好像是“讨厌嘴”。

Denver的大部分命令来自二进制翻译。这个Arm解码器只有两个指令宽度(Cortex A8级),只有在二进制翻译不能有效处理的情况下,才需要解密Arm指令。与此同时,NVIDIA自由选择了“硬件级别”解决问题的方式,因此Denver也享受到了其他架构中没有的升级性,如果DCO得到改进,NVIDIA将进一步部署新版本的DCO。

而且最后Denver的实际性能也不能说是技怒的4座。在SPECint2000测试中,Denver比Cortex A15提高了35%的平均值,最低提高了67% :更明确了,Denver核心用的Tegra K1的性能几乎超过了同期的ccc。

醉翁的意思不是酒,但看到有朋友可能不会困惑。NVIDIA SoC的CPU不仅不那么弱,而且和GPU一样爆炸不激烈,为什么NVIDIA在手机和平板电脑领域还没办法,最终解散了? 非常简单。

因为人们显然不打算争这个。与我们这种不怕热闹的普通用户不同,NVIDIA无法准确自己的SoC状况。

作为刚入局的新人,在基带、底包、SDK、节能下降等方面处于天秤座的劣势,与市售的根深蒂固的老牛合作是不明智的。我没听说德克萨斯仪器在2014年解散了手机SoC领域。从Tegra到第四代对小米3也很好地使用,交朋友。NVIDIA看到SoC更好的应用领域——AI等高性能移动计算平台,说白了就是自动驾驶和机器人。

经过Tegra K1和Tegra X1的过渡性经验,TeGRA Parker (NVIDIDIADIVEPX )拥有了进一步改进版的Denver2架构登上了自动驾驶的舞台。今年刚推出的NVIDIA Jetson Xavier平台提供了没有朋友的强大的自研体系结构Carmel,以惊人的宽度指令解码,以Denver为基础重新迈出了一大步。

在现在的AI芯片领域执着于AI运算的紧凑设计的情况下,可以理解NVIDIA是唯一没有退出高性能CPU的房子,也是平衡实现CPU、GPU、AI三个部分的最坏的房子。So,老铁们,NVIDIA的“CPU勇GPI带”当然,NVIDIA不是CPU差,太强了,我知道远远超过了我们熟悉的这个维度……在原创文章中,刊登禁令。

以下,听取刊登的心得。


本文关键词:从,TegraK1,和,Denver,看,那些,年,我们,一直,误,亚博app有信誉的

本文来源:亚博ag到账速度快的-www.hootonwoldokrent.com