英伟达CEO手撕谷歌TPU：P80性能比它强2倍！

上周，Google发表论文，详解了神经网络推断专用芯片TPU的架构，还展示了一些性能数据，比如说：在推断任务中，TPU平均比英伟达的Tesla K80 GPU或英特尔至强E5-2699 v3 CPU速度快15至30倍左右。

英伟达CEO黄仁勋坐不住了：为什么跟K80比？不知道我们后来出了P40吗？

Google在论文中提到的Tesla K80和老黄要拿出来比的Tesla P40，都是英伟达推出的适用于服务器的GPU加速器。

K80发布于2012年（老黄说的），使用了Kepler（上上代）架构，英伟达对它的定位是“超级计算领域的性价比之选”；P40则是去年发布的，使用了Pascal架构，“专为加快超大规模的混合工作负载和具备强扩展能力的 HPC 数据中心的运行速度而设计”。

这两款处理器之间，隔了三年，隔了一代Maxwell架构的产品。在深度学习推断性能上，P40比K80高了26倍。

老黄看了Google的论文，表示不服。于是，老黄在公司官方博客上发了题为《人工智能推动数据中心加速计算技术崛起（AI Drives the Rise of Accelerated Computing in Data Centers）》的文章，高度赞扬了Google的人工智能技术。

然后用P40跟Google的TPU做了个对比，帮Google更新了一下数据：英伟达Tesla P40在GoogleNet推断任务中的性能比Google TPU高2倍。

不过，老黄更新的数据遭到了Twitter网友的无情吐槽，因为无论是能耗还是价格，P40都比TPU高出了不止2倍。

以下是老黄的手撕全文：

谷歌最近发表的TPU论文得出了一个明确结论——如果没有加速计算，就无法扩大人工智能的应用范围。

如今的经济很大程度上依赖于世界各地的数据中心，而数据中心都在发生快速变化。但不久之前还不是这样，彼时的数据中心主要为网页、广告和视频内容服务。可如今，它们还要负责识别声音，探测视频流里的图像，并在我们有需求时提供有用的信息。

这些能力都源自一种名为深度学习的人工智能技术。深度学习可以通过对海量数据的学习生成一种软件，从而解决语言翻译、癌症诊断无人驾驶等各种挑战。人工智能的变化正在以我们行业前所未见的速度加速推进。

作为深度学习领域的开创性研究者，Geoffrey Hinton最近对《纽约客》说：“任何一个需要大量数据才能完成的分类问题，都可以用深度学习来解决。今后会涌现数以千计的深度学习应用。”

不可思议的效果

以谷歌为例。该公司在深度学习领域的开创性应用已经吸引了全世界的关注：Google Now服务拥有令人惊讶的准确度；他们还战胜了全世界最优秀的围棋选手；谷歌翻译甚至可以处理100种不同的语言。

深度学习的效果达到了不可思议的程度。然而，这种方法却要求计算机在摩尔定律逐渐放缓的情况下处理海量数据。深度学习是一种新的计算模型，需要发明新的计算架构。

英伟达尝试改变人工智能计算模型的架构已经有一段时间。2010年，在Juergen Schmidhuber教授的Swiss AI Lab工作的研究员Dan Ciresan发现，英伟达GPU可以用于训练深度神经网络，速度达到CPU的50倍。

一年后，Schmidhuber的实验室使用GPU开发的第一个纯深度神经网络赢得了国际笔迹识别和计算机视觉竞赛。

随后，当时还是多伦多大学研究生的Alex Krizhevsky使用一对GPU赢得了如今著名的ImageNet大规模图像识别竞赛。Schmidhuber还专门记录了GPU深度学习影响现代计算机视觉的历史。

针对深度学习优化

世界各地的人工智能研究人员都发现，英伟达为计算机图形和超级计算应用开创的GPU加速计算模型非常适合深度学习。

就像3D图像、医学成像、分子动力学、量子化学和天气模拟一样，深度学习是一种线性代数算法，需要针对张量或多维向量展开大规模的并行计算。虽然英伟达2009年推出的Kepler GPU让整个世界意识到，可以在深度学习中使用GPU加速计算，但它却并非针对这项任务优化的。

我们开始着手工作，开发一代代的新型GPU架构，先是Maxwell，然后是Pascal，其中包含了很多种专门为深度学习设计的架构进步。在基于Kepler的Tesla K80推出短短4年后，我们就发布了基于Pascal的Tesla P40推断加速器，将深度学习推断性能提升了26倍，远超摩尔定律的预测。

在此期间，谷歌设计了名为TPU的定制加速器芯片，专门用来处理推断，并在2015年部署使用。

该团队上周披露了TPU的优势。他们认为，TPU有很多好处，例如，其推断性能达到K80的13倍。但却并没有将TPU与基于Pascal的P40进行对比。

更新谷歌的对比数据

为了更新谷歌的对比数据，我们制作了如下表格，对K80到P40的性能发展进行了量化，同时对比了TPU与英伟达当前的技术。

P40在计算精度与吞吐量、片载内存和内存带宽之间实现了平衡，在训练和推断方面达到了空前的性能。具体到训练，P40拥有10倍的带宽，32位浮点性能达到12 teraflop。具体到推断，P40拥有高通量8位整数和高存储带宽。

虽然谷歌和英伟达选择了不同的发展路径，但我们的模式还是有一些共同点。具体如下：

人工智能需要加速计算。在摩尔定律放缓的时代背景下，加速器提供了有效的深度学习数据处理需求。

张量处理是实现深度学习训练和推断性能的核心。

张量处理是重要的新工作负荷，创业者必须在开发现代化数据中心时考虑这一问题。

加速张量处理可以大幅削减现代化数据中心的建设成本。

科技行业身处历史转折之中，很多人将此称作人工智能革命。它的影响表现最为突出的领域当属阿里巴巴、亚马逊、百度、Facebook、谷歌、IBM、微软、腾讯等公司的超大规模数据中心。他们需要加快人工智能工作负荷，但却不想投入数十亿美元的建设费，也不想用CPU节点来驱动新的数据中心。没有加速计算，就无法扩大人工智能的应用范围。

免责声明：本文由入驻邦投条平台的作者撰写，除邦投条官方账号外，文章观点仅代表作者本人，不代表邦投条立场，文章版权归原作者所有，请联系原作者申请授权。文章内容仅供参考，不构成投资建议。若有投资者据此操作，风险自担。如您发现内容存在版权问题，请提交相关链接至邮箱：banquan@rongebang.com，我们将及时予以处理。阅读更多有价值的内容，欢迎下载邦投条APP

英伟达CEO手撕谷歌TPU：P80性能比它强2倍！

参与评论

最近文章

相关投条号

英伟达CEO手撕谷歌TPU：P80性能比它强2倍！

参与评论

您可能感兴趣的文章

最近文章

相关投条号