中文 英语

ML-Specific芯片的优点,缺点

机器学习的限制,第3部分:处理器类型是最好的培训和推论,和为什么有那么多公司试图建立新的处理器专门为机器学习和人工智能吗?

受欢迎程度

半导体工程与罗伯•艾特肯坐下来手臂研究员;Raik Brinkmann的首席执行官OneSpin解决方案;副总裁帕特里克Soheili业务和企业发展eSilicon;和克里斯再生草的首席执行官Babblelabs。以下是摘录的谈话。第一部分,点击在这里。第二部分是在这里

SE:机器学习行业知识,跟上发展的步伐?

再生草:很明显,更多的理论将帮助我们理解什么是可能的,一些事情关于什么样的网络设计将比其他人更好。与此同时,我们的许多最大的技术进步已经部署了遥遥领先的理论。我们没有开发热力学的理论我们可以构建蒸汽机。我们建立了大量的蒸汽发动机,然后说我们需要更好地理解他们。这是类似于飞机和航空。稍后,我们开始研究如何使这个系统好。这不是问题,“停止,让我们等待理论赶上来。”

Brinkmann:理论来自部署,不是有人说这是很重要的。

艾特肯:工程偏见总是让我们构建现在算出来后。这是正确的方式进行。

Soheili肯定更容易。

再生草:我刚从技术会议,一半的人认为真正进步的衡量是多少方程可以硬塞进纸。这是完全独立于你有多少了解。

Brinkmann:有俄罗斯和美国的差异。当人们试图发明超音速飞行,第一个政党在飞机上升,然后潜水到达限速。双方发现翅膀飞行的飞机,和不幸的人们失去了他们的生命。但俄罗斯回到绘图板看理论,他们发现与马赫挑战,问题源于重叠的波浪,所以他们开发了翅膀,没有波浪的。美国人试图使翅膀越来越强,但没用,所以最终他们不得不采取一种不同的方法。当工程不再工作了,一些理论可能需要克服的一个问题。

SE:什么是最好的芯片架构运行机器学习算法?gpu似乎已经赢得了训练,但推论方面发生了什么?很多,这将是在边缘,而不是在一个数据中心。

Soheili:我不认为这个故事是在GPU的培训方面,尽管市场似乎。有很多猜测未来,未来保证的gpu,允许它是一个很好的工具培训。你需要保持一定量的可编程性和未来保证架构部署这些系统时你不要盒子自己到一个角落里。但已经说过,每一个在这个领域工作的大公司同意与训练,一样重要,是非常非常昂贵。有效,因为有这么多的计算需求,优化和ASIC-like你的方法越多,最好你要从速度的角度学习和学习成本。gpu很方便,但是他们最后的一种手段。现在所需的是非常具体的,它必须做什么和方程来解决,矩阵乘法就必须做什么,和一个通用的CPU或GPU FPU。

再生草清晰的:它这个问题具有非常特殊的特征。神经网络训练和推论是高度并行parallel-probably超过历史上任何我们所遇到的实际问题的计算。值得注意的是,并行度和使用一个硬件结构的能力在许多不同类型的问题也是非常大的。你可以说,“我正在做演讲。“演讲的结构是什么?这是这个。”,如果你做的愿景,你瞧,这是相同的架构。现在你预测你应该看什么电影或搜索结果。硬件是一样的。这种神经网络结构很像微处理器,微处理器的发展适合几乎任何东西。 You don’t have to say, ‘I need a different microprocessor if I’m running marketing modeling versus payroll.’ That universality is leading to an explosion of innovation. Lots of people are trying lots of different things, and we expect to see lots of innovation on the hardware side. One of the reasons there are 50 companies designing new platforms is that almost every architect looks at this problem and says, ‘If that’s all it is, I can make this run 100X faster than it does on a general-purpose machine.’ All of these teams have discovered they can run at 100X, and so you’re getting all of these rival solutions. 100X is the minimum ante.

Soheili:机遇和障碍就在于此。如果你解决一个问题,只有一种类型的问题,有一个解决方案,一个类型的解决方案。一旦你试图在同一时间做很多事情,你必须去通用处理器GPU,你必须让你的选择更开放。

艾特肯:有几个其他层的复杂性。卷积网基本上是矩阵乘法的大部分时间。但问题的矩阵,有稀疏的他们,你能做什么转换数据稀疏的,这些问题是100 x来自的地方。还有相同的权衡,始终是存在的,这是我想要改变这个东西多少灵活性在未来还是有多好我当前工作负载。

SE:这也不是多么准确吗?

艾特肯:适合在那里,但这几乎是一个给定的这些情况。如果我训练这个网,我愿意在硅中实现它让它尖叫地快。有方法,精度是无关紧要的。你有完全相同的精度软件是你的硬件实现。更有趣的问题是,下个星期我决定将三层添加到这个东西,或者我想崩溃。现在我做什么?”

再生草:在事物的宏大计划,这些都是二阶效应。但当然,神经网络将继续发展。可编程性越多在任何解决方案,所以它可以适应小型或适量的变化所需的神经网络,越好。所以你面对一个经典的权衡与效率。

Brinkmann不仅在硬件方面。

再生草:但有一个更大的集群的问题是相当接近的硬件要求。这就是为什么你看到所有这些专门的硬件。人们建造更多的平行向量扩展、dsp、专业加速度单位。

艾特肯:他们都是处理器,他们都存在于一个光谱。你可能有一个可编程的CPU一侧。

Soheili:这是RISC和CISC通过。

艾特肯:是的,你有一个GPU和这张量处理器在中间。他们都是解决一个非常具体的问题,每一个硬件解决方案优化做一个特定的函数。即使你描述机器学习等问题,有一个设置的cpu上很好地工作,有一组在gpu上很好地工作,并有一组之间。

Soheili:它取决于哪些方面你想开车。你开车吞吐量吗?你开车延迟吗?你驱动功率或成本。你是驾驶两个。其中任何一个,你有多个轴,您可以创建一个更高效的机器。但你扔掉你的未来保证。

再生草:有一个关键方面是一个重要的半导体创新的推动者,即所描述的方式问题是相当抽象的。你有一些高级的神经网络结构,捕捉网络的拓扑结构,并可以被映射到各种各样的东西。非常不同的如果是只有当优化x86或GPU。神经网络是描述一个高水平开辟了很多创新的机会。它积极鼓励人们尝试新的并行结构。

Brinkmann:一个大的挑战任何人尝试一种新的架构是找到一个好方法映射神经网络的一般描述为他们的硬件。更多的复杂性,它将变得更加困难。如果你看看FPGA合成,输入通常RTL,这是我们在asic已经使用了很长一段时间。但RTL映射到asic是一个更复杂的问题,因为你有处理这些限制。你有专门的街区,dsp、块内存和寄存器,你也想要利用这些。会发生同样的如果你有一个非常精致的建筑机器学习。它将成为一个巨大的挑战目标。软件将是一个巨大的挑战。



1评论

凯文·卡梅隆 说:

的通解,

http://parallel.cc/cgi - bin/bfx.cgi/wt 2018/wt - 2018. - html
(https://youtu.be/Bh5axlxIUvM)

神经网络处理同样的问题是电路仿真(我一直在做一段时间)。同样获得新的硬件采用需要软件工具来让你的旧代码到你的闪闪发光的新机器(晶片机、电池、波?,Tachyum…)。

其他东西派克-过来

http://ascenium.com/
https://patents.google.com/patent/US9996328B1/en

留下一个回复


(注意:这个名字会显示公开)

Baidu