加快人工智能

Achronix首席执行官解释主要瓶颈在哪里以及如何消除它们。

受欢迎程度

总裁兼首席执行官罗伯特·布莱克Achronix坐下来和半导体工程讨论人工智能,处理器工作最好的,和不同的方法来加速性能。

SE: AI影响FPGA业务,鉴于算法和不断变化的扩散AI几乎无处不在?

布莱克:当我们跟客户部署新产品和服务越来越多,令人惊讶的是他们有多么乐观的机会和增长速度。我们不认为的范围人工智能/机器学习能力会迅速或广泛生长。

SE:有两个方面,对吧?有人工智能作为一种工具来开发人工智能设备和芯片,还有人工智能芯片。

布莱克:是的,但是还有事情我不会期望将优化。你期望在云用图像和声音,但不一定在无线电基站端,优化无线网络用户的数量你可以同时通话的质量。所以有许多其他系统的优化使用人工智能和机器学习。一般来说,它是关于模式识别。

SE:或多或少的加速数据寻找模式,而不是处理个人部分,对吧?

布莱克:是的,当你看不同,采取了数据中心的方法来解决不同的问题,在某种程度上,非常复杂的模式识别,否则我们不能够做的。怎么优化权力或频带或定向天线最大化那些频道吗?问题太复杂,任何人认出这些模式。但是现在我们有能力分析大规模模式操作的各种事情,和优化这些东西。在某些方面,它更复杂的模式识别,个人或团体的人永远无法怀孕。

SE:有共性如何应用呢?所以你可能不只是看你的数据。你可能看其他数据,,对吧?

布莱克:是的,这改变了计算模型从你必须预测所有的事情。现在你有很多的信息关于一个特定的模式可以优化问题。可以入一个卷积我们可以从任何系统优化。

SE: fpga放在哪里?

布莱克:当你看到所有的这些问题,你还处理大量数据。现在我们要做各种各样的新的计算与新算法,几乎每天都在变化。我们仍然在婴儿期级别。我们仍然需要大量的计算,但是它还没有定居了,应该如何做。你可以部署的东西有非常高的性能,仍有足够的灵活性?在语音识别的应用程序缩小数据中心或呼叫中心,足够约束,所以您可以构建更适合。但是现在,不存在。它仍然是西部。那么硬件应该部署在云或在这些不同的聚合点,边给你计算隆起,但保留其灵活性?我们赌一个级别的性能,同时保持一定的灵活性。

SE:你添加另一个维度,这将如何随时间而变化,而不是今天这样做的最佳方式是什么,对吧?

布莱克:正确。对一些事情有明确迹象会发生什么,和一些我们不知道的事情。fpga进化从连接块。很多人仍然把fpga等同于一个原型。我需要把这个,然后我要建立固定的东西。现在发生的是,鉴于这种新要求新水平的计算和灵活性,这些设备突然从原型类型的演变成一种加速的东西。这是根本性的转变,导致我们开始构建一些非常不同的。根还在。这项技术还fpga可编程逻辑。但这已经演变成一个非常不同的动物比10年前。

SE:什么时候是有限的受益比例的交叉,“看我能做什么呢?”

布莱克:随着时间的推移,我们已经看到了ASIC和FPGA技术融合在一起。不同的技术做不同的事情。cpu负载储备有限的性能。他们有大量的灵活性但有限数量的性能。他们遇到同样的问题与其他半导体,就是你有一个热功耗有多大障碍,所以你只能这么快运行它们。这就是为什么每个人都已经从单一的多核的核心。什么一个FPGA很好是使您能够展开循环程序和开发一个定制的管道运行这些东西非常快。无论是1比特算术或3-bit算术或16位浮点或8位整数,没关系。是技术很好。然后,如果你看看计算需求,架构演变。 We’ve recognized what some of these problems will be. So how can we leverage the architectures we’ve done to be very good at the computation problem that we’re seeing.

SE:这个计算是考虑计算的字符串,而不是个人的事?

布莱克:是的,总体上正在发生的事情是我们建筑非常大的数据集,然后进行计算,模式识别,这就是发生的方式将继续发展。很长一段时间每个人都只关注于构建一个更好的计算引擎。问题是,你需要看看这个整体。无论是cpu或gpu,您需要查看操作系统和应用程序添加后的表现,你会发现性能不是很好。当我们用来购买拨号调制解调器或一个细胞服务,在高水平,你会买10 mbps或速度达每秒100 mb的网络链接。但如果你看看到底管出来的,有很大的下降,因为有许多的抽象层,坐在技术。所以在计算方面,如果你不保持24 x7计算引擎的工作你不要让高绩效。

SE:是关键数据而不是硬件的设计吗?

布莱克是的,这是绝对正确的。有三个部分。计算块,这是非常好的。还有数据,它是来自传感器或内存资源。以太网是一种常见的管道,因此你需要考虑这些接口。然后,即使你得到它到一个芯片,你如何移动数据得到有效地计算块然后派遣。所以你必须看计算,数据传输和内存层次结构的接口。

SE:我们听到的大问题是足够的数据保持这些芯片全职工作。

布莱克:一般来说,这几乎就像一个生产线。如果一些关键组件没有出现,这是停滞不前。甚至是一个伟大的管道没有帮助。在这样的地方你会发现摊位在传统软件缓存,但意想不到的事情会发生失速。这就像把一个较大的发动机在一辆车,但它不跑的更快,如果你不把正确的燃料泵。无论如何,我们可以肯定的一件事是,事情将会改变。所以我们有cnn,现在我们有RNNs。

SE:你看到了什么?

布莱克:如果你可以用更小的数据集和做模式识别仍然得到相同的结果,你将节省大量的面积和功耗。我们也看到这是一个趋势。你要烤的灵活性。如果你只是优化精度,这并不工作。所以如果你跟数据中心客户,他们用来关心16位浮点数,但这并不是那么重要了。趋势是搬到小精度,有利于fpga,因为他们可以做1 - 3 -,8位或16位的浮点运算。

SE:基本上,你靠近大脑是如何工作的,我们有大量的输入,但他们并不都是准确的,对吧?

布莱克:是的,如果你看看背后很多的矩阵乘法,矩阵具有零值的很大一部分。在这些情况下,你不想浪费你的时间做矩阵乘法,所以你可以预处理数据和压缩。

SE:决定什么处理?

布莱克:将继续改变。你必须做它很快,所以你可以通过一个CPU不能运行它,因为数据流是如此之快。

SE:解决方案是什么?

布莱克:作品,对我们来说是非常新的网络芯片上。所以我们正在建设高速公路上面芯片快速移动的东西。你有大量的管道,一个并行转换器112克、PCI创5,以太网,和大量的GDDR记忆一边喂。你移动它吗?在中间,有一个8 x 10数组是一个逻辑盒子。关键是能够移动的数据集的点。从软件的角度来看,基本上有门里面的芯片,并可以将数据转移到任何80门。

SE:任何优势HBM与GDDR6 ?

布莱克:第一个设备将GDDR6。后续设备将HBM。我们GDDR6的原因之一是,从成本的角度来看,它是便宜的。我们将是唯一支持GDDR6 FPGA公司。

SE:这是进入一个边缘设备?

布莱克:是的,那将是甜点。但它也可以在网络上,所以这可能是做包处理。

SE:这也可能是一个扇出以及平面?

布莱克:是的。在高级别上我们关注三件事。有一个全新的逻辑结构。我们使用DSP模块。现在我们有一个机器学习处理器内存结构非常紧密耦合。如果你做这个分数矩阵乘法,我们有一个有效的方法。底层的织物是一个更传统的FPGA算术。最重要的是,因为纯粹的带宽,我们把这个高速公路在上面增加是一个正常的逻辑结构。这种加速度将引人注目。

SE:这些将如何在一个服务器?

布莱克:通常会有两个形状PCI卡。

SE:如果这些规模或修改它们,是否有一个开销多少你放在一起吗?

布莱克:你可以达到远方并行转换器或短延并行转换器。在这一点上,你可以放下很多,规模问题。这是一个边缘计算。这就是这是一个改变。这是我们一直在做的事情的融合在过去的10年。

SE:你看到这个标题的市场?

布莱克我们会做一个嵌入式版本的FPGA和许可。在这种形式,它将用于数据中心加速,特别是在边缘计算。



留下一个回复


(注意:这个名字会显示公开)

Baidu