中文 英语

更多的乘法-累加操作

Flex Logix的首席执行官指出,各种新市场对MAC功能的需求日益增长。

受欢迎程度

Geoff Tate,首席执行官Flex Logix,与《半导体工程》(Semiconductor Engineering)一起讨论了如何构建可编程边缘推理芯片,嵌入式fpga,这两者的市场正在发展,以及未来几年的情况将如何变化。

SE:当你设计一个可编程推理芯片时,你必须考虑什么?

泰特:用传统的FPGA架构你有一个完全可编程的互连与计算元素,但非常低的粒度。您有lut(查找表)和单个MAC(相乘-累加),然后您可以以任何您想要的方式将它们连接起来。我们没有采用这种方法,因为我们相信在所有这些架构中,它们将处理100万到400万像素的图像。对于我们的目标客户,即使是最小的图像也可能是50万像素,比如你用超声波看到的图像。当图像这么大的时候,在神经网络你知道你会做很多mac。我们将mac集群为64个组,最多可以将1000个mac连接在一个环中。一个特殊的互连在环内的集群之间移动数据。它非常灵活,但我们通过将MAC集群为64个组而不是依赖于单个MAC来换取灵活性和效率。

SE:所以基本上你是用架构的方法来解决这个问题的。这是怎么回事?

泰特:我们将在明年找到答案。没有人真正知道会发生什么,但我们的预测是,根据我们目前从客户那里看到的情况,会有很多奇怪的模型。不灵活的体系结构将很难处理与它们最初计划的不同的模型。而且模型的多样性会很大,所以我们认为我们的架构会给我们带来很大的优势。我们有一个客户,他们的测试显示我们的芯片比竞争对手的芯片快10倍,我们的芯片价格是两位数,而竞争对手的芯片价格是2000美元。它还被用于一个与我们预期的非常不同的应用程序。当潜在客户第一次出现在我们家门口时,表现没有今天这么好。但当我们的人研究它时,他们意识到这是一个与他们预期的非常不同的模型。所以我们想了想,用一种不同的方式把这些组件连接在一起。结果,我们的性能提高了2.5倍。 And then we went back in to tune the compiler.

SE: Flex Logix最初是一家eFPGA公司。这是一个截然不同的方向。eFPGA方面的业务进展如何?

泰特:我们仍在这样做。事实上,我们从eFPGA的一面。

SE: eFPGA和推理处理器之间有很多重叠吗?

泰特:如果从客户应用程序来看,fpga是使用编程的Verilog.神经网络使用ONYX或TensorFlow Lite深度学习神经网络模型进行编程。从这个意义上说,它们看起来完全无关。但如果你深入到我们的硬件并查看细节,你会发现我们的推理IP是一个高度优化的嵌入式FPGA。打个比方,最早的fpga只有lut。没有mac电脑。在某个时间点,有人意识到他们的很多客户都在使用fpga进行信号处理,进行乘法-累加运算,所以他们加强了乘法-累加运算以获得更高的性能,减少硅面积,并让他们的资金更有价值。今天,所有的fpga都有乘数累加器。因此,我的联合创始人王成(Cheng [Wang])观察到,你可以在fpga中使用mac -在fpga中有很多mac,这就是为什么有些人使用fpga进行推断-但我们可以放入更多的mac,使其更高效。我们可以用本地内存聚集64个mac,这样我们就可以做一个一维标量处理器,然后把它们连接起来,以便进行任意大小的矩阵乘法和卷积。 So the hardware guts of this chip has DNA from our embedded FPGA, and about half of our inference IP is in the same blocks that we do for our embedded FPGA. And then we add to it the hardened clusters of 64 MACs in a ring.

SE:你认为你的eFPGA业务在哪里会有起色?当它们第一次被引入时,很多人都在摸索,并没有真正使用它们。

泰特:打个比方,当我在Rambus的时候,很多人看了我们的内存,说它比他们需要的快。我们最终做到了,但我们的第一个批量应用是任天堂64,这是一个消费玩具。但这是一款非常畅销的玩具,这给了我们巨大的信誉,并打开了我们原本计划进入的所有其他市场。你的第一个采用者永远不会是你所期望的那种人,但你需要一个滩头阵地,我们的滩头阵地就是美国航空航天市场。美国航空航天机构购买的芯片中有三分之一是fpga,因为它们需要可编程性和灵活性,而且它们的产量不是很高。问题是几乎所有的手机都是在台湾制造的,美国政府认为那里离中国太近了,而中国说台湾是中国的一部分。为了保证和供应,我们开始和像桑迪亚国家实验室和DARPA这样的人合作。我们已经宣布了与其他政府机构和航空航天承包商的项目,他们现在正在与我们一起做很多设计工作,以使关键芯片能够在美国的晶圆厂生产,包括GlobalFoundries的12nm和14nm工艺。我们用我们的技术支持他们,我们正在考虑支持更多的美国晶圆厂。这给了我们很多收入。 And those chips are complex. The design complexity in some cases is hundreds of thousands of LUTs. That’s allowing us to continue to develop tools at the high end of routing capability. We’ve recently announced commercial customers. The two that we can talk about our Morningcore in China, which is a subsidiary of Datang, a big Chinese telecom company, and Dialog, which announced plans to use this in association with mixed-signal chips. They already have mixed-signal programmable chips, but they get more programmability by using our technology. And we’ve got a lot more activity that isn’t public. So the commercial side is starting to grow. The aerospace side is already paying the bill.

SE:在航空航天方面,很长一段时间,这些都是在较老的节点上开发的非常基本的设计。这些芯片有多复杂?

泰特:就像在商业方面一样,并不是每个应用程序都需要有最先进的流程。我只能谈谈什么是公开的,但对于我们的第一批客户之一桑迪亚国家实验室,我们为他们的180nm晶圆厂提供了嵌入式FPGA,他们拥有并运营。我们曾公开谈论过波音使用(GlobalFoundries的14nm工艺)。这是在纽约奥尔巴尼外制造的,用的是finFET过程,所以它是最先进的。在美国还有其他的晶圆厂生产90nm和65nm。这取决于客户想要做什么,是更高级的信号处理、人工智能,还是驱动流程的任何东西。

SE:当你进入推理的边缘时,你在理解软件方面有什么发现?AI本质上是软件定义的硬件,但它可以通过硬件和软件之间的迭代过程进一步改进。

泰特:我们的软件才是真正的分歧所在。在用户端,我们为嵌入式fpga开发的软件与为推理产品开发的软件完全不同。当我们使用地点和路线时,我们使用相同的软件,但客户永远不会看到下面发生了什么。神经网络模型是非常高级的。通过一些简单的运算符调用,它们可以调用数千亿次的计算,而在Verilog和RTL中,它是非常低级的。它就像微码或汇编语言。通过神经网络,我们可以处理所有的记忆映射和记忆移动。我们为用户保持一个非常高的水平。

SE:展望未来几年,你认为新的机会在哪里?

泰特:我们现在正在探索的一个市场是信号处理。fpga被大量用于无线电和基站等信号处理。美国政府使用了大量的fpga。我们有使用fpga的客户,也有对推理感兴趣的客户。当我们进去和他们交谈时,那些对信号处理感兴趣的人看着我们的NMAX(神经推理引擎)说,‘嘿,看看里面所有的乘数累加器。每平方毫米的倍增器蓄能器比FPGA还多。我能用这个做信号处理吗?“他们不能把现有的在FPGA上工作的RTL放在我们的NMAX上运行。这行不通。但我们一直在探索的是如何展示FIR(有限脉冲响应)滤波器在我们的NMAX IP上运行得非常好。 So we can do FIR filters at throughputs that are as high or higher than the most expensive FPGAs, but do it in a couple of dozen square millimeters.

SE:所以这将把你们推向通信领域,对吗?

泰特:在商业方面,他们的兴趣在于通信。但是我们看到测试公司和航空航天公司做了很多信号处理。这不是针对我们的X1芯片,它内部有NMAX IP。X1芯片使用PCIe与外界通信,PCIe是一种面向处理器的传输总线。什么是DSP人们想要的将更像SerDes -数据流进入最小化延迟。

SE:为了提高性能或降低功耗,你还需要调整多少个旋钮?你已经利用了所有的东西了吗,或者将来会有更多的东西?

泰特:未来还会有架构上的改进。因此,我们可以用我们的信号处理架构做一些事情,让它运行得更快,但我们必须改变当前的架构。对于任何给定的架构,削减功耗的方法都是使用更先进的工艺节点,如7,5和3nm。如果从台积电的16nm改为7nm,功耗应该会降低一半左右,性能会提高20%左右。现在,口罩的成本上升了,将其推向市场的成本也更加昂贵。但是,除了任何架构技巧之外,这就是在给定的吞吐量水平上削减电源的方法。我们两个都要做。

SE: 5G呢?

泰特:有多个方面5克.有基站和无线电。世界各地的基站架构都是一样的,除了频谱,因为政府给不同的运营商分配了不同的频谱。随着基站的无线电部分的发展,这就是需要可编程性的地方,也是人们使用大量fpga的地方。我们从其中一些玩家那里听到,由于各种原因,使用fpga增加了更多的开销。你基本上必须有这些巨大的SerDes银行来存取数据。如果你能把它集成到ASIC中,它将会更节能,这很重要,因为它们在功率上是有限的。因此,在某种程度上,我们看到嵌入式fpga进入基站。但在信号处理方面,我们也看到了对5g信号处理的NMAX的兴趣。不过,这只是早期的讨论。

SE:医疗器械对你们来说是一项长期投资吗?

泰特:我们正在研究超声波、核磁共振成像、CT扫描和x射线技术。我遇到过一家大型制造商,他们生产了四分之三的智能手机,现在所有这些手机都在出货,配备了人工智能算法。当我们与处于边缘的每个人交谈时,我们听到的是,‘我们可以做到这一点,但我们想做得更多。他们现在能做的总比什么都不做要好。这是有用的东西。但它们都渴望在功率和成本的限制下获得更多的计算能力。如果我们能以相同的功率和相同的成本提供两倍的吞吐量,那就太棒了。但他们想要的更多。所以需要几代人的时间才能赶上人们的需求,到那时我们可能会有更好的神经网络模型。这就像PC时代的早期。人们过去常常争论为什么人们需要超过10MHz的PC。

相关的
AI / ML / DL视频
半导体工程关于人工智能的顶级视频,包括推理加速器中的软件,推理处理器的意义等等…
优化机器学习的新方法
在机器学习系统中提高性能和降低功耗的不同方法。
AI边缘芯片的内存问题
内存中计算变得至关重要,但是在哪个内存中,在哪个进程节点上?



1评论

柯恩weijand 说:

伟大的引言:前沿技术

留下回复


(注:此名称将公开显示)

Baidu