加速神经网络

添加更多的维度创建更多的数据,所有这些都需要使用新的建筑方法处理。

2017年4月27日:埃德·斯珀林

神经网络获得更多动力的最好方式收集和关键数据从物理世界和处理数字世界。现在的问题是如何加速整个过程。

但它不是一个简单的工程挑战。神经网络本身是一个几乎恒定的流量和发展的状态,这使得它的一个移动的标靶。有超过20种不同类型的神经网络。有些是比未来更赞成一个月。

此外,没有一个明确的答案是最好的类型的处理器使用这项技术。普遍接受的度量工作完成单位的能量,每毫秒,最低的cost-still应用,当然可以。但他们可以在不同的时间有不同的加权,在开发周期和实际应用。

最重要的是,一些方法对于某些任务被认为是比别人更好。例如,卷积神经网络(cnn),它已成为嵌入式视觉的核心汽车和无人机,可以取代或辅以复发性神经网络(RNNs)。一个RNN不仅仅可以帮助区分一个对象是一只狗还是一个人,但随着时间的推移可以确定它是什么做的。一只狗可能进入的道路,或者它可能是远离马路。或者一个孩子可能会追逐球进入繁忙的道路。但CNN只会给运动的快照,而一个RNN将提供足够的数据在一段时间内判断一辆车需要刹车和速度。

这两种方法有权衡。一个RNN提供更好的上下文理解移动图像数据,但这意味着处理额外维度的数据。有多少本地数据处理与集中会影响车辆会如何迅速反应,它消耗了多少电能,传感器网络将多久可靠和系统的总体架构。为了增加更多的困惑,算法仍在开发更有效的利用这些数据,可以影响任何或所有这些因素。

“现在,没有明确的视觉算法,”兰迪·艾伦说,高级研究主任导师,西门子业务。“它必须是高度并行,但没有一个架构是赢家。与并行性,你也需要正确的编程环境。与硬件,这意味着你还需要并行化对内存和缓存瓶颈。”

事实上,有广泛的协议,需要做更多的工作在科技行业开始前选择架构和算法的赢家。

“我们仍然在过程的早期神经网络,”Mike Gianfagna说,负责营销的副总裁eSilicon。“现在正在讨论的问题是算法适合最适合一个特定的市场。这可能不会由人决定选择算法或专用芯片和方法,。它最有可能将被限制在任何专用硅是可用的,并从那里你会看速度和力量。”

处理器的选择
神经网络的起点之一涉及到处理元素。asic的最快,最有效的任何设备的芯片。,他们也最便宜。但是他们也非常具体,这意味着改变设计是昂贵和困难,有时甚至是不可能的。随着神经网络市场仍在不断变化,这种选择没有意义。当市场成熟,亚瑟士是一个强有力的竞争者。

的GPU的初始芯片选择神经网络和发展机器学习。它很便宜,易于并行化和相对成熟的软件开发工具。最大的问题是,它不是非常节能或可重复编程的,和结果并不总是确定的。

FPGA相比之下,更大,因此更昂贵,但它们容易编程,这有助于跟上技术的发展变化。他们也用更少的力量。“可重构接口和可编程序逻辑可以解决神经网络的不同层次,”史蒂夫·格拉泽说,公司战略和市场营销的高级副总裁赛灵思公司。“你还定义了软件与编程为行业标准库,您可以使用像TensorFlow和咖啡。”

这个世界上的一个相对较新的皱纹是嵌入式FPGA,它可以是任何大小。甚至更好,它可以结合其他类型的处理器。“经济学的成本通常在死亡转化为区域,”肯特Orthner说,系统架构师Achronix。“所以一个FPGA面积大于一个ASIC,但是如果你需要编程,那么你需要一个FPGA。什么是eFPGA允许你添加到死更多的控制大小。”

添加另一个可编程选项。不像其他的处理器类型,需求方使用定点处理而不是浮点multiply-accumulate计算的神经网络。

浮点的“唯一的好处是,你不必从MatLab转换为定点,但它的效率不及定点,”戈登·库珀说,产品营销经理的嵌入式视觉处理器组Synopsys对此。“定点使用最少的权力,并且提供了最好的性能。这不仅仅是汽车。也为监测、无人机、移动影像相机和多功能打印机。”

这围绕嵌入式视觉,而产生的任何感官的大部分数据。有效地处理数据包括动量系数,在“培训”系统是至关重要的。

“如果你看看AlexNetMAC(介质访问控制)层,有240 mb的系数,这是一个很多的数据,”Pulin德赛说,营销总监抑扬顿挫的DSP Tensilica愿景。“在不动点,你可以除以四在内存中访问。快,也节省电力。它可以优化雷达、激光雷达、或任何传感器。但视觉传感器的数据是最数据。其他的都是比一个视觉传感器稀疏的。”

图1:CNN算法发展趋势。来源:节奏

优化数据流
无论使用何种类型的处理器,所有这些方法仍然依靠冯Neumann-based计算架构。所不同的是,在一个神经网络,计算分布。一些仍然是集中管理,尽管确切数量变化从一个应用程序。底线,虽然个人计算元素是众所周知的事情。

图2:冯·诺依曼体系结构。

正在进行的研究,使一个很好的起点,加快神经网络,即使它不是简单的冯诺依曼体系结构的建议。可以有更多的内存(缓存),在搜索哪个功能类似的预取。随着越来越多的核被添加到加快处理的数据,缓存需要连贯。但并不是所有的缓存需要物理。其中一些可以虚拟代理缓存,缓存可以像另一个层面的。在递归神经网络尤为有用,因为有一个额外维度的数据需要包含在矩阵。

图3:深层神经网络。来源:OneSpin解决方案。

“基本上,你在做什么是定义输入和输出状态,可以让代理缓存状态,”库尔特·舒勒说,负责营销的副总裁ArterisIP。“这工作与递归神经网络很好,因为你可以保持今天的状态,但从过去完成信息。不过,这不仅仅是处理。这也是如何移动当前和过去的数据从一个处理步骤到下一个。”

这种方法的优点是,它减少了延迟连贯的内存缓存,因为不是所有需要存储在缓存或内存,和所有的神经网络可以访问所有处理元素。“有空间位置和时间地点,当你缓存您希望能够利用,”舒勒说。“将处理元素与代理缓存决定了数据流,它提供了大量的灵活性和建筑RNNs选项。”

加快神经网络的第二种方法是训练这些系统在相同的物理空间做更多。当前的大部分工作是基于两个关键软件图书馆之一,咖啡和TensorFlow。TensorFlow是由谷歌,咖啡由加州大学伯克利分校的人工智能研究实验室。两者都是密切相关的人工智能,这依赖于神经网络与外界连接计算。这就是定点真正显示了一些承诺。

“你可以带一个32位浮点计算和接近一个10位的解决方案不动点和不失去大量的准确性,”库珀说Synopsys对此。“我们的目标是多小你可以这样许多乘积累你能塞进一个小的空间,如何更高效。与AlexNet ImageNet,竞争,声称它有3%的错误率,这是比人类能做的更好。但总的趋势是通过压缩来减少计算的数量。你想减少系数和繁殖的数量,或基本的数量计算,通过压缩或修剪。”

改善吞吐量也可以是一个函数的多少在本地处理和集中,争论已经进行一段时间的物联网对被边缘加工设备,由雾服务器,或在云中。但在一个自治车辆,所有这一切必须以更快的速度发生。如果图像传感器在汽车继电器流数据提要中央逻辑单元,在流经汽车内部网络的数据量将是巨大的。

“成像DSP,你做图像处理,包括降噪或图像校正,然后你发送一个神经网络机器,“节奏的德赛说。“你可以有一个神经网络加速器DSP旁边,你可以加快卷积层而不是其他层。但是DSP和硬件加速工作,所以加速器和DSP之间移动数据可以使用大量的电力。”

网络工程师工作的空间,这是一个熟悉的问题。网络asic在刚推出时也有类似的挑战。

“网络处理单元有多达200块,但他们使用管线式架构所以每一块有一个链接,“说Anush莫汉达斯·,营销副总裁和业务发展NetSpeed系统。“最终他们创建一个底板结构基本所有的引擎。神经网络取得进展,他们会需要类似的底板的标准使所有组件能够说话。一切都不是在所有的时间,但是当他们来,必须有一个统一的视图。通常,你加快从边缘开始,工作的核心。”

把神经网络的视角
有什么不同的神经网络,这些网络可以被训练得更有效率,一个模式,遵循人类大脑的发展。一个婴儿已经比一个捕食的过程称为神经元突触修剪——一个成功设计的神经网络应该变得更有效率或能力。

“网络训练图像处理和语言处理,”说,公司的首席执行官OneSpin解决方案。“深层神经网络由几层网络。有一个种族这一技术,使用多维结构。”

Brinkmann说,最大的问题是依然的数据量。“你想去数据流从冯·诺依曼体系结构。但正确的架构是什么?”

到目前为止还不清楚,它可能不会是一段时间。不管多远的科学家和工程师已经与神经网络、机器学习和人工智能及其应用,有许多年的工作要做。

“今天人们描述为AI并不是真的那么聪明,”Simon segar表示,首席执行官手臂。“他们更聪明比线性运行代码,但还有很长的路要走在这些算法的发展。我们还没有的时候,你可以解锁的创造力成千上万的开发者。在早期的手机,所有的软件从未离开工厂。然后我们要开放平台和应用程序开发人员可以考虑用例。现在,人工智能是如此专业的时我们只看到一小部分的应用程序,因为太难了。随着时间的推移,我们会看到爆炸的用例。但它有一个很长的路要走。”

有关的故事
卷积神经网络电力
采用机器学习方法的图像识别的生长;其他应用程序需要力量和性能改进。
伟大的机器学习竞赛
芯片产业复位技术开始成形;没有明显的赢家。
在人工智能和深度的学习
发生了什么在人工智能和今天的硬件跟上?
在神经形态计算
一般视觉首席执行官谈到为什么有兴趣重燃这样的技术和在未来将如何使用它。
神经形态芯片Biz升温
旧概念得到新的关注随着设备扩展变得更加困难。
五个问题:杰夫棺材
嵌入式视觉联盟的创始人兼总裁BDTI谈到的创建联盟和神经网络的出现。

埃德·斯珀林

(所有的帖子)
埃德·斯珀林的主编是半导体工程。

2的评论

凯文·肖说:

2017年4月27日12:39点

伟大的文章。

文森特Ratford 说:

2017年4月28日下午4:03点

艾德:

很明显,这可能是一个蓝海为半或破产的波网络处理器。希望继续讨论在下周的嵌入式视觉峰会在圣克拉拉,CA吗?你会在吗?

加速神经网络

埃德·斯珀林

2的评论

留下一个回复取消回复

知识中心的博客

递归神经网络(RNN)

深度学习(DL)

神经网络

卷积神经网络(CNN)

人工智能(AI)

模拟

现场可编程门阵列(FPGA)

技术论文

热门文章

有多少传感器自主驾驶吗?

挑战成长为倒装芯片创建小疙瘩

Chiplet计划就立马高速运转起来

如何计量工具堆栈在3 d NAND闪存设备

腐蚀过程推向更高的选择性,成本控制

知识中心
实体,人们和技术探索

相关文章

Nanoimprint终于找到立足点

真正的3 d更加困难,比2.5 d

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

有多少传感器自主驾驶吗?

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

最近的评论

关于

导航

与我们联系

加速神经网络

埃德·斯珀林

2的评论

留下一个回复取消回复

知识中心的博客

递归神经网络(RNN)

深度学习(DL)

神经网络

卷积神经网络(CNN)

人工智能(AI)

模拟

现场可编程门阵列(FPGA)

技术论文

热门文章

有多少传感器自主驾驶吗?

挑战成长为倒装芯片创建小疙瘩

Chiplet计划就立马高速运转起来

如何计量工具堆栈在3 d NAND闪存设备

腐蚀过程推向更高的选择性,成本控制

知识中心实体,人们和技术探索

相关文章

Nanoimprint终于找到立足点

真正的3 d更加困难,比2.5 d

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

有多少传感器自主驾驶吗?

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索