新用途的人工智能

大的功率和性能的改善来自低级情报。

受欢迎程度

人工智能被嵌入到越来越多的技术,通常发现在大多数芯片,和初步结果显示戏剧性的功率和性能的改善。

与备受瞩目人工智能实现,自动驾驶汽车或自然语言处理等,这些工作飞雷达对大多数人来说。它通常需要破坏最小的路径,建立或改善的技术已经存在。除了有重大的影响,为理解这些发展为设计团队提供一个基线AI能做什么和不能做得很好,表现在时间和在不同的环境和操作条件下,以及它如何与其他系统交互。

直到最近,AI /机器学习的大部分被局限于数据中心或专业mil /航空应用程序。它已经开始迁移到边缘,这本身就是刚刚开始采取的形式,由一个上升的数据和需要处理的数据量接近源。

记忆的改进
优化数据的运动是一个明显的目标在所有这些市场。如此多的数据生成压倒性的传统冯·诺依曼方法。而不是取消证明架构,公司正在寻找方法减少的数据流之间来回记忆和处理器。内存和near-memory计算是两个这样的解决方案,引起了公众的关注,但是这些方法中添加人工智能能产生显著的增量的影响。

三星宣布增加机器学习到高带宽内存(HBM)栈就是一个例子。

“最困难的部分是如何让这作为替代现有DRAM而不影响任何计算生态系统,“南金成说,三星内存业务部门的高级副总裁。“我们仍在使用现有的机器学习算法,但这种技术更有效地运行它们。有时它不是可行的运行机器学习模型在过去,因为它需要太多内存带宽。但随着内存内的计算单位,现在我们可以探索更多的带宽。”

Kim说这种方法可以减少70%的系统总能量没有任何额外的优化。什么让这宝贵的是,它增加了一个级别的“智能”为数据是如何移动。反过来,可以搭配其他技术改进来达到更大的权力/性能效率。金估计这可能是一个数量级,但其他技术可以按这个更高。


图1:在内存中处理软件栈。来源:三星

“作为一个行业,我们需要在几个不同的地方,”史蒂文说哇,研究员、著名的发明家Rambus。“其中一个是架构。我们必须思考什么是正确的方法来构建芯片所以他们真的更多的针对实际的算法。我们已经看到发生在过去四、五年。人实现一些非常整洁的架构,比如收缩期数组和更有针对性的实现。还有一些其他的。我们当然知道记忆系统是非常重要的在整个能源消耗。会发生的一件事是我们必须使内存访问更节能。更有效地利用体育是一个重要部分。SoC自己花25%到40%的功率预算只是在物理,然后来回移动的行为数据和SoC PHY -大约三分之二的电力使用只是运动的数据。 And that’s just for HBM2. For GDDR, even more of the power is spent in moving the data because it’s a higher data rate. For an equivalent bandwidth, it’s taking more power just because it’s a much higher speed signal.”

图2:数据转移成本的分解。来源:Rambus

图2:数据转移成本的分解。来源:Rambus

网络优化
另一个地方,这种方法是利用网络配置和优化。与过去不同,当一台计算机或智能手机可以利用任何数量的基于标准的协议和网络,边缘是专注于特定于应用程序的优化和独特的实现。数据流中的每个组件都需要优化,有时在不同的系统连接在一起。

这对于用户来说是头痛的问题,系统集成优势,以及供应商寻求出售水平技术,可以在许多垂直市场。并打开门更多的智能设备和组件可以配置他们自己在一个网络或一个包为可配置的设备,以及能够适应算法用于这些市场的变化。

“这将开始是软件定义硬件,但它将演变成一个自愈,可以AI-enabled self-orchestrating设备,”斯里尼瓦桑说,8月,数据中心的营销总监赛灵思公司。“它说,‘我要做这种级别的处理特定的交通流量,“做大量分流根据人工智能是必要的。”

AI / ML被证明是非常善于理解如何基于优先级和分区数据的行为模式和概率,它可以最好的利用。并不是所有的数据需要立即采取行动,和大部分可以在本地进行破坏。

“我们开始查看机器学习作为一个优化问题,“安普萨哈说,战略和业务发展高级经理西门子EDA。”机器学习在历史上一直是用于模式识别,无论是监督或无监督学习和强化学习。我们的想法是,你认识的一些模式的数据,然后使用分类事物做出预测或cat-versus-dog识别。还有其他用例,如智能网卡,你没有发现网络拓扑识别如何最大化SDN(软件定义网络)网络。这些都不是纯粹的模式识别问题,它们是非常有趣的更广泛的行业。人们开始使用各种不同的任务。”

实现是非常具体的,一般概念开始进入多个市场焦点。“这有所不同取决于你的细分市场,”杰夫•泰特说,公司的首席执行官Flex Logix。“我们在我们调用企业优势为医学影像之类的东西。我们的客户需要高吞吐量,高精度,低成本,低功耗。所以你必须有一个比gpu的体系结构,我们和我们标准的3 - 10倍。我们使用细的粒度,而不是一个大矩阵乘法器,我们有我们的一维张量处理器。这些都是模块化的,所以我们可以把它们以不同的方式来做不同的卷积和矩阵的应用。还需要一个可编程互连,我们已经开发了。和我们做的最后一件事就是我们的计算非常接近内存,这可以减少延迟和力量。所有的计算发生在SRAM,然后DRAM是用于存储重量。”

人工智能在边缘
这种模块化和可编程的方法往往是隐藏在这些设计,但强调灵活地设计和实现是至关重要的。更多的传感器,大量的数据和放缓缩放的好处,迫使芯片制造商主更复杂的体系结构,可以降低延迟和功率,同时提高性能。

边缘尤其如此,基于电池的一些设备,在本地和near-premises数据中心和速度的关键因素。异构的解决方案往往是高度定制的,往往涉及多个芯片放到包中。而不是一个超大型的云,一切都是位于一个或多个大型数据中心,有层处理基于数据需要采取行动的速度有多快,多少数据需要处理。

结果是一个庞大而复杂的数据分区的问题,因为现在数据必须明智地解析不同服务器之间甚至不同系统之间。“我们确实看到这一趋势,尤其是边缘节点的路上,“Sandeep Krishnegowda说,高级营销主任和申请内存解决方案英飞凌。“当有更多的数据,你必须分区你想加速。你不想只发送原始信息到云。它需要有意义的数据。同时,要实时控制器在实际推理决策。所有这一切肯定了更改架构,使其更有效地管理你的流量。但最重要的是,很多回到数据以及如何管理数据。总是很多,回到你的记忆和记忆的子系统架构。”

此外,这变成了一种路由问题,因为一切都是连接和数据来回流动。

“如果你做的一个数据中心的芯片,你设计标线限制,”Frank Schirrmeister说,高级组的解决方案营销总监节奏。“你有一个加速器,不同热方面,和3 d-ic问题。当你移动到可穿戴,你还处理同样相关的热功率水平,您有一个人工智能组件和一辆车。这是四面八方,它需要一个全面的方法。你需要优化低功耗/热/能源活动在边缘,无论你在哪里,人们将需要适应系统的工作负载。然后它归结为如何把这些东西放在一起。”

添加另一层次的复杂性。“起初,我需要我能得到的最高密度存储器,这样我可以尽可能多的激活和权重在芯片,”“罗恩·洛曼说,知识产权战略营销经理Synopsys对此。“其他公司都说他们必须尽可能低功率。之前我们有这些类型的解决方案,但我们看到了很多新的请求专门AI。然后他们搬到下一个步骤,他们会说,‘我需要一些定制除了密度最高或最低泄漏,“因为他们结合他们专门处理组件(如内存和compute-type技术。所以有积木,喜欢原始数学块DSP处理器,RISC处理器,然后一个特殊的神经网络引擎。所有这些组件的处理解决方案,包括标量、向量,矩阵乘法,内存体系结构相联系。当我们第一次做这些处理器,假设你会有某种外部存储器接口,最有可能LPDDR或DDR,所以很多系统是建立在这些假设。但也有独特的架构有高带宽的记忆,这改变了加载和存储来自那些外部存储器接口和的大小。客户说他们的特殊酱料。将继续增长,更多的细分市场。”

这些利基市场更多类型的硬件的需求将会增加,但他们也将推动需求持续扩张的这些基本的技术壳式到一个特定的用例。

“我们的fpga到处都是记忆在整个设备,所以你可以直接定位内存加速器,可以深入学习处理单元,”杰森说Bethurem,在Xilinx产品线经理。“因为架构是不固定的,它可以适应不同的特征,和分类的拓扑结构,与cnn和其他类似的东西。这就是大多数应用程序的增长,我们看到人们想把之前的反应。”

人工智能终端设备的限制
AI本身并不是一个固定的技术。不同的一个人工智能的解决方案是在运动技术适应和优化,所以处理的结果通常是分布和概率的可接受性。

使它特别困难的定义AI的精度和可靠性,因为每个实现和用例的指标是不同的,这是芯片行业的一个原因是谨慎行事和这个技术。例如,考虑AI /毫升与辅助驾驶一辆汽车。数据输入和实时决策需要,但AI系统需要能够重量数据的价值,这可能是不同于另一个车辆重量数据。假设两辆车不要进行交互,这不是一个问题。但如果他们共享信息,结果可以是非常不同的。

“有些开放的问题,”罗伯•艾特肯表示,研究员和技术主管手臂的研究和开发小组。“如果你有一个系统与给定精度和另一个不同的精度,然后累计其准确性取决于相互独立。但它也取决于你使用结合两个机制。这似乎是很容易理解的图像识别,但困难当你看着一个汽车应用,你有一些雷达数据和一些相机数据。他们实际上是相互独立的,但他们的精度依赖于外部因素,你就会知道,除了其他的一切。因此雷达可能会说,这是一只猫,但相机什么也没有说。如果天黑,那么雷达可能是对的。如果下雨了,也许该雷达是错误的,太。这些外部碎片可以发挥作用非常迅速,开始压倒任何的经验法则。”

所有这些交互需要详细了解。“很多设计在汽车是高度可配置的,甚至他们可配置的动态基于他们从传感器得到的数据,”西蒙•兰斯说营销主管ClioSoft。“来自这些传感器的数据处理器。庞大的数据量的运行车辆的数据中心和车辆,所有的追踪。如果出现错误,他们必须跟踪,找出问题的根源是什么。这就是有一个需要填满。”

另一个问题是知道什么是相关数据,什么不是。“当你把AI边缘,你转变这样一个模型,这意味着你已经知道什么是信息的相关部分,什么不是,”德克迈耶说,部门主管为分布式数据处理和控制弗劳恩霍夫IIS的自适应系统的工程部门。“即使你只是做一些像低通滤波,高通滤波或者平均,你有记住,告诉你,“这是有关如果你施加一个低通滤波器,或你只需要数据高达100赫兹左右。”

的挑战是能够利用人工智能的多个实现。“即使你看看一些最基本的东西,像一个铣床,这个过程是相同的,但机器可能会完全不同,”梅尔说。“过程材料不同,被研磨的材料是不同的,这个过程的速度是不同的,等等。很难以创造人工智能适应本身从一台机器到另一个地方。你总是需要一个培训阶段和时间来收集新数据。这将是一个非常有趣的研究领域为AI发明像积木,算法在业界被广泛接受,你可以把它从这台机器,这台机器pre-trained。所以你添加专业领域,一些基本的工艺参数,你可以参数化算法,学习得更快。”

结论
这不是芯片产业的今天,然而。人工智能及其群体,机器学习和深度学习,独特的功能添加到一个行业,是建立在体积和质量再现性。而人工智能已经被证明是有效的对某些事情,如优化数据流量和分区基于使用模式,它有很长的路要走,才能做出更大的决策与预测的结果。

功率降低和性能改进的初步结果是令人鼓舞的。但他们也需要建立一套更广泛的系统中,多个细分市场的快速发展,和不同的方法如异构集成、特定领域的设计和数据共享在供应链的局限性。

相关的
限制人工智能系统能做什么
开发这些系统仅仅是挑战的一部分。确保他们只做他们应该做的事可能会更加困难。
在更快的隐性成本,低功耗的人工智能系统
权衡在AI /毫升的设计可以影响从老化可靠性,但并不总是以可预测的方式。
权衡提高性能,较低的权力
定制的设计正成为常态,但让他们工作不是那么简单。



留下一个回复


(注意:这个名字会显示公开)

Baidu