机器学习,AI,需要的不仅仅是功率和性能。
设备可以学习最佳行为,而不是依赖于更通用的硬件和软件,这一想法正在推动人工智能、机器学习和认知计算的复兴。但是,构建、构建和测试这类系统需要广泛的改变,最终可能会影响整个半导体生态系统。
这些变化中有许多是很容易理解的。每瓦和每次操作都需要更高的性能,因为所有这些发展都将导致需要处理和存储的数据量大幅增加。其他变化则不那么明显,需要进行一定程度的猜测。例如,在“学会”在现实环境中优化数据后,芯片会是什么样子?半导体行业习惯于将可靠性作为性能随时间下降的函数来衡量。相比之下,理论上设计良好的自适应学习系统应该随着时间的推移而改进。
这种转变的一部分将是渐进的,随着技术的进步而推出。有些将更接近革命性,基于人类大脑的功能,这比目前开发的任何技术都要高效得多。在这两种情况下,这一领域正在进行的研究和测试数量正在爆炸式增长,特别是在机器人、数据管理和处理、工业应用以及驾驶员辅助或全自动驾驶汽车中的视觉系统等应用领域。
的董事长兼首席执行官说:“最近我们对认知计算进行了很多讨论导师图形.“当我们出生时,我们大脑中所有的细胞都是一样的。随着时间的推移,这些细胞会分化成视力等区域。他们的想法是,如果你从相同的(半导体)存储单元开始,你可以随着时间的推移使它们特殊化。根据芯片所使用的应用程序,存储的内存会随着时间的推移积累更多的数据。大脑主要负责模式识别。我们与动物的区别在于预测模式识别。这需要分层内存和不变内存。所以你不会储存每一个图案,但如果你在阴影中看到一张脸,你仍然可以认出它。人脑在这方面比科技更有效。”
事实上,人脑在这方面的能源效率比最好的计算机架构高出12个数量级,莱茵斯说。但就存储和逻辑单元的密度而言,半导体技术正越来越接近。这种对人脑和不变记忆类型的理解——无论信息是如何被回忆起来的,都使用相同的形式——正在越来越多地应用于大学、研究机构和大公司的技术中,覆盖了广泛的市场。
不过,尽管人们已经对使设备能够学习的算法进行了大量研究,但关于构建底层硬件以促进机器学习、人工智能和深度学习的最佳方法的信息却很少。如今,芯片的各个组件都是基于给定操作集的功率、性能和成本进行基准测试的。这些指标用于支持芯片的架构,它们影响模拟和数字的一切知识产权块被选择,多少和什么类型内存是如何使用的,信号路径是如何设计的,甚至通过某种方式做事会产生多少热量以及如何管理它。
对于可以通过与现实世界的交互来修改的体系结构,并不是所有这些方法都适用。保持不变的是对提高业绩的需求。处理器和内存之间以及传感器和处理器之间的吞吐量对于芯片对真实事件做出反应至关重要。这是最近的转变之一2.5 d架构。
“你需要存储状态变量,这成为动态可变性的基础,”Mike Gianfagna说eSilicon.“这是每个人都在看2.5D的原因之一。我们首先看到高带宽内存是由高端通信驱动的,但它开始多样化并扩展到机器学习和自适应计算。我们现在正在进行几个这样的设计。这是真的。”
Gianfagna说,这些系统的共同点是几乎稳定的数据流,特别是在机器视觉和模式识别方面。“因此,如果你有一张猫、狗和水箱的图片,系统就可以指向一个可能的猜测列表。但它需要一直都是正确的。在这个问题上有数百万个极端案例,其中一些是奇怪的极端案例。”
2.5D/3D,以及扇出,分区的一个问题之间的die内包。与此同时,片上互连和缓存一致性也受到了很多关注。这些系统的基础是卷积神经网络(cnn),它利用了许多传感器收集数据,至少有一部分数据被发送到集中的逻辑源进行处理、解释和反应。
微软高级产品经理Jeff Defilippi表示:“我们看到对加速和计算的需求大大增加。手臂的系统和软件组。“根据他们所在的地方,有不同的需求。我们看到越来越多的内容缓存来自小型接入点,这些接入点内置了某种程度的智能。这样你就有了一个连贯的芯片背板来连接不同的组件。它也是连贯的。”
arm、AMD、IBM、高通、Mellanox、Xilinx和华为这七家公司组成了该联盟用于加速器的缓存相干互连(CCIX),为数据中心和其他市场开发一个开放的加速框架。目标是将延迟降低几个数量级,提高带宽,更好地集成缓存一致性。
Defilippi说:“cnn将在此基础上传输到内存。”“这将是一个混合不同计算元素的异构环境。”
cnn正在独立发展,也在与自适应学习系统协同发展,它们在从数据中心到驾驶辅助车辆的各个领域都有一席之地。
“cnn正蓬勃发展的原因是,它有效地表明,你不需要编写程序就可以进行复杂的模式识别,”史蒂夫·罗迪(Steve Roddy)说抑扬顿挫的IP组。“挑战在于与人做高端模式分析识别,无论是寻找一个特定的脸在布鲁塞尔地铁摄像头或无论是验证你的脸当你走到前门,它会自动打开你的门你或无论是四个摄像头你的车在公路上超速70英里每小时拍摄高清晰度视频以每秒60帧,试图找出其他车辆在哪里,车道在哪里,速度标志是什么,等等。这是巨大的计算量。”
融合学科,创造新的学科
然而,这是事情变得更加困难的地方。在半导体行业,硬件-软件协同设计的讨论已经有很多年了。一些大型芯片制造商已经掌握了这种同步开发过程。在定义即将推出的HoloLens“混合现实”头显时,微软杰出的工程师尼克·贝克指出,完成这项工作还需要另一套技能。
Baker说:“我们与‘体验’团队、硬件团队和软件团队共同设计。“他们使用了微软研究院的算法、HoloLens软件和我们硅团队的硬件。”
微软所谓的“体验”团队使用的是一套不同于今天计算机科学或电子工程开发的技能。许多这样的系统需要不同的方法来看待问题。
ARM研究员杰姆•戴维斯(Jem Davies)表示:“你需要以一种可以得到有用信息的方式提出问题。”“ARM的一位创始人问,‘我们该如何推理这个问题?这是一个致命的问题。它为正确地提出问题奠定了基调。是否有一些新的分类,比如神经网络和机器学习的数据科学家?这些人需要对数据进行分类和过滤。你也许能把红头发的人和左撇子联系起来,但这没什么用。我们必须提出更好的问题。问问题真的很重要,但如果你问有用的问题,它会有所帮助。然后你可能会得到有用的答案。”
这比看起来要难。在某些方面,它结合了电气工程、计算机科学和哲学/社会科学的最佳元素来提出非常精确的问题。
“这些都是复杂的互动,”阿努什·莫汉达斯说NetSpeed系统.“这是人类的本能加上与机器打交道的能力。在有些情况下,人们试图手动调整复杂的系统,但它永远不会像机器那样好。但在其他情况下,专家利用基于深度经验的直觉来定位热点,然后提出更好的解决方案。最好的架构师明白他们为什么会想出一个解决方案,然后对其进行调整。”
这不仅仅是一种技能与另一种技能的对比。这是多种技能的结合,通常不会在一起。在不了解对设计的影响的情况下,使用自适应学习架构提出问题也是有问题的。
“这些系统从经验中学习,所以这取决于你给他们什么。OneSpin解决方案.“困难的问题是从这些数据中归纳出你想要验证的东西。你如何从图像中验证一只猫?”
随之而来的是另一个挑战。要真正掌握自适应学习系统中发生的事情几乎是不可能的。布林克曼说:“如果你看看一般的机器学习错误率和转化率,就没有办法确保它们是准确的。”“验证这些系统非常具有挑战性。”
培训系统
解决这个难题的关键之一是对系统进行更好的训练。这可能需要更标准化的数据集。这方面的实验仍处于起步阶段。
“今天,我们正在从编程转向学习,”微软的技术营销经理Achim Nohl说Synopsys对此.“这都是启发式的,所以不能证明它是对还是错。有监督学习和无监督学习之分,但没有人知道如何在一个系统上签字。也许一切都足够好了,但什么才是真正的足够好呢?”
他说,要有效地训练一个系统,需要更多的现实世界测试,其中使用真实的硬件和软件。对于卷积神经网络加速器来说,这种情况越来越多,这至少是数据收集方面的一个起点。“你必须从设计验证扩展到现实世界中的系统验证,才能对系统的正确反应有最高的信心。”
这需要一定程度的自信。在实现这种信心之前,其中一些技术可能只会用于边缘领域。因此,虽然车辆可能能够自动驾驶,但它们可能仍然需要一个有方向盘和刹车踏板的司机。
“你可能有六七辆卡车,但只有第一辆是由人驾驶的,”公司董事长兼首席执行官查理·亚纳克(Charlie Janac)说Arteris.“他们会被带到城市边缘的一个仓库,其他司机会把卡车开到最终目的地。”
但是系统设计师的信心到底能走多远呢?他们会允许人们在过去的基础上对自己的设备进行定制吗?Janac说,对于这部分人来说,一个有趣的问题是,人们是否会直接通过用户界面与算法交互。“我们是要写代码还是教机器?”
这个问题的答案可能会对系统架构产生重大影响。
Tessera首席技术官史蒂夫·泰格(Steve Teig)表示:“有两种策略在这里起作用。“一种是使用更高带宽的管道。第二种方法是减少向管道输送的物质。你可能两者都需要,但如果你看看机器学习,你可能有一个1600万像素图像的数据压缩,而另一边它变成了10兆字节。因此,即使使用数据压缩,您仍然需要更多的预处理来获得更少的功耗。如果你看我们的眼睛、耳朵和手指,有大量的预处理在进行。如果身体将接收到的所有数据都发送到大脑,总共会有20瓦。手指可以判断物体是热是冷,而不需要将信息发送到大脑进行处理。”
他是Cadence的顾问,也是Cognite Ventures的负责人。“我们正在处理大量的数据。一辆汽车必须能够进行每秒几十万亿次浮点运算。它曾经只够开一个车库门开关。所以现在我们需要更多的抽象模型,你不再考虑程序的流程。这是神经网络的结构以及你如何操作训练集。这是计算本质上的剧变。”
他说,系统将需要比过去更多的并行性来快速有效地处理这些算法。“在过去,如果我们遇到问题,那通常是新硬件的老问题。但在这里,我们有了新的问题,硬件比过去更多地由软件驱动——称之为软件甚至是不准确的。它提出了一个问题。那是一只狗吗?路在哪里?这个问题必须是分布的,并行的。这和以前的矩阵乘法器有很大不同。芯片的许多特性是相同的。你仍然有标准单元、逻辑合成和高速I/O。 And you have a master CPU and multiple computational elements. But in the past, you believed all of this was compatible. Now there is much more opportunity for parallel architectures running under supervision, whether that is for virtual reality or deep learning or any other type of AI.”
这些系统最终会是什么样子,或者它们将如何运作,仍然更多的是理论而不是现实。但至少人们开始以不同的方式看待这个问题。这是非常大的第一步。
有关的故事
填补机器学习中的漏洞2
确保机器按预期运行的短期和长期解决方案。
机器学习第1部分缺少什么
教机器如何行动是一回事。在此之后了解可能的缺陷是另一回事。
人工智能和深度学习内幕
人工智能正在发生什么,今天的硬件能跟上吗?
认知计算对芯片设计意味着什么
独立思考的计算机的设计将不同于一般的SoC;生态系统将受到重大影响。
卷积神经网络动力前进
采用这种机器学习方法的图像识别增长;其他应用程序需要改进电源和性能。
解码大脑
解码果蝇的大脑将如何帮助我们构建更好的计算机?Lou Scheffer表示,在电子技术赶上图像识别之前,我们还有很长的路要走。
《神经形态计算内幕
通用视觉的首席执行官谈到了为什么人们对这项技术重新产生了兴趣,以及它在未来将如何使用。
留下回复