中文 英语
18.luck新利
的意见

实现人工智能革命需要的七种硬件进步

新架构有望实现低功耗、分布式人工智能。

受欢迎程度

人工智能对整个社会潜在的积极影响是不可能被高估的。然而,普及人工智能仍是一个挑战。训练算法会耗费大量的能量、时间和计算能力。随着医学成像和机器人等应用的应用,推断也将变得更加繁重。应用材料公司估计,人工智能可以消耗高达全球电力的25%(目前为5%),除非我们能在处理器、软件、材料科学、系统设计、网络和其他领域取得突破。

当今计算和人工智能技术的发展有两个主要方向:极端规模系统和边缘/普适大规模分布式系统。它们都面临着各种类似和不同的挑战。

从硬件的角度来看,以下是我认为需要改进的主要领域。

1.专门处理.计算架构在2006年迎来了一个重要的转折点。通过摩尔定律实现性能提升Dennard扩展变得更加昂贵和有问题。与此同时,协同处理器正在卷土重来。英伟达发布了G80第一个针对服务器的GPU那一年。第一个努力开发人工智能处理器的工作也开始了。

从那时起,gpu在AI HPC中无处不在。在50家公司正在开发人工智能处理器包括谷歌、高通、亚马逊、Facebook、三星等许多公司。用于网络、存储和安全的数据处理单元(dpu)正在成为云和百亿亿次计算机的永久装置。

未来三年多的挑战将围绕着为不同的人工智能应用找到神奇的美味组合。基于云的ML培训是否最好圆片规模处理器chiplets百亿亿次计算机?或者在大规模分布式系统中的设备上应该进行什么级别的培训?我们在云计算和边缘人工智能方面都拥有相当一部分核心技术。我们需要更多的人工智能专用架构,以及基于智能机器学习的动态系统配置和优化。

2.近数据处理计算机超过60%的能量消耗在存储、内存和处理单元之间的数据传输上.减少甚至消除这种数字通勤的很大一部分可以显著降低功耗和减少延迟。内存处理,将微小的专用处理单元集成到随机存取存储器中,将在数据中心和百亿亿次计算中有意义。

在边缘,能够在传感器内处理数据,或者至少在数据流化或发送到远程设备之前处理数据,可能是一种大规模减少数据传输和存储的方法。只有有意义的事件或数据才会被传输到远程服务,而且只有在边缘的智能引擎会这样做时才会这样做。

和专业加工一样,这是一项短期内的创新。

3.Non-CMOS处理器.正如我在我的上一篇文章例如,由柔性晶体管和/或基板制成的低成本、易于集成的处理器将为减少食物浪费、发现漏水或鼓励回收利用铺平道路。其中一些标签只是发送原始数据的智能传感器,但它们将越来越多地利用机器学习来减少数据流量,提高通信的“价值”。

手臂的研究,连同务实的半导体去年,他炫耀了一番PlasticArm这是一种带有传感器的实验性打印神经网络,可用于这些任务。处理器设计、EDA工具、制造设备和软件都需要进一步开发,并集成到端到端的印刷电子即服务平台中。确定一个杀手级应用程序将决定该领域的下一步和开发速度。

4.基于事件/阈值处理Prophesee他开发了一种基于事件的图像处理器,像素之间相互独立。数据只有在发生变化时才会更新,而不是在整个成像器的同步周期中更新,这与人眼的功能类似。这大大减少了捕获的数据量,使速度达到每秒10,000帧。在图像分辨率增强的同时,能耗、延迟和计算开销都大大降低。

想象一张速降滑雪比赛的图像:通过消除静态天空的不必要更新,可以捕捉到单个赛车手的身体力学细节。车祸可以更准确地重现。

除了计算机视觉,基于事件的感官设备还可以用于简化振动分析、语音识别和其他数据密集型应用中的计算。想象一下,在达到阈值或事件链后,智能纹身只向智能手表或医疗保健提供者传递有关生物信号的有意义的事件。你将能够实时监控数据流,使用微型计算系统,系统状态或人类情感的某些事件特征,或预测某些认知疾病的差异。

5.神经形态处理器.从人脑结构中汲取灵感,设计人工尖峰神经网络或更普遍的电子元件是可能的。卡弗·米德在80年代首次提出了神经形态处理器的理论.但直到今天,只有一些实验性的芯片,如三角帆1和大三角帆2有一个1000万核处理器平台,用于模拟尖峰神经网络。

神经形态计算似乎很有前途,但仍然需要在模型训练、ML开发运维工具和其他技术方面取得突破。我们还需要适合不同用例的硬件:晶圆尺寸芯片组不适用于低功耗应用。尽管神经形态研究主要针对百亿亿次系统,但将尽可能多的精力集中在超低功耗关键字检测、自动驾驶汽车事件检测或其他数据流处理用例等应用上可能是有意义的。进展可能会更快,突破性的概念可能会扩大。神经形态的未来杀手级应用可能不在百亿亿次系统中,而更多地在低功耗边缘计算中。

6.极端环境冷却.数据中心被安置在废弃矿井、地下防空洞和城市港口,以减少机械冷却负荷。液冷技术似乎也在卷土重来。

低温计算,如果专门设计来受益于低温温度下的物理现象,可以在每瓦性能方面带来显著的好处。关键是探索从材料到设备到系统的设计优化。要将该技术应用于数据中心和/或百亿亿次计算系统,还需要业界的努力,但初步研究看起来非常有前景,值得进行更深入的探索。

7.零计算架构.如果我们进一步研究潜在的生物启发模型,我们可以探索如何复制我们的长期内隐记忆,使我们能够有效地完成已知但复杂的壮举,如倒车驾驶或阅读一本书,通过将逐步的过程合并到相对自动化的过程中。

在计算世界中,系统将能够依靠学习或经验函数,在已经执行过一次的情况下,快速计算密集型任务。在高层次上,零计算系统将包括一种机制,可以识别应用程序是新的还是已学习的,一个执行已学习任务的过程,以及一个已学习的函数库,以供将来重放。我们当然可以认为这不是真正的零计算,但接近于零计算。尽管如此,它可以减少大量的计算。

就像人类一样,我们必须注意死记硬背和严格检查每个过程之间的权衡。但是假设在大量已知任务和重新计算之间的平衡起作用,我们可以想象一个百亿亿次智能系统将计算世界分为已知和未知,并将答案分配给大量的哑系统。

当然,这仅仅是个开始。随着人工智能的普及,硬件层面对性能和效率的需求也会越来越高。



1评论

大卫 说:

嗨,Remy,我想提出Brainchip公司在计算的spike神经网络领域有很多商业关系。你认为“只有少数实验性神经形态芯片存在”,但梅赛德斯-奔驰、美国宇航局、兆晶等商业客户正凭借Akida的SNN领先世界。
欢呼。

留下回复


(注:此名称将公开显示)

Baidu