中文 英语
18.luck新利
的意见

IP对AI soc的影响

深度学习应用将以新的处理和内存架构的形式要求专门的IP。

受欢迎程度

数学和处理能力的结合已经启动了新一代的技术进步,以及与人工智能相关的全新可能性世界。人工智能通过深度学习算法来模仿人类行为。神经网络就是我们定义的深度学习,它是机器学习的一个子集,而机器学习又是AI的一个子集,如图1所示。这是一个重要的分类,因为改变舰载系统(SoC)架构设计的不是人工智能或更具体地说是机器学习,而是被称为深度学习的子集。


图1:人工智能使用深度学习算法模拟人类行为

深度学习不仅改变了soc的构成,还在半导体市场催生了新一代的投资。深度学习算法模型,如卷积神经网络(CNN),在研发界和商业投资中都被大量使用。cnn一直是机器视觉的主要焦点。循环神经网络等模型由于其识别时间的能力,已经适用于自然语言理解。

人工智能应用
深度学习神经网络被用于许多不同的应用,为那些利用它们的人提供了强大的新工具。例如,它们支持高级安全威胁分析,预测和防止安全漏洞,以及通过预测潜在买家遵循的流程来帮助广告商识别和简化销售流程。这是两个运行在服务器场上的数据中心应用程序的例子,它们采用了最新的GPU和AI加速器半导体技术。

但人工智能设计并不包含在数据中心之内。许多新功能,如用于物体和面部检测的视觉系统,用于改进人机界面的自然语言理解,以及基于传感器输入组合的上下文感知,能够理解正在发生的活动。这些深度学习能力正在被添加到所有市场的soc中,包括汽车、移动、数字家庭、数据中心和物联网(IoT),如图2所示。


图2:AI功能已被添加到广泛的应用程序中

手机利用神经网络实现上述许多人工智能功能。这款手机正在运行一个面部识别应用程序、一个物体识别应用程序、一个自然语言理解应用程序。此外,它在内部使用神经网络进行5G自组织,因为无线信号会在许多额外的媒介、许多不同的频谱上变得更密集,传输的数据的优先级也不同。

人类的大脑
深度学习直到最近才通过数学和半导体硬件的进步而变得可行。为了在下一代数学模型和半导体架构中更好地复制人脑,有几项努力。这通常被称为神经形态计算。人类大脑的效率令人难以置信,而复制人类大脑的技术才刚刚开始触及表面。人脑包含超过1pb的存储空间,相当于540万亿个晶体管,而功耗不到12瓦。在这一点上,复制大脑是一个不切实际的目标。然而,ImageNet挑战已经从2012年的第一个反向传播CNN算法发展到2015年被称为ResNet 152的更先进的AI模型,其错误率比人类更好。市场正在迅速发展,新算法经常发布,半导体迅速集成所需的功能,以超越竞争对手。

人工智能设计挑战
集成了深度学习功能的SoC架构有几个关键变化。这些设计修改既影响高度独特的解决方案,也影响更通用的AI SoC设计,包括专门的处理需求、创新的内存架构和实时数据连接。

专门处理
增加神经网络能力的soc必须同时适应异构和大规模并行矩阵乘法。异构组件需要标量、矢量DSP和神经网络算法能力。例如,机器视觉需要单独的阶段,每个阶段需要不同类型的处理,如图3所示。


图3:神经网络能力需要独特的处理

预处理需要更简单的数据级并行。对选定区域的精确处理需要更复杂的数据级并行性,这可以通过具有良好矩阵乘法功能的专用CNN加速器有效地解决。决策阶段通常可以用标量处理来处理。每个应用程序都是独特的,但很明显,需要异构处理解决方案,其中还包括神经网络算法的加速,才能有效地处理AI模型。

内存的性能
人工智能模型使用了大量的内存,增加了硅的成本。训练神经网络可能需要gb到10s gb的数据,这就产生了对DDR提供的最新容量要求的需求。以VGG-16为例,这是一个图像神经网络,需要大约9gb的内存来训练。更精确的VGG-512模型需要89g字节的数据来训练。为了提高人工智能模型的准确性,数据科学家使用更大的数据集。同样,这要么增加了训练模型所需的时间,要么增加了解决方案的内存需求。由于需要大量并行矩阵乘法以及所需模型的大小和系数的数量,需要高带宽访问的外部存储器。新的半导体接口IP,如高带宽存储器(HBM2)和未来的衍生产品(HBM2e),正在迅速采用以适应这些需求。先进的FinFET技术支持更大的片上SRAM阵列,以及具有自定义内存到处理器和内存到内存接口的独特配置,以更好地复制人类大脑并解决内存限制。

AI模型可以被压缩。这是一项必要的技术,以确保模型可以在移动电话、汽车和物联网应用程序中边缘soc中的受限内存架构上运行。压缩是使用称为修剪和量化的技术来完成的,而不会降低结果的准确性。这使得传统的SoC架构具有LPDDR,或者在某些情况下,没有外部内存来支持神经网络。然而,还有功耗和其他方面的权衡。随着这些模型的压缩,不规则的内存访问和不规则的计算强度增加,延长了系统的执行时间和延迟。因此,系统设计人员正在开发创新的异构内存架构。

实时数据连接
一旦AI模型被训练并可能被压缩,它就可以通过许多不同的接口IP解决方案与实时数据一起执行。例如,视觉应用程序支持cmos图像传感器,并通过MIPI摄像机串行接口(CSI-2)和MIPI D-PHY IP连接。激光雷达和雷达可以通过多种技术支持,包括PCI Express和MIPI。麦克风通过USB、PDM (Pulse Density Modulation)、I2S等接口传输语音数据。数字电视支持HDMI和DisplayPort连接来传输视频内容,这些内容可以在神经网络传输后得到改善,从而实现超级图像分辨率,以更少的数据生成更高质量的图像。许多电视制造商(如果不是大多数的话)都在考虑采用这种技术。

混合人工智能系统是另一个有望被更多采用的概念。例如,心率算法通过AI识别健身手环上的异常,甚至是假阳性,将信息发送到云端,以便对异常进行更准确的深度AI神经网络分析,以便采取适当的行动。这种类型的技术已经成功地部署在电网的负载平衡中,特别是在电线倒塌或意外重载的情况下。为了支持快速、可靠的云网络,上述示例中的聚合器需要以太网连接。

解决瓶颈问题
尽管复制人脑还有很长的路要走,但人脑已被用作构建人工智能系统的有效模型,并继续被全球领先的研究机构建模。最新的神经网络试图复制它的效率和计算能力。SoC架构也刚刚开始通过紧密耦合处理器和内存来复制人类大脑。ARC子系统包括人工智能所需的处理能力及其APEX扩展和普遍的RISC架构。子系统将外设和内存紧密耦合到处理器上,以解决关键的内存瓶颈。

DesignWare AI IP
人工智能,特别是深度学习神经网络,是一个千载难逢的技术发展。它是由神经网络算法创新和高带宽、高性能半导体设计创新的结合而快速发展起来的。

Synopsys正在与全球各个细分市场的许多领先的AI soc供应商合作。事实证明,这一经验对于采用可靠的IP解决方案非常有价值,这些解决方案可以降低风险,加快上市时间,并为AI设计师提供关键的差异化服务。

Synopsys提供了很多专业加工解决方案从内存接口IP到带TCAMs和多端口内存的片上SRAM编译器,以解决内存瓶颈,以及用于实时数据的完整连接选项组合。这些IP解决方案是下一代人工智能设计的关键组件。



2的评论

费利克斯 说:

IP是为了
-知识产权

-互联网协议??

请定义你的术语

埃德·斯珀林 说:

知识产权,但这确实令人困惑,特别是当它通过互联网连接到某些东西时。

留下回复


(注:此名称将公开显示)

Baidu