中文 英语

伟大的机器学习竞赛

技术初具规模,芯片行业重新定位;目前还没有明确的赢家。

受欢迎程度

处理器制造商、工具供应商和包装公司都在竞相为自己在机器学习领域的角色定位,尽管没有人确定哪种架构最适合这项技术,也没有人确定哪种架构最终会成功。

这种不确定性非但没有抑制投资,反而助长了投资狂潮。资金从四面八方涌入。根据一份新的摩尔观察报告报告截至2017年2月,美国有超过1700家机器学习初创公司和2300名投资者。焦点范围从相对简单的动态网络优化到使用实时信息来躲避火力和调整目标的军用无人机。

截屏时间2017-04-02上午11:29.20
图1:机器学习的前景。来源:Moor Insights

而涉及的一般概念机器学习-做一些设备没有明确编程要做的事情-可以追溯到20世纪40年代末从那以后,机器学习断断续续地取得了进展。机器学习最初受到软件粗糙(20世纪50年代至70年代)的阻碍,然后是处理能力、内存和带宽不足(20世纪80年代至90年代),最后是电子产品市场的深度低迷(2001年和2008年),机器学习花了近70年的时间才发展到商业上有用的地步。

从那时起,一些事情发生了变化:

  • 20世纪80年代和90年代的技术性能障碍现在已经消失了。处理能力几乎是无限的,更多的处理能力正在使用新的芯片架构,以及封装方法,如2.5 d以及扇形的晶圆级封装。现在已经有了非常快的存储器,而且还会有更多类型的存储器,硅光子学的进步可以加快存储和检索所需的大块数据的速度。
  • 在数据中心和自动驾驶汽车市场,机器学习已经有了现成的市场,这些设备的中心逻辑需要定期更新,以提高安全性和可靠性。涉足这些市场的公司要么财力雄厚,要么财力雄厚,而且它们正在大力投资机器学习。
  • 钟摆又回到了硬件,或者至少是硬件和软件的结合,因为它更快,消耗更少的能量,而且比把所有东西都放在软件上更安全。由于巨大的处理需求,这对机器学习来说是个好兆头,而且它改变了半导体投资的经济性。

然而,这是一种充满不确定性的技术方法,不知道什么最有效,为什么最有效。

“如果有赢家,我们早就看到了,”斯坦福大学高级研究主管兰迪·艾伦(Randy Allen)说导师图形。“很多公司都在使用gpu,因为它们更容易编程。但是gpu最大的问题是决定论。如果你向FPGA发送信号,你会在给定的时间内得到响应。对于GPU,这是不确定的。如果你确切地知道你要做什么,定制ASIC就更好了,但没有一个人人都会使用的简单算法。”

asic是最快、最便宜、功耗最低的数字处理解决方案。但它们也是开发成本最高的,如果需要更改,它们是不可原谅的。机器学习几乎肯定会发生变化,因为该领域仍在发展,所以依赖asic——或者至少依赖只有投资asic是一场赌博。

这是gpu成为主要选择的原因之一,至少在短期内是这样。它们价格低廉,高度并行,并且有足够的编程工具可用于测试和优化这些系统。缺点是它们比混合处理器(包括cpu、gpu、dsp和fpga)的能效要低。

fpga增加了面向未来和低功耗的额外元素,它们可用于加速其他操作。但在高度并行的架构中,它们也更昂贵,这再次引起了人们的关注嵌入式fpga

该公司总裁兼首席执行官罗伯特•布莱克(Robert Blake)表示:“这将需要5到10年的时间才能解决。Achronix。“目前,机器学习的数学计算还没有达成一致。这将是未来十年的狂野西部。在你得到一个更好的Siri或Alexa界面之前,你需要优化算法来做到这一点。工作量非常多样化,而且变化很快。”

大规模并行是一种需求。还需要进行浮点计算。但除此之外,它可能是1位或8位的数学。

Blake说:“其中很多都是基于文本的字符串的模式匹配。“你不需要浮点数。您可以在FPGA中实现逻辑来进行比较。”

学习vs.诠释
这变得如此复杂的原因之一是机器学习有两个主要组成部分。一个是“学习”阶段,这是一组相关性或模式匹配。例如,在机器视觉中,它允许设备确定图像是狗还是人。这是从2D比较开始的,但是数据库变得越来越复杂。它们现在包括从情绪到动作的一切。它们可以辨别不同品种的狗,以及一个人是在爬行还是在行走。

更难的数学问题是解释阶段。这可能涉及推理——根据一组数据得出结论,然后从这些结论中推断出假设。它也可以包括估计,这就是经济学利用机器学习的方式。

在这一点上,由于需要大量的计算能力,大部分推理都是在云中完成的。但至少其中的一部分将被要求安装在自动驾驶汽车上。首先,至少在本地做一些会更快。另一方面,网络连接并不总是一致的,在某些地方可能根本无法连接。

微软公司企业战略和营销高级副总裁史蒂夫•格拉泽(Steve Glaser)表示:“你需要实时的核心与其他核心同步工作,你可能会有三到四个冗余级别。赛灵思公司。“你希望立即得到回应。你希望它是确定性的。你希望它是灵活的,这意味着要创建一个优化的数据流,你需要软件+硬件+ I/O可编程性,为神经网络的不同层。这是任意对任意的连接。”

然而,如何最好地实现这一目标尚不完全清楚。其结果是对市场地位的争夺,这是自个人电脑问世以来芯片行业从未见过的。芯片制造商正在构建包括开发软件、库和框架在内的解决方案,这些解决方案具有内置的灵活性,以防止突然过时,因为市场仍在不断变化。

这对芯片制造商来说如此有吸引力的原因是,在智能手机芯片市场趋于平缓之际,机器学习的机会正在显现。但与手机或个人电脑不同,机器学习横跨多个细分市场,每个细分市场都有显著增长的潜力(见下图2)。

machine-learning-impact
图2:机器学习机会。

重新思考架构
所有这些都需要放在机器学习中开始出现的两个重要架构变化的背景下。首先是从尝试在软件上完成所有工作到在硬件上完成更多工作的转变。软件更容易编程,但从功率/性能的角度来看,它的效率要低得多,从安全的角度来看,它更容易受到攻击。根据赛灵思公司的Glaser的说法,这里的解决方案是通过使用软件定义编程来充分利用这两个世界的优点。他说:“我们每瓦特每秒的图像效率提高了6倍。”

第二个变化是强调更多的处理器和更多类型的处理器,而不是更少的、高度集成的定制处理器。这扭转了自PC时代开始以来一直在进行的趋势,即将所有内容放在单个芯片上可以提高每瓦性能并降低总体材料成本。

“与大型处理器相比,人们对大量小型处理器的兴趣要大得多,”英特尔模型技术主管比尔•奈菲特(Bill Neifert)表示手臂。“我们在小型处理器的数量上看到了这一点。与过去相比,我们也看到了更多的fpga和asic被建模。”

由于机器学习的很大一部分增长与自动驾驶汽车的安全关键系统有关,这需要更好的建模和更好的系统验证。

Neifert说:“尽早创建模型的好处之一是,你可以为所有可能的安全要求注入故障,因此,当某些东西出现故障时(这是必然的),它可以优雅地失效。”“如果你改变了你的架构,你希望能够以不同的方式路由数据,这样就不会出现瓶颈。这就是为什么我们在高性能计算中也看到如此多的并发性。”

然而,用机器学习来衡量性能和成本并不是一个简单的公式。性能可以通过多种方式实现,例如更好的内存吞吐量或更快、针对特定作业编写更严格的算法,以及具有加速功能的高度并行计算。同样,成本也可以通过多种方式来衡量,比如系统总成本、功耗,有时还包括缓慢结果的影响,比如自动驾驶汽车中某件军事装备的决策速度不够快。

除此之外,还有涉及编程环境的挑战,这部分是算法,部分是直觉。“你所做的是试图弄清楚人类在没有语言的情况下是如何思考的,”Mentor的Allen说。“机器学习是这方面的第n级。这是人类识别模式的方式,为此您需要合适的开发环境。我们迟早会找到合适的抽象层次。第一种语言是口译。如果你看看今天的大多数语言,它们基本上都是库调用。最终,我们可能需要一种语言将这些联系在一起,要么是流水线计算,要么是重叠计算。这将比没有结合结果的高级功能有更大的成功机会。”

库尔特·舒勒,营销副总裁Arteris对此表示赞同。他说,目前开发的大多数系统都用于启动研究和算法开发。下一阶段将关注更多的异构计算,这对缓存一致性提出了挑战。

“在计算效率和编程效率之间有一个平衡,”舒勒说。“你可以让程序员更简单。早期的一个选择是使用“开放”的机器学习系统,该系统由ARM集群和一些专用的人工智能处理元素(如SIMD引擎或dsp)组成。有一个软件库,人们可以授权使用。芯片公司拥有软件算法,你可以购买芯片和主板,让它尽早运行。您也可以使用英特尔至强芯片来实现这一点,并使用fpga构建您或其他公司的IP。但这些最初的方法并没有把问题切得足够细,所以基本上你是在一个通用的平台上工作,这并不是最有效的。为了提高机器学习效率,业界正朝着在这些soc中使用多种类型的异构处理元件的方向发展。”

实际上,这是一系列需要在操作开始时解析并在结束时重新组合的乘法和累加步骤。长期以来,这一直是并行操作的最大障碍之一。新的问题是有更多的数据需要处理,并且在受RC延迟影响的细导线上移动可能会影响性能和功率。

公司首席执行官赖克•布林克曼(Raik Brinkmann)表示:“移动数据存在多方面的限制OneSpin解决方案。“此外,权力是由数据移动主导的。所以你需要本地化处理,这就是为什么现在fpga中有DSP模块。”

布林克曼说,这对于深度神经网络(dnn)来说更加复杂,因为它有多层网络。

这就产生了其他问题。“验证中的不确定性成为一个巨大的问题,”英特尔高性能ASIC原型系统技术营销经理Achim Nohl说Synopsys对此。“没有人知道如何在这些系统上签字。这都是关于足够好,但什么是足够好呢?因此,越来越需要在使用硬件和软件的情况下进行实际测试。你必须在现实世界中从设计验证扩展到系统验证。”

内部应用程序
并非所有的机器学习都与自动驾驶汽车或基于云的人工智能有关。只要有太多的复杂性和太多的选择,机器学习就可以发挥作用。这种情况已经在很多地方发生了。

例如,NetSpeed Systems正在利用机器学习为客户开发片上网络拓扑结构。硅正在使用它来选择最佳IP的具体参数涉及功率,性能和成本。ASML正在使用它来优化计算光刻,基本上是在分布模型上填充点,以提供比更高抽象层次本质上提供的更准确的图像。

“在路由方面有很多变化,”谷歌首席技术官赛莱什•库马尔(Sailesh Kumar)表示NetSpeed系统。“有不同的渠道规模,不同的流量,如何整合会影响服务质量。这些领域的决策导致不同的NoC设计。因此,从架构的角度来看,您需要决定一种拓扑结构,它可以是网状结构、环状结构或树形结构。架构越简单,潜在的死锁就越少。但如果你手动完成所有这些,就很难想出多种设计可能性。如果你把它自动化,你就可以使用正式的技术和数据分析来连接所有的部分。”

在这种情况下,机器学习组件是训练数据和基于该数据的推理的组合。

“真正的推动力是更少的设计规则,”库马尔说。“一般来说,你会在软件中硬编码逻辑来做决定。随着规模的扩大,您将拥有更多的设计规则,这使得更新设计规则成为一个棘手的问题。就建筑而言,你有数百条设计规则。你真正需要做的是提取特征,这样你就可以为用户捕捉每一个细节。”

NetSpeed一直在利用商业上可用的机器学习工具。相比之下,eSilicon则根据其内部开发和商业第三方IP的经验构建了自己的定制平台。

“供应商和客户之间的基本互动正在发生变化,”Mike Gianfagna说,eSilicon他是公司的营销副总裁。“这已经行不通了,因为它太复杂了。系统供应商、IP供应商、最终用户和ASIC供应商之间需要更多的合作。每个建筑和物理设计都有多个维度。”

ASML与此同时,正与凯蒂丝和林的研究为了更准确地模拟光学接近校正并最小化边缘放置错误。ASML应用产品管理总监Henk Niesing表示,利用机器学习,模型使ASML能够将掩模、光学、抗蚀剂和蚀刻模型的精度提高到小于2nm。“我们已经能够通过在设计和图案设备上的合作来改进图案。”

结论
机器学习作为处理日益增加的复杂性的最佳方式正在取得进展,但具有讽刺意味的是,对于开发这些机器学习系统的最佳架构、语言或方法,还没有明确的方法。这项技术在有限的应用中取得了成功,但从整体上看,需要解决的问题是令人生畏的。

“如果你看看嵌入式视觉,它本质上是如此嘈杂和模糊,需要帮助,”他说节奏克里斯·罗文。“这不仅仅是愿景。音频和自然语言也有问题。但99%捕获的原始数据是像素,大多数像素不会被人类看到或解释。真正的价值在于不需要人类参与,但这需要人类认知技术的发展。”

如何最好地实现这一目标仍是一项正在进行的工作——一项有很多进展的巨大工程,还有很长的路要走。但随着投资不断涌入这一领域,无论是初创公司还是各行各业的大公司之间的合作,这一进展开始加速。

有关的故事
填补机器学习中的漏洞
第2部分:确保机器按预期运行的短期和长期解决方案。
机器学习缺失了什么
第一部分:教机器如何行为是一回事。在那之后理解可能存在的缺陷是另一回事。
制造可以学习的芯片
机器学习,即人工智能,需要的不仅仅是功率和性能。
人工智能芯片长什么样?
随着人工智能市场的升温,人们对如何构建这些系统的困惑也在加剧。
人工智能风暴酝酿
人工智能的加速发展将对社会和商业产生重大影响。



2的评论

Hellmut Kohlsdorf 说:

机器学习将对工作替代产生巨大影响,与之相关的是国家和社会融资原则。机器学习仍处于起步阶段,它不仅能够取代对能力要求不高的工作,还能取代许多目前被认为是安全的工作。
今天,国家职能的资金在很大程度上依赖于从工资中征收的税收,以及医疗和社会保障的资金。
如果越来越多的工作被机器学习工具取代,尤其是那些薪水更高的工作,那么工资将会越来越少。
我住在德国,正因为如此,我认为机器学习将对作为政府和社会基础设施主要收入来源的工资征税产生巨大影响。我看到了为由税收资助的人们实施基本收入的第一步。因此,在一个大量工作岗位将被机器学习取代的世界里,资金将不得不通过对被机器学习取代的功能征税来获得。
我同意本文中提出的观点,即研究、开发和实施都有雄厚的资金,因此机器学习的进步速度是惊人的!

波克罗夫斯基安德烈 说:

对于gpu来说,FWIW延迟决定论并不是一个大问题。只要数据保存在GPU内存中,内核执行时间通常几乎没有变化。

留言回复


(注:此名称将公开显示)

Baidu