机器学习的限制(第1部分)

专家表,第1部分:为什么机器学习在某些情况下,而不是别人的。

受欢迎程度

半导体工程与罗伯•艾特肯坐下来手臂研究员;Raik Brinkmann的首席执行官OneSpin解决方案;副总裁帕特里克Soheili业务和企业发展eSilicon;和克里斯再生草的首席执行官Babblelabs。以下是摘录的谈话。

SE:我们机器学习吗?仍然需要解决什么问题?

艾特肯:我们在一个国家,事情变化如此之快,真的很难跟上我们在任何给定的实例。我们已经看到,机器学习已经能够带一些我们曾经认为很复杂,简单呈现它们。但简单的可以欺骗。这不仅仅是一个,我已经下载TensorFlow神奇地为我工作,现在所有的问题我曾经有100人做的更简单。搬到一个不同的空间的问题。例如,我们看了看要做什么机器学习为验证测试代处理器。我们发现机器学习很好从一组随机挑选测试程序的比其他人更有可能是有用的测试向量。呈现一个复杂任务更简单,但是它问题搬到一个新的空间。你怎么测试数据转换成一个机器学习算法可以优化吗?然后,你怎么把它告诉你,把它带回处理器领域的测试?所以我们发现很多移动的问题,除了聪明的解决方案的问题,我们之前有麻烦。

再生草:机器学习和深度学习给我们一些强大的工具,对于大多数人来说,是一种全新的面积计算。这是统计计算,建立非常复杂的模型从相对非结构化数据。有一堆问题,历来是困难或者深奥的,或者很难掌握,现在我们可以系统地做得更好比我们过去能做。特别是当它的形式,“这里有一些现象我们试图理解和我们试图以某种方式复制。我们需要一个近似模型。有一大堆落入该域的问题。这种新算法计算范例给设计人员和软件开发人员一个新的锤,事实证明这是一个相当大的与各种各样的钉子锤,以及一些螺丝和螺栓。但它不是通用的。有很多种类的不统计在本质上的问题,你不是要复制的统计分布你发现在某些源数据,和其他方法从人工智能或其他古典方法应该使用。它是充满问题和缺乏对数据的理解。 People don’t entirely understand bias in their data, which results in bias in their model. They don’t understand the fragility of the model. You generally can’t expect it to do anything reasonable outside of the strict confines of the statistical distribution on which it was trained. And often, today, these models fail the reasonableness test. You expect them to know things they can’t possibly know because they weren’t trained for that. One of the big challenges for all of this is to not only train the deep learning models for the behaviors that you want, but to also view some of the reasonableness principles. If you’re dealing with visual systems, you want them to know about gravity and the 3D nature of objects. Those tend to be outside the range of what we can do with these models today.

Brinkmann:我同意。这是一个强大的工具在工程工具箱科学或技术工作的任何公司。当你控制的最佳应用程序空间你使用它,当人类还在循环区分行为和不合理。所以每当你优化你的业务流程或您的测试向量,或一些你不理解的本质,它可能是一个好的使用机器学习。但当人们有一定的期望,点击数据可能没有见过的,它开始失败。这就是麻烦的开始。人相信机器学习是一个通用的解决方案。情况并非如此。我们需要确保人们理解这些技术的限制,同时也消除了担心,这项技术将接管他们的工作。这是不会发生很长时间了。 If you want to use machine learning in applications that are related to safety, like automotive, one key component that’s missing is these systems do not explain themselves. There is no reasoning that you can derive from a network that has been trained about why it does what it does, or when does it fail. There is lots of research going on right now in this area to make these systems more robust and to find a way to verify them. But it has to come with a good understanding of the statistical nature of what you’re dealing with. Applying machine learning is not easy. You need a lot more than a deep learning algorithm. There are other ideas around vision learning and new technologies that make it easier to explain how these things work. This is one of the biggest differences with classical engineering, where you always had an engineer in the loop to explain why something works.

再生草:他们常常是错误的,但你可以问他们。

Brinkmann:是的,但是你可以问他们,挑战他们。没有办法问一个神经网络来解释的东西。它不会告诉你。

艾特肯:有一个理论,。机器学习的实践变得越来越清楚。为什么它背后的理论是落后的。

Soheili:不过,撇开安全和隐私问题,这是一个令人难以置信的机会。如果你运行一个数据中心,你会看到巨大的所有权的总成本降低。有新产品出来。就像你今天无法想象我们的生活没有GPS或手机,十年后今天我们无法想象我们的生活没有帮助日常决策。这将是每个人的日常生活不可或缺的一部分。涉及的所有公司,从大数据中心全部力量分化之后,更好的产品交付和成本降低,所有新的应用程序,这将提高我们的生活方式,半导体的人将获得一块软件或硅,或我们获得什么,除此之外,导致创新的速度。周围有很多歧义,这是速度的,但随着时间的推移我们会弄清楚。有很多学者或大公司与大预算将强调在机器学习解决问题。当然是有很多炒作,炒作是一个很好的理由。预测需要600亿到1000亿美元的额外5或10年半导体销售。 Nothing else I know of today will have that kind of an incremental, powerful impact on the daily lives of everyone in the semiconductor business.

SE:这是一个水平的技术,也对吗?它会影响多个垂直市场。

Soheili是的,很水平。它的腿在一切。

再生草:回到早先讨论的一部分,为什么一个神经网络做决定呢?比其他类型的项目,你可以做敏感性分析。如果有4000个输入,如果我改变每一个人,它会如何改变结果。你可以找出是什么工作落后的最低输入的变化,将改变输出。

艾特肯:但你仍然有一个问题。你可以说你通过灵敏度分析,证明你没有得到贷款的原因是30年前你住在榆树街而不是枫树街。信息解释的决定,但这并不能解释为什么这一决定没有意义。

再生草:表面上看,知道输入对输出的影响是很重要的。这不是一个黑盒子。有一些固有的透明度。

Brinkmann:神经网络非常容易,你知道每一个细节每一个节点。它是完全透明的。但是你仍然不能说得出一定的结论。你不能探测。

再生草:是的,所以你很难去概括它在一些抽象意义。但这是真的很多种类的软件。采取任何足够大的软件,以及如何决定之前,发生了一件事是很多不同的并发的函数,很难解释。

Brinkmann:但如果你问一个机械工程师为什么汽车的轴不会休息,他们可以参考这些模拟和物理分析和显示轴为这个特定的目的而设计的。与机器学习,变得非常困难。

艾特肯:机器学习和机器人就是一个很好的例子。经典控制理论的移动机器人已经存在了很长一段时间。机器学习可以做很好解决问题,适应他们,但是安全问题是一个关键。无人驾驶飞机,如果它崩溃,因为这个原因做出这个决定。也许如果你改变这些值在这个表将更好地工作。如果运行了机器学习程序,不清楚你可以怎样改变,防止下次崩溃。你可以改变它所以它不会崩溃的确切情况,但保持它坠毁在类似的情况下很难实现,因为你不能解释这一决定。你必须推广这一决定从哪里来,如何解释它。

SE:我们怎么调试呢?的起点是什么?

再生草:起点是明白我们试图解决非常,非常复杂的问题。与深度学习的一些挑战来自这样一个事实:我们有很高的期望。如果有人可以手工编写一个对象识别器识别1000个不同的对象,它将需要很长时间才能重量这些模块。有人需要构造一些权重因子机制。解释了100万行代码的能力,结果从所有这些决策仍然让你非常复杂的事情,这只是部分原因是机器学习和深度学习的本质。这是部分的绝对水平的复杂性问题,我们正在处理。这有点不公平。

Brinkmann:这取决于上下文的技术。在调试时,你真正需要做的就是看看你的数据用于训练它。分析的数据集是调试的关键。你需要分析的偏见和统计分布。你可以从网络应该制定合理的期望,可以从这个数据和不能做什么。

艾特肯:你将会运行不同的网络跟踪更多的中间结果和更有解释力。但同时,我们必须改变我们的方法,因为我们的工程直觉是建立在旧的做事方式和算法。随着这些新工具开始被用于越来越多的情况下,解释是不同的。它不再是,这个功能你一直参与这个样子,这就是它总是和我们应该期待的。目前,很少有人有直觉做逆矩阵乘法在他们头上。

再生草:一个基本的挑战是,算法设计者、程序员和硬件开发人员做出成千上万的隐式假设的问题真的是什么样子。他们很少有机会回顾这些假设一旦系统被建立。进入专注的一个教训就是你可以建立一个系统第一次甚至部署它,但你最好测量数据的分布系统是看到在这一领域,并积极进行比较,是训练有素的分布数据。是这个系统能够合理处理现实世界的数据?

艾特肯或者它可以同时训练和更新吗?

再生草:至少,你需要知道你的假设是否实现。

Brinkmann我们将会看到:一个组件,没有去过那儿,是调试和验证将在系统的生命周期中是连续的。人们会把它放到不同的上下文中。在两到三年内,您可能会看到一个不同的数据分布在你的设备,你最好的感觉,所以你可以告诉人们这是不安全的,或者我们需要升级。整个生命周期的系统将获得的数据字段回到工厂和匹配,无论你已经训练它,这样你就可以证明,或者确保它不是走出的范围应该做什么。

Soheili:每个级别的人工智能将符合它所提供的商业机会。在这些非常复杂的问题得到解决之前,像无人机完全依赖一个人工智能系统,或自主汽车行驶道路,避免人,很多简单的问题将得到解决。调试工具会赞同。调试工具和所部署的复杂性会以同样的速度发展。这将使无人机飞行本身没有任何监督。小步在这个发展是至关重要的。你可以认为调试是一个非常复杂的问题,我们可能无法得到我们的手臂,但对于更简单的问题可以犯错误,从这些错误中吸取教训,使调试工具更复杂的或更相关。

再生草:可能是一个合理的层次结构问题,从,“如果系统都错了,麻烦别人,”,如果系统都错了,有人赔钱甚至他们自己的生活。这些会发生在不同的地方,不同的行业,但有很多地方在用户界面是一个援助沟通而不是代替人类在安全性至关重要的问题。这种期望的合理性是温和得多。


图1:机器学习算法的复杂的世界。来源:加州大学洛杉矶分校/冯石

有关的故事
当我出错
到目前为止没有工具,没有明确的方法来消除错误。这需要理解一个AI错误实际上是什么。
机器学习应用到芯片
目标是提高质量,同时减少收入,但这并不总是那么清楚。
技术讨论:应用机器学习
如何使用AI,深度学习和机器学习在各种各样的应用程序。
深度学习传播
更好的工具,更多的计算能力,和更高效的算法正在推动这项技术成为主流。
机器学习越来越多的分歧
这个行业走向另一个机器学习的硬件/软件划分?双方有不同的目标。
机器学习EDA挑战
许多任务在EDA可以完美的机器学习的目标,除了训练数据的缺乏。这可能会改变修复什么?



留下一个回复


(注意:这个名字会显示公开)

Baidu