中文 英语

机器学习的限制

专家在餐桌上,第2部分:当错误发生时,他们是如何以及何时确认和谁?

受欢迎程度

半导体工程与罗伯•艾特肯坐下来手臂研究员;Raik Brinkmann的首席执行官OneSpin解决方案;副总裁帕特里克Soheili业务和企业发展eSilicon;和克里斯再生草的首席执行官Babblelabs。以下是摘录的谈话。第一部分,点击在这里

SE:出错的多少取决于机器学习算法是错误的,或者一个硬件的不同于另一个运行相同的算法?错误的来源是什么?

Soheili:在一天结束的时候,我们正在处理数据是对的。所以我们可能在87%和90%准确。

艾特肯:有两个地方错误发生。第一个是数据集本身有问题的地方。在医学,这是一个经典的挑战。带安全标签的数据是非常困难的。有很多图片的肿瘤,例如,但有一点很正确的标记。然后,不同的专家将标签相同的事情是不同的。在数据完整性有挑战。另一个挑战是外推。如果你训练数据集,现在你正在寻找在一个更广泛的数据集,在某种程度上你安装一个函数第一组数据和现在你推断你的新数据。如果您的数据是足够全面,你只做插值,然后一切都是美好的。 Once you start doing extrapolations, bad things happen. And because these spaces are so complicated, and we don’t really know how to visualize or think about them, the distinction between interpolation and extrapolation is hard to make. The problems exist in the data set and they exist in what you do with the data set. The tools and the hardware are actually fairly well understood.

Brinkmann:但是他们还可以控制优化的影响,你在网络上。你可以测试它,你可以调查它,这是你能控制的很好。它可能是耗时的任务,但它是可控的。

再生草:神经网络异常是良性的,鉴于其便携性和易于比较结果从一个实现与另一个。但也有第三类错误的来源。没有系统仅由一个神经网络。这是一块更大的系统。我们仍然在早期的系统架构师理解神经网络是正确的角色在一些较大的块逻辑,无论是软件或硬件或软件+硬件逻辑。之间的交互神经网络和其他所有的这些事情是非常重要的。

Soheili:体系结构和拓扑失踪很多基础部分。

再生草:是的。发生在数据的预处理是什么?什么是目标函数。如果标识符告诉我A、B或C,我怎么处理这些信息?许多神经网络将给你一个信心得分在一种或另一种形式。它可能非常有用的信息,但我们知道如何判断信心因素找出系统的其余部分应该如何表现?总的来说,我不认为,人们有太多的熟悉与大系统设计,神经网络。

艾特肯:在某些情况下,您可以使用它们来协助他们的训练。如果你有一个的挑战,你有这个空间,映射到一些东西,现在你已经建立了一个神经网络,你将你所有的数据进行分类为这些类别,“当您运行数据,你会得到各种东西模棱两可。它可能是一半,一半。我训练一个摄像头来区分人,不复存在,我训练它用图片。我有一只鸟的照片走在人行道上。不确定这是一个人。所以我必须训练动物,所以它可以识别鸟和猫。工具可以给你洞察的属性数据,你可能没有表达好。

Brinkmann:当您部署,您需要获取数据回工厂。如果你部署的东西做了一个决定,它可能决定基于鸟作为一个人。

再生草:整个系统开发方法。没有保证人类程序员做这个手工预期走鸟。

艾特肯在前几天,我们有分类器,你甚至开始在哪里?你可能需要做颜色平衡和像素分化。现在更容易。

Soheili:是的,这些将是婴儿的步骤。

Brinkmann:你是如何应对未知situations-things系统设计师没有预见?例如,有人在构建的汽车交通堵塞后另一辆车。在测试阶段,一个司机离开了车休息。汽车认为司机还在交通,车后,他跑去赶它。这是一个情况下,系统设计师无法预见。所以你可以训练你的网络,以及你想要的,但是如果一些基本事实是失踪,偏见为一组数据,而现在突然走向另一个方向,然后你有问题。

再生草:是一个宽泛的类别的异常检测可能是有益的。你可以有系统,也许深度学习系统,这是训练只是为了寻找意想不到的事情,并重新陷入一些非常保守的行为当它感觉它已经超出了国家的训练。你希望通过设置广泛的异常的标准,它认识到的东西并不在这里。在过去,这看起来像这样广泛的横截面数据。”因为你有司机监控摄像头,也许没有专门的逻辑检查如果有司机。但你可能会有一些高阶单独的网络地址。

Brinkmann:你会有更多的参数和特性,但这不会考虑到你的神经网络。在这种情况下,您需要看更多的数据比来源。

艾特肯:有一个有趣的推论,包括限制的可能的异常。全自动汽车可以被丢弃在硅谷和功能正确,和同样的汽车能够巡航在澳大利亚内陆地区和导航班加罗尔从市中心穿过,是被误导了。这不是能做所有的事情,但是必须放弃很多东西,你要约束系统。英格兰剑桥的,据我所知,骑自行车的人的规则是,你可以骑在任何地方在任何时间在任何方向。当你在一辆车,自行车从任何角度都能来,你必须使用。这种情况不会发生。你需要能够约束系统,这样你就可以消除某些类型的异常,因为你不可能指定每一个奇怪的事情会发生。

SE:你指向的一件事是有一个足够大的数据集,让它更具体。所以你要做的是自定义的数据基于不管什么情况下你。但我们有足够的数据,可能吗?

再生草:我们现在在这个问题上工作,专业演讲神经网络。真的有两大类。用一个,您可以构建数据集的特定情况下,你认为你面对。所以这是不同的,然后你去收集数据来表示。另一个是你最广泛的数据你可能可以,尽管它可能隐式设计的偏见。你可能会说你的客户关心的人群噪音,所以你要强调的分布和做一些比你所想的更通用客户关心的,希望在剩下的数据有一些维度的数据有助于人群噪音。但至少你没有过分缩小它。如果你有数据,你使用它,你用你所能。在很多问题,你根本不知道,先验分布是什么,你的脸。直到产品,广泛使用,你不能收集足够的数据来告诉你任何关于角落情况。

Soheili:即使你停止来推断,你永远不会停止学习。你喂你的网络新信息和数据集。你可能会说,“我不想做出这样的决定,但我想做出这样的决定,”继续喂养它的信息,然后打开另一个层。你可能不想超越100000美元支出限制或杀死一只鸟,但你永远不会想要杀死一个人。这些都成为彼此相互关联的使系统更加复杂。

再生草:方法的一部分,你必须期待逐步开展。你说,这是一个2级系统。你收集更多的数据,然后你可以去3级,4和5。

艾特肯:一开始你认为你需要这个巨大的数据量。但是工作制度建立后,大量的数据,人们会确定你并不真正需要的东西。你可以用更少的。我们做了一些与微控制器,与一个相当少量的数据你可以让它认识单词。

SE:如果你添加这些设备的灵活性如何学习,你不知道他们将如何互动,因为他们现在独特的系统。改变这些东西是如何工作的吗?

Soheili:是的。有人问这个问题:“如果有两个自主汽车和一个古怪的,其他的理解已经古怪吗?还是他们认为周围的一切都是自主和工作吗?这是个很好的问题。

Brinkmann:如果你有两个机器学习系统一起工作,和你反馈数据,我们学什么?在某种程度上,你不知道他们正在谈论什么。

SE:他们有自己的语言,对吧?

Brinkmann:是的。在某种程度上你有一个反馈循环,你没有设计。

艾特肯:某些方面非常开放的搜索问题。的想法是更高层次的系统,如果你有两个版本的α去打对方。他们1000万年游戏优化策略。如果你试图找出他们,你会不知道。但如果你有一个全球的系统应该做什么,他们在做什么合理吗?如果是的,那么棒了。如果没有,那可能是时间拔掉插头。

SE:当你决定,谁决定的?事故后吗?

艾特肯:安全机器学习的关键是一个非常困难的应用程序。你不去那里。

再生草:有很多有趣的方法,特别是模拟,这是基本要素。关于神经网络算法的好处之一是,你可以很明确的输入和输出。您可以构建独立的模型,生成数据感兴趣的和感兴趣的场景。您可以构建独立的模型,可以监视这些。所以你不只是看一个模型,试图找出如果去工作。您可以构建一个整体环境的测试之前的合理性和行为在很多不同的方面你有没有把生命岌岌可危。人们需要尝试很多不同的事物。的一些模型,构建一个模拟的环境可能不会教你任何东西。但是如果连其中一个找到一个角落,在某种程度上失去了,这将是向前迈出了重要一步。具有讽刺意味的是,它似乎是合理的,它不会让我们长时间驾驶系统,比人类,因为人类是糟糕的司机在某些情况下,特别是当你在酒精和疲劳和干扰因素。 It’s pretty easy to have systems that are always alert.

艾特肯:但也有一些有趣的问题。当你走在街上你通常眼神交流车来停止。我看见你,你看见我,如果行人看到司机不注意,然后你停止汽车不跑你。但是无人驾驶汽车,没有人承认它不见到你。

Soheili:我们认为当我们坐在轮子,我们可以忘记别人的行动和反应。我们认为一个司机要左拐或者我们认为我们可以多任务。我们可以带走的问题,人类的特征,这就是为什么他们是安全的。

艾特肯:我们也倾向于过高估计自己的能力,和傲慢带来一些有趣的副作用。我们都相信我们是更安全驾驶自己的车比我们乘坐一辆公共汽车。统计我们错了。我们相信我们比乘坐飞机更安全的骑一辆公共汽车,这也是错误的。我们有所有这些事情了,我们知道每一个无人驾驶汽车坠毁。与此同时,普通汽车撞在我们周围。

再生草:这是关键。它不会很难比普通司机,但显然是不够的,我们接受。有一个讨论是否需要10倍或100倍为人们接受它。



留下一个回复


(注意:这个名字会显示公开)

Baidu