如何衡量毫升模型精度

足够的一个应用程序可能是另一个不足。

受欢迎程度

机器学习(ML)是基于旧数据对新数据进行预测。任何机器学习算法的质量最终是由这些预测的质量。

然而,没有一个通用的方法来衡量质量在所有毫升应用,这对机器学习的价值和用途广泛的影响。

“每一个行业,每一个域,每个应用程序都有不同的care-abouts,”尼克倪说,产品营销总监、人工智能和软件赛灵思公司。“你有关心的测量。”

分类是最熟悉的应用程序,和“准确性”是衡量使用。但即便如此,仍有分歧如何应该测量精度或它应该是什么意思。与其他应用程序,更清楚如何测量结果的质量。在某些情况下,它甚至可能是受个人喜好。

机器学习目的是在现实世界中解决实际问题。因此,它的成功或失败取决于一系列因素。模型,模型是如何实现的,还有如何实现与大集成系统托管。每一个有许多不同的组件,最终确定一个解决方案的健康对于一个给定的应用程序。

最容易合并的两个方面的解决方案的质量模型及其实现。从来没有完美的实现可以提高一个贫穷的质量模型。最好的模型可以被实现。只有模型和实现都是好的我们可以期待好的结果总体来说,只要其他注意事项不阴谋伤害结果。

分类和分割模型
如果模型质量至关重要,那么我们如何衡量质量?我们听到这个词准确地扔,对于许多应用程序,但它没有意义。即使对那些它是适当的,并不是每个人都同意如何测量它。“愿景有不同类型——分类、分割、分割,超分辨率,有不同的指标对这些“亚斯Mitra说,产品营销总监,Tensilica人工智能产品节奏

最受欢迎的应用程序分类,最受欢迎的类型的分类是视觉。即使在这里,有歧义。准确性是选择正确的答案?许多应用程序停止一个答案。相反,他们用一个概率等级可能的结果。所以你测量正确如果期望的结果是首选?还是足够近,若最终在前五或前十的结果吗?

一旦你有了一个定义“正确”,经常需要测量推断使用该模型给出一个正确的结果。对于任何给定的分类推理,许多人例证与狗和猫,有四种可能的结果。两个结果进行正确的预测模型——要么说这是一只狗,它确实是一只狗,或者模型说它不是一条狗,也不是一只狗。这些都是真正的优势和真正的不足。另外两个是假,假阳性结果当模型表示这是一个狗但它不是,或假阴性当模型未能确定一只狗。

然而,这种简单认为只有推理是为了回答这个问题,“哪些图像包含的狗?”“如果相反的问题是,这下面的20个项目包含在每一个照片吗?“在这里你结合一系列的20个问题的结果,问,“这事在形象吗?”

切实可行的解决方案通常采取这一步。不仅必须被识别对象,但一个边界框必须画在图像中对象的额外信贷的“盒子”跟踪对象的轮廓。这被称为细分,本身可以分为语义分割,只有确定类型的对象,和实例分割,同一对象的不同实例也分离出来。

“质量”的问题就更加复杂。如果一个对象是准确识别,但是这个边界框是差定位呢?如果使用,限定框成功只能伤害措施,因为一个好的边界框在一个不正确的分类是一个失败,而一个正确的分类和一个不确定的边界框可能不是那么严重。“在汽车,它不是那么重要最精确的边界框,而是“我发现在我面前的人吗?”倪说。

最好的测量精度是什么?
这就对精度基本问题——应该容纳错误的严重性?如果你是95%准确的,是好的,即使推论落入失败的5%可能灾难性的后果?一定程度的准确性可以构造考虑失败的严重性吗?

的创始人兼首席执行官史蒂夫•Teig感知,相信如此。他指出,受欢迎的准确性的措施往往是由“精确”和“召回的概念。“但这只是一个ratio-of-numbers游戏。精确反映真正的阳性的数量除以总数量的阳性(真假)。召回措施有多少被发现的“东西”正确分类。这是真阳性的数量除以真阳性和假阴性的总和。后者是错过了。

如果你有一组图片,和4或含有狗,如果正确的模型识别3——它认为2 non-dog图像狗,然后精度是3 /(3 + 2),而回忆是3 / (3 + 1)。

图1:精度和召回的概念用于评价分类模型。来源:Walber
图1:精度和召回的概念用于评价分类模型。来源:Walber

有效,这些测量目标识别(通过一些假阳性),是多么彻底(通过寻找尽可能多的东西)。他们经常结合在一个衡量不客气地称为“f1”(也称为“骰子分数”)。他们与总体的意思是平均精度(mAP)得分。还有一个细分“借据”措施,对比推理结果地面真理。“他们看着十字路口,两个的结合,“节奏的Mitra说。

但这是严格意义上的数字游戏。如果你有一个摄像头看危险的食肉动物进入你的农场,那么你要确保你的狗不是偶然发现捕食者。作为开始,你可以推断出一个规则说,“如果它是一只狗,然后没关系。”

如果错误的负鼠的狗,这不是这样的一个大错误。如果错误狼一只狗,不过,这是一个巨大的错误。然而,数字是一样的,根据经典的准确性。某些错误或难以识别的严重性没有测量。“我将没有额外的信贷检测真正难以探测的狗,”Teig指出。“但我没有处罚我的狗的事实错误是一只猫和一架直升机。”

数字也可以是脆弱的,因为至少在一个研究项目单个像素的变化能够把推理引擎。“任何可以显著的增加操作的结果,”Mitra说道。“你可以愚弄深学习网络给你一个错误的答案。”

Teig坚持训练数据集不应该专注于数据点的数量,而是多样性。和奇怪的越多越好。“你看到一个怪狗,看有多少选票的狗应该帮助模型来理解,狗来比模型在更大范围内否则会相信吗?”Teig问道。

他描述了通过意外的概念。“奇怪的数据点是一些最有趣的,”他说。“他们的表明,“dogness”包括的多样性的狗,即使它看起来不像大多数的狗你见过的。奇怪的数据点,告诉模型存在惊人的数据点,喜欢没有头发的狗或一只耳朵。”

他说,标准的f1方法反映了平均精度或平均惊喜。这涉及到香农熵的概念,量化所需的最小数据大小来捕获一个数据集的复杂性。它假定一个最优的方式编码的数据。毫升模型可能或不可能使用一个最佳的编码。

选择一个特定的模型训练一些数据修正模型的“编码”的决定。“一种罕见的一个实验的结果是比常见的一个实验结果更令人吃惊,”杰拉尔德Friedland表示Brainome公司的共同创始人兼首席技术官。“如果每个结果都是等可能的,所有的结果都有相同的惊喜。的量化比特由香农解释说,用在许多信息编码策略,如分配长字符串少压缩的结果。”

有相关的量叫做“memory-equivalent能力”或“MEC”有效地措施对给定数据集的多样性,可能是次优的,编码。“MEC的内存量是一个机器学习模型需要学习一个任意的数据集,”欢勒说,在Brainome业务发展。

这个想法是为了有足够的高质量的数据找到“规则”或“算法”中隐藏数据。“过度拟合模型学习记忆和提取规则相反,”勒说。一旦你有足够的高质量的数据,更不一定是有用的。”声明,“没有更多数据”实际上是不正确的。没有数据足够的数据来计算出规则。”

编码可能会提供一个不同寻常的结果以不同的方式处理。但至关重要的是,这些结果需要训练集的一部分。没有办法占一个从未见过的数据点,如果是外的“规则”。

弗里德兰说:“科学只能观察。“未被注意的东西不能占了,除非找到一个模型,该模型解释了观测和实验数据以外的概括。”

Teig已经提出“extropy”的概念作为一种替代熵。这涉及到“softmax”功能的负对数概率,和想法是最小化最大的惊喜,而不是平均的惊喜。“我们平均惊喜不感兴趣,”坚持Teig。“我们感兴趣的最大惊喜。永远不要做傻事。你别以为狗直升机。这是极端的错误,严重的错误,人们真正想要了解的实际机器学习。然而没有人工作在机器学习实际工作。”

但是要注意的是,所有这些相互竞争的定义,但实验室模型生成和测试用干净的数据可能不会如此成功当面对吵闹的真实世界的数据。能使广告——然而测量准确性乐观相比模型如何精心策划执行用更少的数据。

Non-classification算法
分类问题包括远远超过目标检测。手写识别或音频转录也符合直觉的概念准确性,即使他们的细节可能不同。但还有许多其他人工智能试图解决的问题,和准确性不一定有意义的措施,无论细节是如何定义的。

在医疗保健行业,复杂的问题被解决了ML的帮助下,蛋白质折叠是一个被回答的问题是,“对于这个复杂的蛋白质,当折叠它的外形会什么?“这有着重要的意义,可以让人们了解抗体如何连接到一个病毒。

另一个例子是在基因组学。除此之外,它提出了一个问题,“鉴于以下症状,负责的是哪些基因?“这些问题没有等一个整洁的测量精度。你知道你已经成功如果你找到正确的答案,但确认一个正确的答案是需要更多的实验。

有另一个类别的问题通常称为“生成。“超分辨率(SR)图像算法使用AI来改善图像的质量。但是,你如何衡量多少更好的你的图片吗?你怎么量化之前和之后的结果呢?“供应商都将促进不同,但最后一天真的观众的喜好,“倪。

如果你只是试图清理一个图像,Mitra说,峰值信噪比(PSNR)可以使用简单的措施减少噪音。然而,其他的变化可能不是那么简单的。

深假货是另一个例子。你不得不开始从一个笨拙的工作不会欺骗任何人,也许跨越“恐怖谷”,和可靠的水平,可能愚弄敏锐的眼光。但这和HR算法,有一个审美组件。解决方案的成功可能有个体差异。人力资源,不同的人可能有不同的个人喜好,所以“更好”的概念并不是硬性。深假货,这是部分的函数多好别人的眼睛。

人工智能正在进入EDA世界,。但成功没什么直接的措施。一种方法是比较结果初始基线结果。“一些人工智能程序优化的设置place-and-route工具基于以前的结果,”马克Swinnen导演,产品营销、半导体有限元分析软件。“所以第一轮,你盲目的,然后你从结果。”

最后,还有毫升模型数据巨人世界运行提出建议根据搜集的数据。“谷歌和Facebook不会告诉我们他们如何测量精度,“倪说。“这是数据科学的秘密武器。”

融合的数据
的例子我们看过一个算法适用于创建一个结果。但是一些问题需要融合不同数据源的回答基本问题。这些汽车应用程序是最明显的,多个摄像头和激光雷达和雷达传感器数据。这些结果将结合回答这个问题的一个孩子是否运行在车的前面。它可能导致自主决定。

质量应如何衡量?融合的结果应该测量吗?或者每个数据流应该衡量自己的吗?还是两个?

这些多个流的存在在一定程度上是一个范围。在一辆车,一个相机不能给一个完整的汽车周围的一切。需要多个摄像头。融合需要这些合并多个图片,可以创建一个图像。

但激光雷达和雷达帮助的使用条件不适合相机——比如说,在晚上,当没有光,或当太阳炫目的镜头之一。在这里,额外的数据流服务部分是冗余覆盖的情况下,当从一个模型准确性可能是不够的。

汽车是一个很好的例子,一个非常复杂的问题得到解决,确定汽车应该如何操作以获得一个乘客到目的地尽快合法的可能,而造成任何损失。一个简单的测量质量有极其难以识别,然而很明显当系统失败。

没有很多,生活可能会有危险,多个并行算法可以实现冗余检查。甚至non-ML算法可以使用作为一个进行交叉检查失败。“在汽车的空间,他们都试图找出冗余像雷达和激光雷达,”戈登·库珀说,产品营销经理在Synopsys对此弧EV处理器。

展望未来的模型
我们的重点是模型在隔离,因为实现细节不能改善模型的质量。所以它成为关键的起点。实现过程量化和模型修剪质量降低。执行这些简化的技巧是用最少的负面影响。

Flex Logix看到客户对这种变化敏感。“他们不想让模型被改变,“说杰夫•泰特的首席执行官Flex Logix。“他们不想让我们走捷径,进一步改变精度以不可预知的方式。”

一个更大的图片质量将包括一个完整的系统的其他重要特征。“客户有两个约束——他们已经有了资金约束,他们有权力约束,“泰特说。他们也可能看能力和扩展能力或修改模型在给定平台,尽管这些可能的环境成本和权力。“他们想要的东西是最推断每秒每美元和每瓦。

每一个可以以不同的方式。这些考虑不直接影响模型的质量,但在他们的支持可能会妥协的质量成本。

有关的故事
AI系统为何如此难以预测
互动和优化使它更难确定当系统将会失败,甚至失败的真正含义。
在更快的隐性成本,低功耗的人工智能系统
权衡在AI /毫升的设计可以影响从老化可靠性,但并不总是以可预测的方式。



留下一个回复


(注意:这个名字会显示公开)

Baidu