更好的机器提前训练方法吗?

为什么不受监督,强化和Hebbian方法有利于一些事情,而不是别人。

受欢迎程度

我们生活在一个无与伦比的使用时间机器学习(毫升),但是它依赖于训练的一种方法实现的模型,人工神经网络(ann)——如此命名是因为他们不是神经形态。但其他训练方法,其中一些比另一些更仿生,正在研制。最大的问题是是否他们将成为商业上可行。

毫升培训通常分为两大阵营——监督监督和管理。事实证明,分歧不是很清楚。存在的多种方法颠覆整洁的生硬。然而最终的目标仍然是训练更容易,使用能量小于今天我们所做的。

“培训的计算量是每三到四个月翻一番。这是不可持续的,”杰弗里·伯尔说,杰出的研究人员在IBM研究。虽然推理推向边缘,培训仍然是一个数据中心活动特别是因为它需要太多的计算能力。

今天我们在哪里:梯度下降
“一个训练方法,每个人都看着监督学习,“以利亚法伦说,软件工程组定制IC及PCB集团主管节奏今天,他指的是广泛使用的方法。“关键是,我有标签。”

这意味着,之前神经网络部署——简称“网络”,它通过一个广泛的离线训练的过程。这一过程所得通过提供广泛的标记样本到网络中。标签识别样本中包含的特性和服务告诉网络是否做出了正确的决定的训练。

监督培训开始于一个随机模型,然后,通过试验和错误,调整模型,直到给了可接受的结果。对于任何给定的模型,没有一个独特的“正确”或“最佳”模型。轻微的偏差在培训技术——的无害的改变训练样本的顺序,将产生不同的模型。然而,只要所有的不同运作模式具有相同的精度,他们都同样有效。

一个不正确的决定在训练将在最后一层检测到的网络,其中包含的每个可能的类别的可能性。因为这些都是整型值,可以计算的错误。在这一点上,“梯度下降算法决定了倒数第二的重量需要改变层为了最后一层来实现正确的响应。从倒数第二层,然后你可以搬回一层看看需要什么变化,一层一层为了倒数第二是正确的。这种“反向传播”过程一直持续到所有重量都被改变了。

这个过程完成后第一个样本,样本的网络是正确的。然后下一个样本,和重复的过程。的意图是,在大量的样本是随机和广义充分自由的偏差,调整权重将会越来越小,每个成功样本,最终汇合在一组权重,让网络识别新的样品,还没有见过的和可接受的精度。

“有很多变化梯度下降的方法,”法伦说。这种培训技术已经广泛应用的巨大成功,但它的大缺点是它需要大量的能量,和计算需要大量的计算。对于每一个样本,数百万或数十亿重量必须计算,可能会有成千上万的样品。

此外,训练的梯度下降方法相似性没有在动物的大脑发生了什么。说:“生物反向传播是不合理的,克里斯•Eliasmith理论神经科学中心主任滑铁卢大学的。

Peter van der, Brainchip创始人兼首席技术官,同意了。“完全反向传播人工,没有生物等效。[它]可能是有用的在创建固定的功能,但它不能用于实时学习。因为它的逐次逼近方法,它需要数以百万计的标签样品做出决定,如果网络是否正确,重新调整它的重量。”

这是一个方便的数值方法,但它需要计算“血统”的能力——本质上是一个导数是有效的。据我们所知,没有这样的并行活动在大脑中。

就其本身而言,这不是一个大问题。如果成功的话,那么它的工作原理。但是寻找更仿生的方法仍在继续,因为大脑可以做所有这一切远,远比我们在机器需要更少的能量。因此,研究人员仍然吸引的可能性用更少的钱做更多的能量。

此外,标签数据集可以是非常昂贵和耗时。这可以设置一个高的障碍在某些领域,标签数据可能不太可行的比与图片——就像蛋白质。训练技巧,不需要标签的承诺比现有技术更容易。

无监督学习
可以删除标签样本的努力如果我们可以执行无监督学习。这样的学习仍然需要样本,但这些样本将没有标签,因此,没有一个具体说什么是正确的答案。“最大的区别在于我有标记输出与否,“法伦说。

使用这种方法,算法试图找到共性的数据集使用聚类等技术。法伦指出,这意味着,“让我们找出集团的事情。“这些分组执行像推断标签。虽然这听起来可能不满足严格的说,“这是一只猫,”最后的“猫”只不过是一群图片分享一只猫的特点。当然,我们喜欢把名字放在类别,手动标记过程的许可。但无监督聚类可能导致天然分组,不得与任何一个简单的名称相对应。和一些分组可能比其他人更多的价值。

集群可以协助下称为“semi-supervised”的学习,这和监督学习和无监督的方法。所以会有几个标签的样本,但更多的没有。标记样本可以被认为是类似结晶成核的网站——它给未标记样本的一些示例集群可以继续。

“Auto-encoders”提供了一种有效的标签或标记样本的特征特性。这个想法是网络试图发现类别和减少他们避免噪音或其他相关方面的数据。减少进料检查它的正确性的反向生成模型是否可以正确地重建原样品。这似乎是类似于一个短语,运行它通过一种语言翻译,然后把翻译结果和运行它通过反向翻译,看看最终结果与原始匹配。

一般来说,非监督学习是一个很广泛的类别有很多可能性,但似乎没有一个明确的路径向商业可行性。

强化学习
然而第三类的培训是“强化学习,已经看到有限的商业用途。更可见等算法训练来赢得比赛。它是通过奖励系统,具有良好的决策钢筋和坏的气馁。这不是一个新事物,但也还不完善。以来它都有自己的类别,抑扬顿挫的法伦指出,“(钢筋)并不属于监督或无监督的区别。”

Eliasmith提供一个简单的游戏的例子,你想找到一个“正确”的细胞标记占领,与其他一些随机的开始标记细胞。第一个举动必然是随机的,和奖励是偶然。但是一旦奖励,你附近的细胞标记为接近正确的位置,这样下次你有暗示你在附近。从这里,可以显著的方式类似于其他细胞离开面包屑更容易找到你的方式到正确的位置。

然而,这不是一个完美的奖励制度。“(奖励)可能无法提供正确的答案,但这是一个正确的方向,“Eliasmith说。


图1:强化学习使用环境的反馈来奖励或惩罚的决定。来源:Megajuice

然而,环境问题。“(钢筋)如果你有一个很有用的环境,可以提供一个积极的还是消极的奖励,”法伦说。这是奖赏系统的大挑战。该系统运行在高级别上,所以什么是奖励可以相差很大,这将是非常依赖于应用程序的。

“奖励学习来源于动物行为”,称Brainchip范德。“动物学习和奖励,如食物。这强化了行为,动物已经获悉,获取食物的方法是执行相同的技巧。在计算机硬件,这个方法被用来加强学习,通过奖励或惩罚学习算法。但是这种方法存在一些问题。后的奖励来行动,有时方式行动后,该算法必须记住行动与奖励或惩罚。和你如何定义更高的“奖励”,一个抽象的概念,低级算法?”

Eliasmith指第一次批评,van der提出“信贷分配问题。“在游戏中去,例如,每个个体都将导致成功或失败。很容易确定最后的举动应该奖励,但是第一步和所有的中间的吗?哪些工具取得一场胜利,并使赢得困难,甚至导致损失呢?可能有数十或数百个动作,每个贡献或反对一个赢了,赢得或失去被推迟到最后的行动。你怎么奖励那些早期的举动?

出于这个原因,此类培训可能需要一个非常高的多的模拟运行,以决定哪些动作的统计基础往往是有益的。“这是只有您可以运行成功的数十亿的游戏,“法伦说。

“有一百万种方法人们试图解决这一问题,“Eliasmith说。即便如此,我们不应指望完美在分配奖励和惩罚。“生物学尚未完全解决它。”

人类和其他动物的例子还有每日mis-associating因果关系。但总的来说,强化学习最终可能会成为一个混合的离线和在线训练。为机器人应用程序尤其如此,你想不出所有可能的场景在离线训练。增量学习可能是机器必须通过他们的步伐和遇到不可预见的情况。

强化学习往往是善于解决控制问题,如机器人技术。谷歌对其冷却和使用它节省40%能源法案。这种方法显示了一些商业可行性承诺。

学习和STDP Hebbian
虽然信贷分配问题可能解决方案对于某些应用程序,强化学习的高级特性。奖励一只鹦鹉和一个饼干运作水平远高于神经元的传递通过突触间隙神经递质。最终,动物的大脑学习水平低,因此一些研究者关注这种级别的抽象。

唐纳德·赫布提问到,认为,“神经元捆绕在一起的”,尽管他并没有真的硬币这句话——只是这个概念。“这不是他说什么,但这就是我们记住,“Eliasmith说。我们的想法是,给定两个神经元,如果前一个火灾,应加强的联系。如果一个又一个火灾,链接应该削弱。时间距离两个解雇会影响强度的强化或减弱。“这是理解更接近神经元如何真正学到东西,”法伦说。

“低水平,大脑中的神经元突触权重修改他们的(学习),这一过程称为峰值与时间有关的可塑性(STDP),”van der说。“这是一口一个简单的过程,是由复杂的数学。更简单,输入前进行输出时,突触的体重增加,而如果输入输出,后发生突触权重却降低了。这样一个神经元学习应对特定的模式出现在输入,而其他模式是沮丧。与许多神经元学习不同的模式,可以学习非常复杂的模式。“这专门把神经元之间的时间关系,可能导致时间编码在神经网络(SNNs)飙升。


图2:STDP试图模仿更密切的低级行为生物突触,在神经元“火”在突触间隙递质。这个射击的时机可以加强或抑制连接。来源:科学动画维基百科

STDP允许培训、监督或无监督,用更少的样品比我们今天需要。Brainchip SNN有杠杆的一些想法,它用来提供incremental-training部署芯片的机会。额外的视觉类可以实现只有一个训练样本。

“固定的组合特性和STDP学习——立即发生,不需要多个样本——打开有趣的可能性,”van der说。“马上可以学会识别新对象(没有奖励)。”

滑铁卢大学的Eliasmith发现增量学习并不新鲜。作为一个例子,他指出,谷歌提出了伯特神经网络,包括重量、公开可用。其他人从那时开始,添加自己的额外层增量学习超出谷歌公布。

Van der还指出,与当前的人工神经网络不同,大脑利用反馈运营。“大脑包含许多反馈连接。甚至STDP学习通过喂养时间不同的输入和输出神经元突触权重调整。”

但他这有别于行为奖励。“高级反馈发生不仅通过神经纤维,还通过环境,”他说。“我们从我们的错误中吸取教训,也从我们的成功。运用更高级的学习在一个低水平是一个错误。”

其他脑结构元素在机器尚未探索,van der说。“这个过程STDP增强大脑的柱状结构,它允许列学习模式之间的关系。我相信组织,或者说小组织的差异,使个体之间的差异迅速学习和个体学习缓慢。我们可以看到这个极端的天才。柱状组织的大脑已经完全忽视了在人工神经网络。”

许多其他方法和变异在研究实验室,其中大多数是远离商业解决方案。“其中一些其他技术有更少的数据时可能会更好和更低的功率需求,”法伦说。但是试图找到一个最好的训练技术可能失败是由于Eliasmith称为“没有免费的午餐”定理:每一个学习模式将会擅长有些问题,不擅长。



1评论

采用的技术 说:

有趣的指针为什么什么机器上的训练。好读!

留下一个回复


(注意:这个名字会显示公开)

Baidu