为什么数据的好坏将决定深度学习的未来_[#第一枪]

发布时间：2021-06-07 17:53:27 阅读：次来源：铝隔条厂家

原标题：为什么数据的好坏将决定深度学习的未来？

深度学习尤其依赖于好的、结构化和标签化的数据的稳定供给。与其源源不断地为机器监督学习寻找数据，不如加大力度研发无监督学习技术。

TechCrunch讨论了深度学习的一个主要组成部分:数据——即图像、视频、电子邮件、驱动模式、短语、对象等等，用来训练神经网络。

令人惊讶的是，尽管我们的世界正被数据所淹没——目前每天新增约2.5亿字节的数据——其中很大一部分没有被标记或结构化，这意味着对于当前的主要学习方式——监督式学习来说，这些数据是不可用的。而深度学习尤其依赖于好的、结构化和标签化的数据的稳定供给。

监督学习：仍要手把手地教

TechCrunch在一篇关于神经网络的文章中，解释了数据是如何通过一系列的操作被传输入机器中并被机器分析和提炼的。这一方式被称为是监督学习，因为这些数据被输入到机器中之前都被标记了，而标记的过程耗费了大量的时间和人力。例如，要训练一个神经网络来识别苹果或橘子的图片，就需要事先将大量的被标记了的图片输入这个神经网络之中。神经网络会分析比对出这些标有相同标签的图片的共同点，并将这些数据与之后识别到的新照片作比对。前期输入的图片越多，这个神经网络积累的数据就越多，在识别新图片时就越精准。

这种方法在视觉数据的机器教学中很有效，包括识别照片、视频、图形和笔迹之类的图像信息。目前，在很多应用领域中，实践已经证明了机器在识别图像信息方面比人眼识别更快速且准确。一个明显的好处是，对于许多应用来说，机器比人类更平等，甚至比人类更优秀，这已经是相当普遍的事情了。例如，Facebook的深度学习软件能够匹配一个陌生人的两张照片,在97%的情况下比人眼匹配的更加精准。谷歌于今年早些时候发布了一个神经网络，可以在医学图像中发现恶性肿瘤的位置，而且比病理学家还要精准。

无监督学习：还在起步阶段

众所周知，与监督学习对立的，便是无监督学习，这一模式是任由机器深入到数据中去发现和体验，并寻找模式和联系，然后得出结论，在这一过程中没有监督和指导。

长期以来，无监督学习的发展进程缓慢，使一些人工智能科学家很忧虑。但是在2012年，谷歌展示了一个深度学习网络，该网络能够从海量没有标记的图像中识别猫、脸和其他物体。这项技术令人印象深刻，并且产生了一系列非常有趣且有用的结果。不过，到目前为止，无监督学习在很多实用领域还是无法达到监督学习的准确性与有效性。

数据无处不在

监督学习与无监督学习的巨大差异给我们带来了更大的问题。如果把机器比作婴儿，就更简单明了。在放松对婴儿的控制且不对其进行引导时，婴儿会自发地学习，但其所学内容并没有针对性，可能就不是我们希望其学习的内容；而如果我们想让婴儿学习特定的内容，就需要为其灌输大量关于数字、图片与物品的信息，这还只是针对一个特定的话题，而我们要交给婴儿的话题数量几乎是无限大的。例如方向，动物和植物，重力和其他物理特性，阅读和语言，食物类型和元素等等，只要是存在的东西，都是这些话题之一。要将所有这些都教给孩子，需要很长的时间，这次过程中会有无数次的展示和阐述，并要回答所有孩子都会问的“十万个为什么”，而且这些问题他们通常不会只问一次。

这是一项巨大的事业，但大多数父母，以及孩子身边的其他人都在日复一日进行着这项工作。而每个神经网络也有同样的需求，但是这些需求更加细化，所以为其灌输的学习内容也需要被标记更加精准的标签。

目前，人工智能研究人员和科学家可以通过多种方式为其机器的监督学习获取数据。第一种方法就是亲自去收集大量的有标签的数据。目前谷歌、亚马逊、百度、苹果、微软和Facebook等公司都采用这种方式，这些公司的业务能够产生海量的数据——其中大部分都是由客户免费提供的。

这些公司数据库的云存储上都有数十亿标记了标签的图片数据，文档，搜索查询——通过语音，文本，照片和光学字符识别——位置数据和地图，评级，喜欢和股票，购买，送货地址，电话号码和联系信息，地址本和社交关系信息。因此，传统的公司——以及任何规模庞大的公司——往往在机器学习中具有独特的优势，因为他们拥有大量的特定类型的数据(这些数据可能最终也可能不是很有价值，但通常是这样的)。

有些数据的获得并不轻松

如果不是排名前百的公司，拥有数万亿的数据，那么获取数据的最好方式就是善于分享(或者拥有雄厚的财力)。获取大量不同的数据是人工智能研究的一个关键部分。幸运的是，已经有大量免费和公开共享的标签数据集，涵盖了海量的各种类别的数据，维基百科页面上就有几十个类似的链接。

如今，全世界范围内有越来越多传感器，如医疗传感器、运动传感器、智能设备陀螺仪、热传感器等等，这些无处不在的传感器是最新的数据来源。同时，越来越多的人会给食物、标签和标志等东西拍照，这些也是最纯粹数据来源。

所以问题何在

尽管目前已有多种途径获得足够的数据，但实际上，这些数据利用起来并不简单。对于某些分类来说，有些数据的量还是不够，或者数据太小，再要么是不太好，要么是部分已贴上了标签，反正就是无法满足需要。例如，你想要教会机器识别图像中的星巴克标志，而在数据库中只能找到一些被贴上更宽泛的标签的内容，如“饮品”、“饮料”、“咖啡”、“容器”等。如果没有正确的标签，这些数据就是无效的。再如，一般的律师事务所的数据库中可能有数百万份合同或其他书面资料，但这些数据不可用，因为这些很可能都是简单的无标记的PDF格式数据。

机器学习中的一个问题就是数据集的大小。在训练一个复杂的模型(如深度神经网络)时，使用小的数据集可能会导致过度拟合，这是机器学习中一个常见的陷阱。从本质上说，过度拟合是指有大量与训练样本相关的可学习的参数，参数是那些“神经元”。过度拟合的结果往往是机器记住了所有的训练数据，而不是按照预想的那样从数据中学习一般概念。

例如之前提到的苹果/橘子案例，如果想让一个庞大的神经网络学习识别苹果和橘子，而只给这个神经网络少量的图片数据来学习，就要承担这样的风险，这个神经网络可能会自动将焦点转译为识别更加具体的内容，如红色物体、棕色根茎或者圆形物体。即使为神经网络提供的学习图片是非常精确的数据，即苹果/橘子的照片，但是该神经网络学习的结果仍是无法在测试中精确识别苹果/橘子。所以，用以机器深度学习的数据必须是大量且精确区分的。

机器学习的另一个问题在于数据的多样性。从统计学的角度讲，某个或某种数据越独特，该数据就越有可能包含更多类别的特征。仍以苹果/橘子学习为例，该训练的最终目标是使该神经网络能够识别所有的苹果和橘子的图片，而不仅仅是训练中的那部分图片。毕竟不是所有的苹果都是红色的,如果在训练神经网络时输入的学习数据只有红苹果的图片,该神经网络就会默认苹果只能是红色的，在测试中就不会识别青苹果。因此，如果在培训期间使用的数据类型不能涵盖该主题的所有类别，就不会得到预期的结果。

这一问题目前已在很多人工智能系统中显现，因为苹果/橘子的学习只是一个很小的案例，但是更多的人工智能系统学习的内容不止这么简单。例如，在面部识别系统中，数据不全面所造成的后果就会被放大。

加速研发机器自主学习

随着深度学习的发展，数据不足的问题会越来越明显。针对这一问题，现有的两种有效解决方式似乎都不是长久之计：要么继续人工为数据加标签，这样下去会一直面临人手不足的问题，因为数据的数量在以倍数增长，且机器学习需要的数据增长更快；要么就等着其他公司开源共享数据，被动等待全球所有公司全部同意数据共享的那一天，这显然是更不靠谱的。所以，要解决机器训练中良好数据不足这一问题的根本途径就是设法摆脱机器学习对数据的依赖。与其源源不断地为机器学习寻找数据，不如加大力度研发无监督学习技术。就像是教育自己的孩子一样，虽然也需要大量的监督学习使其获取知识，但是更多、更重要的内容还是需要孩子自己去领会，这就是无监督学习的优势和必要性。