转帖：深度学习：新时代的炼金术

wj2000 · Oct 22, 2019

http://www.ftchinese.com/story/001084827?adchannelID=&full=y

深度学习：新时代的炼金术
李军：在AI领域，撞大运式的模型构建与机器学习迫切需要一个拉瓦锡式的人物出现，从新的认知方式与算法构造角度奠定AI可解释性的基础。

更新于2019年10月22日 03:22
李军为FT中文网撰稿

欺骗AI图像识别系统再次成为了人工智能行业的游戏。2019年10月初，华为莫斯科研究所的几名研究人员通过设计特殊的对抗纹路，成功迷惑MTCNN(多任务卷积神经网络)对人脸的识别。类似的实验最近几年频繁出现。从图像识别到视频识别，各种基于少量信息输入的对抗性和干扰性因素可以轻易地造成多种基于深度学习(Deep Learning)算法的人工智能系统判别错误。人类的认知可不会这么容易被干扰。“茫茫人海中，一眼认出你”的体验，相信很多人都有过。为什么同样是对图像信息的识别，人类乃至动物的抗干扰能力是目前的AI系统望尘莫及的？或许因为目前基于深度学习对AI技术发展已经走入了类似“炼金术”一样的窘境。从2012年卷积神经网络AlexNet出现开始，伴随着人工智能技术的快速发展，其核心算法深度学习在参数规模和算法复杂度上一路狂飙，目前已经达到十几亿参数的规模。如此复杂的算法，需要海量的数据支持其进行模型训练。就如同一头越长越大的怪兽，需要更多的食物喂养。但喂养出的这头深度学习怪兽能够在特定领域达到或接近人类的认知能力吗？很可惜，还差得远。目前的深度学习算法还是以一种类似于“炼金术”的方式进行构建的。这种炼金术式的方法，业界称为“黑盒训练”：高度复杂的多层次算法形成类似于一个不可打开的黑盒子，我们只能依赖于系统的输入输出对黑盒内部的关联关系进行调整和优化，最终形成的最佳模型也无法详细地拆解分析。虽然现有的人工智能技术已经在部分领域把人类的水平远远地甩在了身后，但和人类的认知模式相比，目前的深度学习模型还存在三大重要缺陷：1、有监督学习方式，需要大量人工标注数据所谓有监督学习，就是在有明确学习目标并了解对错的前提下进行学习并获取知识。换句话说，人工智能系统在学习(模型训练)的过程中必须一手拿着习题，一手拿着正确答案。如果没有正确答案，人工智能系统完全无从判断哪个结果是正确的，哪个结果是错误的，也就无法开展学习过程。于是伴随着人工智能行业的发展，一种新行业快速膨胀——数据标注。人工智能行业流行着一句话，“有多少智能，就有多少人工”。以图像识别为例，对模型进行训练的图像需要人工逐一标注出识别目标对象的位置和轮廓，这样人工智能模型才能根据标注结果比较不同的差异，从而找到数据之间隐含的模式特征。但是想一想人类在婴儿时期，主要的学习过程是处于无目标、无对错的状态。婴儿对于外界的绝大部分认知，如认识家人及各种物体玩具，乃至对于抽象概念的认知如时间、空间、重力等，都是在没有任何指导和正确答案的情况下完成的。对于动物来说，由于缺乏同类指导帮助，有监督学习的方式更为罕见。就算是没有学过“人类”的定义，狗也不会混淆人和其它灵长类动物。和深度学习的人工智能系统相比，动物都是无师自通的归纳高手，更不用说人类了。2、无法提炼出规则，无法模块化知识目前的主流深度学习方法如卷积神经网络、递归神经网络等，其工作原理是基于自身强大的适应能力(高度非线性拟合能力)，通过海量的数据“喂”出一个符合数据特征的预测结果。在模型得到满意的预测结果后，我们就可以认为该人工智能系统获得了特定领域问题的“知识”。但这个“知识”确实是自然内在规律的正确反映吗？答案是不知道。由于我们进行的是“黑盒训练”，所以模型内部的复杂关联无法清晰拆解，更无法提炼成为显性的知识或规则，最终也就无法从逻辑上确认模型内部“知识”的正确性。当然，模型的有效性是可以通过实践数据验证的。但有效性和正确性往往是不能划等号的。这就好像是拿着海量的带有正确答案的选择题让人工智能系统学习，最终取得了不错的评估结果。当然人工智能系统有可能掌握了一些知识点，但也有可能是人工智能系统发现了“三长一短选最短，三短一长选最长，两长两短就选B，同长同短就选A”这样的答题“秘笈”，从而取得了不错的成绩。在实际中最有可能的情况是有效的知识点和无效的“秘笈”混杂纠缠在系统中，共同构成系统获取的“知识”的一部分。由于算法的复杂性导致我们根本无从分辨和拆解有效知识和无效知识，最终只能全部接受或舍弃。由于训练数据内存在着类似于“秘笈”一样的规律(我们称为bias或偏见)，再加上模型无法提炼出明确的业务规则，所以深度学习模型结果一定混杂了部分错误的“知识”。这就是为什么基于少量的干扰信息，就可以轻易造成AI系统的误判。因为这些干扰信息往往准确地命中了系统错误的“知识”。3、知识无法重用和转移人类进步的重要基石就是知识的归纳和传承。如果每个人在生下来以后都要重新发明轮子，发现牛顿三大定律，那人类社会的发展早就止步不前了。很不幸的是，目前的人工智能系统就处于一种知识无法积累的状态。前面我们讲到，目前的深度学习算法是无法提炼出规则和知识的。那就意味着，当我们面临着和原有问题差别不大的新问题时，我们仍然必须重构和训练一个新的人工智能系统，而不是把已有的知识提炼出来并应用到新系统中。以Google的围棋对弈系统为例，其各个版本AlphaGo，AlphaGo Master，AlphaGo Zero和AlphaZero都是独立构造和进行数据训练的，前一个版本训练得到的知识无法直接迁移到后一个版本上。在图像识别场景下也是同样的情况。当一个系统能够正常识别人的面部后，如果需要识别被遮挡住左侧或者右侧的面部，模型必须使用大量的单侧人脸图片进行训练，其工作量和训练全新模型相差不大。这说明模型原有的“知识”并未得到充分的重用。而对于一个人类婴儿来说，他一旦具备识别某种物体的能力，那么只要稍加引导，他就能够通过物体的局部特征来识别整个物体。这也是为什么目前人工智能系统对模糊或残缺字体的识别准确度不高，而人类却可以轻易完成的原因。对于人类来说，知识是可以分解组合的，也就具备和重用和转移的能力。而人工智能系统通过训练获得的知识目前还呈现出不可分割的一个整体状态，这就大大局限了人工智能的应用场景和迭代优化速度，甚至在知识的准确性上被质疑和拷问。正如“炼金术”一样，方士们（数据科学家）收集到各种奇异的材料（数据），一股脑丢进巨大的炉子（深度学习模型）中进行炼制（训练），在炼制时间足够长以后，倒出成品查看是不是变成了黄金。在“炼金术”的整个过程中，方士们其实并不知道炼制的原理是什么，只是在尝试各种不同的材料和炼制流程的组合，希望凭着运气找到正确的炼制方案。类似的情况同样发生在深度学习过程中，就算是数据科学家们找到了表现较好的模型也仍然无法科学解释为什么这个模型的表现更好，同样也不能将其有效内容提炼成为可以传承的知识规则。炼金术最终演变成为科学的一个门类——化学，是“近代化学之父”拉瓦锡完成了对空气中氧气质量的测量实验，给出了氧与氢的命名，并科学地用氧化说解释了燃烧等实验现象。他提出了“元素”的定义，并于1789年发表第一个现代化学元素列表，列出33种元素，才奠定了科学的研究基础。在人工智能领域，撞大运式的模型构建与机器学习迫切需要一个拉瓦锡式的人物出现，从新的认知方式与算法构造角度奠定人工智能可解释性的基础。未来的人工智能系统应该具备什么样的能力与特点呢？我想应该包括以下四点内容：+ 知识的获取无监督学习方式为主。学习过程无需提供指导或只需要极少量的数据处理帮助。最终的知识成果包含抽象概念的定义和生成，而这个抽象概念是基于数据本身的规律确定的，有清晰的边界和适用场景。+ 模型的学习基于中小样本数据，而不是海量数据堆砌的方式。知识的提炼在于洞察数据之间的因果关联，并对部分包含偏见的数据有相当的抗干扰能力。+ 知识可以通过因果关系进行提炼和描述，并可以通过逻辑推理进行确认。复杂的知识结构可以进行有机的分解和模块化，各个模块化的知识其因果关联和逻辑推理都可以独立存在。+ 系统具备完全的知识重用和知识转移的能力。人工智能模块化后的知识可以加载到新的人工智能系统中，支持模块化知识基础上的增量学习，并成为下一代系统发展的前提和基础。社会的进步有赖于科学方法的应用和知识的积累传承，在人工智能领域也是这样。未来只有出现革命性的算法突破模型的可解释性，把“黑盒训练”转变为“白盒训练”，真正的人工智能时代才会到来。（本文仅代表作者本人观点，作者系加拿大最大的新闻媒体集团Postmedia的数据科学经理，负责机器学习平台的开发与商业应用，）

Log in or Sign up

转帖：深度学习：新时代的炼金术

wj2000