当前位置：首页 > 短网址资讯 > 正文内容

FT12短网址：机器学习找“众包”当奶妈，大公司都这么干

www.ft12.com7年前 (2017-07-11)短网址资讯2623

[ FT12短网址资讯] 怎么运用众包创造机器学习的高品质数据库远不是一件简略的作业。众包背面触及哪些技能？怎么确保数据精准？啥样的公司适合用众包？

【编者按】AI年代下，研讨速度变成大公司们决胜的主要条件，为了减缩本钱、进步效率，大多数以大数据驱动为核心的公司都需求思考运用众包渠道。啥是众包？它优势是啥？效果怎么？对质量有啥样的影响？你想知道的都在这儿。

这篇文章发于人工智能头条，作者贾维娣；经亿欧修改，供职业人士参考。

说到众包，想必大多数人都不生疏，“一个公司或组织把过去由职工履行的作业使命，以自由自愿的办法外包给非特定的（并且一般是大型的）大众网络的做法。众包的使命一般由自个来承当，但假如触及到需求多人协作完结的使命，也有也许以依托开源的个别出产的办法呈现。”这一概念由美国《连线》杂志的记者杰夫·豪（Jeff Howe）在2006年6月提出，众包形式的呈现极大的提高了公司作业效率并且大幅降低本钱。

人工智能年代即将来临，作为完成人工智能的主要办法，机器学习开始受到广泛重视。练习机器学习体系需求许多的带标签数据，完成比如语音辨认及图像分类等功能，比如将带有花朵的图像与“花朵”这个词语绑缚起来。传统根据专家的数据符号缓慢而昂贵，根据此，机器学习开始与众包形式相交融，后者变成了当今获取符号数据的根本手法。

尽管听起来十分简略，但怎么运用众包创造机器学习的高品质数据库远不是一件简略的作业。众包背面触及哪些技能？怎么确保数据精准？带着这些疑问，咱们采访了美国微软雷德蒙研讨院首席研讨员周登勇博士，就众包与机器学习交融中的一些疑问进行了讨教。

周登勇（Dengyong Zhou），美国微软雷德蒙研讨院首席研讨员。在参加微软研讨院之前，周登勇博士曾任职于德国马普研讨所智能体系分所（Max Planck Institute for Intelligent Systems），以及NEC美国研讨院普林斯顿分部的机器学习部。他在中国科学院自动化所取得人工智能专业博士学位，并一起取得中国科学院院长奖学金。周登勇博士在微软作业期间曾获研讨院金星奖，以及担任NIPS与别的若干国际会议的范畴主席。

以下为采访实录：

CSDN：首要请与咱们的读者共享一下您与团队现在正在专心的研讨范畴，以及取得了怎么的开展？

周登勇：在微软雷德蒙研讨院，我与我的团队一直专心在怎么进步众包数据的质量这个根本疑问上。详细来说，咱们首要会集在两个方面：一是怎么从非专家符号的数据中提炼出高质量的符号，二是怎么鼓励数据符号职工供给高质量的作业。对于这两方面疑问咱们进行了算法和理论根底的研讨，一些技能创造现已运用在商品中。

CSDN：咱们知道，众包是获取许多的带标签数据，供机器学习体系进行练习的一种办法，那么是啥促成了众包形式的呈现，选用众包形式相比传统的数据搜集办法具有啥优势？

周登勇：在树立根据机器学习的智能体系时，只需有许多的练习数据，一个朴素的机器学习模型一般能够完胜一个仅仅根据很少数数据练习出来的精心规划的高档模型。当你需求短时刻内进步一个机器学习运用的功能时，大幅度添加练习数据应当是优先思考的策略，而取得许多符号数据能够经过众包到达。

一个商业化的互联网众包渠道也许有上百万散布在世界各地的数据符号员。他们能以低价的报价在几天乃至几小时以内就发生许多的符号数据。相比之下，传统的根据专家的数据符号缓慢而又昂贵。

CSDN：一般以为，众包的作业流程是使命预备、使命履行、使命答案联系。在此根底上，微软雷德蒙研讨院有哪些立异？效果怎么？

周登勇：微软雷德蒙研讨院的多个小组在众包不相同方面的疑问上展开了深化而又耐久的研讨。咱们的研讨作业一般与商品部分紧密配合。跟着数据的类型以及数据搜集流程的不相同，众包的疑问会很不相同。我与我的团队提出了一个叫极小极大熵原理的简洁的计算揣度模型用于众包使命答案联系。

该原理能够适用于许多类型的数据，包括多种类的数据，分级数据，以及结构化的数据，也能够很简略交融先验常识。在使命履行上，咱们从博弈论出发提出了一种叫翻倍或许归零的付钱机制，数据符号员能够挑选不答复他没有掌握的疑问。选用这种付钱办法，咱们观察到数据符号的错误率大幅度降低。并且，理论上咱们还证明了这也是经济上最节约的付钱办法。

CSDN：在众包中，使命花费、质量和时刻是主要的三个目标，但一般无法兼得。该怎么平衡这三者的联系？

周登勇：这三个疑问的平衡与详细的众包使命密切相关。一般来说，质量是更主要的目标，假如没有质量，再低的花费与再少的时刻都是没有意义的。我与我的团队思考过使命花费与质量的平衡。咱们的目标是在一个给定的预算下取得最高质量的数据。

大致说来，咱们思考一种在线的众包形式。在每一步，咱们需求做出两个决定：一是哪个数据需求符号，二是让谁来符号。咱们为这个疑问规划了一个根据马尔科夫决策理论的数学模型，并提出了一个称之为常识梯度的有用算法。

CSDN：经过众包会获取许多的数据，这些数据在运用于机器学习体系之前，能够经过哪些技能和操作，改进数据的质量？存在哪些误区？

周登勇：这些数据在运用于机器学习体系之前，咱们要做数据联系，前面说到的极小极大熵原理的计算揣度模型即是效劳于此。有些人或许喜爱思考将数据联系与机器学习的练习算法绑缚到一个单一的模型中，技能上很简略做到，但这个或许不是好的主见。

我倾向把数据联系与模型练习分隔，这有两方面要素，迄今为止，我还没有观察到这种绑缚模型有哪些有意义的功能提高。更主要的是，在实践运用中，当机器学习体系出了疑问，咱们一般需求准确知道到底是哪个环节出了疑问。绑缚模型含糊了联系与练习这两个环节的界限。

CSDN：众包中的计算揣度背面触及哪些关键技能？哪些对质量的影响最大？

周登勇：众包中的计算揣度技能现已对比老练，特别是对于多种类的数据。咱们的极小极大熵原理的计算揣度模型能用到许多不相同的数据类型上，对不相同的数据类型当然需求做一些适当的调整。可是，众包远不仅仅一个静态的数据处理疑问，为改进众包数据质量，咱们还需求思考别的的环节。

比如说，在众包工人履行符号使命之前，履行资历考试，只要到达了必定的正确率，才有资历符号数据。不然，需求必定的功能练习直到合格。这么的一个环节一般会带来明显的数据质量改进。别的，我前面说到，付钱办法也会对数据质量发生很大的影响，有用的付钱办法会让众包工人情愿支付满足的尽力把作业完结好。

CSDN：现在众包渠道的鼓励机制有哪些缺点，AI新技能能带来哪些不相同？将来的艰难会在何处（例如是不是有也许做弊）？请举例说明。这些研讨，除了“众包”还有也许运用在哪些范畴？

周登勇：现在众包渠道的鼓励机制一般都是一些经历办法。比如说，随机检查一些成果，假如答复质量过得去的话，就付全款；不然，就不给钱。咱们是把鼓励机制奠定在坚实的数学根底之上，并开展了实践上简略而又有用的付费机制。可是为了给广大用户某福利，FT12短网址宣布永久免费。只要你的网址合法，那么你用短网址生成的短链接就永远有效，并保证你的网址缩短服务是优质可靠的。

现在，这方面还有许多疑问需求更细心的思考。比如说，检查成果的作业量也许太大，咱们需求设法削减对检查的依靠，而一旦削减检查会让做弊更简略。还有，一些对比艰难的符号疑问，比如说自然语言处理的标示，需求供给有招引力的市场报价招引满足多的众包工人去标示。

这些疑问现在还仅仅有一些浅显的经历办法，还有很长的路要走。对众包中鼓励机制的研讨作业能够不仅仅用在众包中，能够放在更大的规模以内思考，特别是在人机联系的智能体系中咱们也需求思考怎么合理鼓励每位参加人员。

CSDN：具有怎么特征的公司应当构建自个或许运用第三方众包渠道，应当考量哪些要素？可否简略举例说明？

周登勇：大数据驱动占有核心方位的公司都需求思考运用众包渠道。假如数据的私密性很主要，需求构建自个的众包渠道。不然，能够直接运用第三方渠道。渠道的易用性是一个主要思考要素。不管是众包工人仍是符号使命供给者都会喜爱简略运用的渠道。渠道的灵活性也很主要，特别是使命分发以及付钱机制上需求有满足的灵活性。还有，渠道需求供给一些根本的质量操控功能包括检查做弊。

CSDN：您将在本年的CCAI大会上宣布《众包中的计算揣度与鼓励机制》主题讲演，期望这次讲演能够为听众带来怎么的启示，以协助他们处理当前在人工智能范畴哪些共性疑问？

周登勇：经过做这个众包作业的陈述，我期望大家看到人机联系的智能体系的潜力。在能够预见的将来，机器智能彻底代替人的智能几乎没有任何也许。咱们应当是让人与机器各施所长相互弥补。数据符号是一个对比简略的人机体系，可是这儿面包括的技能现已适当有挑战性。

假如咱们要树立更杂乱的人机智能体系处理更大的疑问，会有更多的新的艰难需求克服。别的，咱们也经过陈述展示出怎么在一个看起来实践得不能再实践的疑问上开展出坚实高雅的数学理论并发生有用的实用技能。这是根底研讨的魅力，这需求满足的时刻，耐心与环境支撑。在咱们的作业之前，众包范畴的作业根本是处于十分初级的经历主导的期间。