提到眾包,想必大多數(shù)人都不陌生,“一個(gè)公司或機(jī)構(gòu)把過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法。眾包的任務(wù)通常由個(gè)人來承擔(dān),但如果涉及到需要多人協(xié)作完成的任務(wù),也有可能以依靠開源的個(gè)體生產(chǎn)的形式出現(xiàn)。”這一概念由美國《連線》雜志的記者杰夫·豪(Jeff Howe)在 2006 年 6 月提出,眾包模式的出現(xiàn)極大的提升了企業(yè)工作效率而且大幅降低成本。
人工智能時(shí)代即將來臨,作為實(shí)現(xiàn)人工智能的重要方法,機(jī)器學(xué)習(xí)開始受到廣泛關(guān)注。訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)需要大量的帶標(biāo)簽數(shù)據(jù),實(shí)現(xiàn)諸如語音識別及圖片分類等功能,比如將帶有花朵的圖片與“花朵”這個(gè)詞語捆綁起來。傳統(tǒng)基于專家的數(shù)據(jù)標(biāo)注緩慢而昂貴,基于此,機(jī)器學(xué)習(xí)開始與眾包模式相融合,后者成為了當(dāng)今獲取標(biāo)注數(shù)據(jù)的基本手段。
盡管聽起來非常簡單,但如何利用眾包打造機(jī)器學(xué)習(xí)的高品質(zhì)數(shù)據(jù)庫遠(yuǎn)不是一件簡單的事情。眾包背后涉及哪些技術(shù)?怎樣保證數(shù)據(jù)精準(zhǔn)?帶著這些問題,我們采訪了美國微軟雷德蒙研究院首席研究員周登勇博士,就眾包與機(jī)器學(xué)習(xí)融合中的一些問題進(jìn)行了請教。
周登勇(Dengyong Zhou),美國微軟雷德蒙研究院首席研究員。在加入微軟研究院之前,周登勇博士曾任職于德國馬普研究所智能系統(tǒng)分所(Max Planck Institute for Intelligent Systems),以及 NEC 美國研究院普林斯頓分部的機(jī)器學(xué)習(xí)部。他在中國科學(xué)院自動化所獲得人工智能專業(yè)博士學(xué)位,并同時(shí)獲得中國科學(xué)院院長獎(jiǎng)學(xué)金。周登勇博士在微軟工作期間曾獲研究院金星獎(jiǎng),以及擔(dān)任 NIPS 與其他若干國際會議的領(lǐng)域主席。
以下為采訪實(shí)錄:
CSDN:首先請與我們的讀者分享一下您與團(tuán)隊(duì)目前正在專注的研究領(lǐng)域,以及取得了怎樣的進(jìn)展?
周登勇:在微軟雷德蒙研究院, 我與我的團(tuán)隊(duì)一直專注在如何提高眾包數(shù)據(jù)的質(zhì)量這個(gè)基本問題上。具體來說,我們主要集中在兩個(gè)方面:一是如何從非專家標(biāo)注的數(shù)據(jù)中提煉出高質(zhì)量的標(biāo)注,二是如何激勵(lì)數(shù)據(jù)標(biāo)注員工提供高質(zhì)量的工作。針對這兩方面問題我們進(jìn)行了算法和理論基礎(chǔ)的研究,一些技術(shù)發(fā)明已經(jīng)應(yīng)用在產(chǎn)品中。
CSDN:我們知道,眾包是獲取大量的帶標(biāo)簽數(shù)據(jù),供機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行訓(xùn)練的一種方式,那么是什么促成了眾包模式的出現(xiàn),采用眾包模式相比傳統(tǒng)的數(shù)據(jù)收集方式具有什么優(yōu)勢?
周登勇:在建立基于機(jī)器學(xué)習(xí)的智能系統(tǒng)時(shí),只要有大量的訓(xùn)練數(shù)據(jù),一個(gè)樸素的機(jī)器學(xué)習(xí)模型往往可以完勝一個(gè)只是基于很少量數(shù)據(jù)訓(xùn)練出來的精心設(shè)計(jì)的高級模型。當(dāng)你需要短時(shí)間內(nèi)提高一個(gè)機(jī)器學(xué)習(xí)應(yīng)用的性能時(shí),大幅度增加訓(xùn)練數(shù)據(jù)應(yīng)該是優(yōu)先考慮的策略,而獲得大量標(biāo)注數(shù)據(jù)可以通過眾包達(dá)到。
一個(gè)商業(yè)化的互聯(lián)網(wǎng)眾包平臺可能有上百萬分布在世界各地的數(shù)據(jù)標(biāo)注員。他們能以低廉的價(jià)格在幾天甚至幾小時(shí)之內(nèi)就產(chǎn)生大量的標(biāo)注數(shù)據(jù)。相比之下,傳統(tǒng)的基于專家的數(shù)據(jù)標(biāo)注緩慢而又昂貴。
CSDN:通常認(rèn)為,眾包的工作流程是任務(wù)準(zhǔn)備、任務(wù)執(zhí)行、任務(wù)答案整合。在此基礎(chǔ)上,微軟雷德蒙研究院有哪些創(chuàng)新?效果如何?
周登勇:微軟雷德蒙研究院的多個(gè)小組在眾包不同方面的問題上展開了深入而又持久的研究。我們的研究工作往往與產(chǎn)品部門緊密配合。隨著數(shù)據(jù)的類型以及數(shù)據(jù)收集流程的不同,眾包的問題會很不一樣。我與我的團(tuán)隊(duì)提出了一個(gè)叫極小極大熵原理的簡潔的統(tǒng)計(jì)推斷模型用于眾包任務(wù)答案整合。該原理可以適用于很多類型的數(shù)據(jù),包括多類別的數(shù)據(jù),分級數(shù)據(jù),以及結(jié)構(gòu)化的數(shù)據(jù),也可以很容易融合先驗(yàn)知識。在任務(wù)執(zhí)行上,我們從博弈論出發(fā)提出了一種叫翻倍或者歸零的付錢機(jī)制,數(shù)據(jù)標(biāo)注員可以選擇不回答他沒有把握的問題。采用這種付錢方式,我們觀察到數(shù)據(jù)標(biāo)注的錯(cuò)誤率大幅度降低。而且,理論上我們還證明了這也是經(jīng)濟(jì)上最節(jié)省的付錢方式。
CSDN:在眾包中,任務(wù)花費(fèi)、質(zhì)量和時(shí)間是重要的三個(gè)指標(biāo),但往往無法兼得。該如何平衡這三者的關(guān)系?
周登勇:這三個(gè)問題的平衡與具體的眾包任務(wù)密切相關(guān)。一般來說,質(zhì)量是更重要的指標(biāo),如果沒有質(zhì)量,再低的花費(fèi)與再少的時(shí)間都是沒有意義的。我與我的團(tuán)隊(duì)考慮過任務(wù)花費(fèi)與質(zhì)量的平衡。我們的目標(biāo)是在一個(gè)給定的預(yù)算下獲得最高質(zhì)量的數(shù)據(jù)。大致說來,我們考慮一種在線的眾包模式。在每一步,我們需要做出兩個(gè)決定:一是哪個(gè)數(shù)據(jù)需要標(biāo)注,二是讓誰來標(biāo)注。我們?yōu)檫@個(gè)問題設(shè)計(jì)了一個(gè)基于馬爾科夫決策理論的數(shù)學(xué)模型,并提出了一個(gè)稱之為知識梯度的有效算法。
CSDN:通過眾包會獲取大量的數(shù)據(jù),這些數(shù)據(jù)在應(yīng)用于機(jī)器學(xué)習(xí)系統(tǒng)之前,可以通過哪些技術(shù)和操作,改善數(shù)據(jù)的質(zhì)量?存在哪些誤區(qū)?
周登勇:這些數(shù)據(jù)在應(yīng)用于機(jī)器學(xué)習(xí)系統(tǒng)之前,我們要做數(shù)據(jù)整合,前面提到的極小極大熵原理的統(tǒng)計(jì)推斷模型就是服務(wù)于此。有些人或許喜歡考慮將數(shù)據(jù)整合與機(jī)器學(xué)習(xí)的訓(xùn)練算法捆綁到一個(gè)單一的模型中,技術(shù)上很容易做到,但這個(gè)或許不是好的主意。我傾向把數(shù)據(jù)整合與模型訓(xùn)練分開,這有兩方面原因,迄今為止,我還沒有觀察到這種捆綁模型有哪些有意義的性能提升。更重要的是,在實(shí)際應(yīng)用中,當(dāng)機(jī)器學(xué)習(xí)系統(tǒng)出了問題,我們通常需要精確知道到底是哪個(gè)環(huán)節(jié)出了問題。捆綁模型模糊了整合與訓(xùn)練這兩個(gè)環(huán)節(jié)的界限。
CSDN:眾包中的統(tǒng)計(jì)推斷背后涉及哪些關(guān)鍵技術(shù)?哪些對質(zhì)量的影響最大?
周登勇:眾包中的統(tǒng)計(jì)推斷技術(shù)已經(jīng)比較成熟,特別是針對多類別的數(shù)據(jù)。我們的極小極大熵原理的統(tǒng)計(jì)推斷模型能用到很多不同的數(shù)據(jù)類型上,對不同的數(shù)據(jù)類型當(dāng)然需要做一些適當(dāng)?shù)恼{(diào)整。但是,眾包遠(yuǎn)不只是一個(gè)靜態(tài)的數(shù)據(jù)處理問題,為改善眾包數(shù)據(jù)質(zhì)量,我們還需要考慮其他的環(huán)節(jié)。比如說,在眾包工人執(zhí)行標(biāo)注任務(wù)之前,執(zhí)行資格考試,只有達(dá)到了一定的正確率,才有資格標(biāo)注數(shù)據(jù)。否則,需要一定的職能訓(xùn)練直到達(dá)標(biāo)。這樣的一個(gè)環(huán)節(jié)通常會帶來顯著的數(shù)據(jù)質(zhì)量改善。另外,我前面提到,付錢方式也會對數(shù)據(jù)質(zhì)量產(chǎn)生很大的影響,有效的付錢方式會讓眾包工人愿意付出足夠的努力把工作完成好。
CSDN:目前眾包平臺的激勵(lì)機(jī)制有哪些缺陷,AI 新技術(shù)能帶來哪些不同?未來的困難會在何處(例如是否有可能作弊)?請舉例說明。這些研究,除了“眾包”還有可能應(yīng)用在哪些領(lǐng)域?
周登勇:目前眾包平臺的激勵(lì)機(jī)制一般都是一些經(jīng)驗(yàn)方法。比如說,隨機(jī)抽查一些結(jié)果,如果回答質(zhì)量過得去的話,就付全款;否則,就不給錢。我們是把激勵(lì)機(jī)制奠定在堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)之上,并發(fā)展了實(shí)際上簡單而又有效的付費(fèi)機(jī)制。目前,這方面還有諸多問題需要更仔細(xì)的考慮。比如說,抽查結(jié)果的工作量可能太大,我們需要設(shè)法減少對抽查的依賴,而一旦減少抽查會讓作弊更容易。還有,一些比較困難的標(biāo)注問題,比如說自然語言處理的標(biāo)注,需要提供有吸引力的市場價(jià)格吸引足夠多的眾包工人去標(biāo)注。這些問題目前還只是有一些粗淺的經(jīng)驗(yàn)方法,還有很長的路要走。對眾包中激勵(lì)機(jī)制的研究工作可以不只是用在眾包中,可以放在更大的范圍之內(nèi)考慮,特別是在人機(jī)結(jié)合的智能系統(tǒng)中我們也需要考慮如何合理激勵(lì)每位參與人員。
CSDN:擁有怎樣特征的公司應(yīng)該構(gòu)建自己或者使用第三方眾包平臺,應(yīng)該考量哪些要素? 可否簡單舉例說明?
周登勇:大數(shù)據(jù)驅(qū)動占據(jù)核心位置的公司都需要考慮使用眾包平臺。如果數(shù)據(jù)的私密性很重要,需要構(gòu)建自己的眾包平臺。否則,可以直接使用第三方平臺。平臺的易用性是一個(gè)重要考慮因素。 不管是眾包工人還是標(biāo)注任務(wù)提供者都會喜歡容易使用的平臺。平臺的靈活性也很重要,特別是任務(wù)分發(fā)以及付錢機(jī)制上需要有足夠的靈活性。還有,平臺需要提供一些基本的質(zhì)量控制功能包括檢測作弊。
CSDN:您將在今年的 CCAI 大會上發(fā)表《眾包中的統(tǒng)計(jì)推斷與激勵(lì)機(jī)制》主題演講,希望此次演講能夠?yàn)槁牨妿碓鯓拥膯l(fā),以幫助他們解決當(dāng)前在人工智能領(lǐng)域哪些共性問題?
周登勇:通過做這個(gè)眾包工作的報(bào)告,我希望大家看到人機(jī)結(jié)合的智能系統(tǒng)的潛力。在可以預(yù)見的將來,機(jī)器智能完全代替人的智能幾乎沒有任何可能。我們應(yīng)該是讓人與機(jī)器各施所長互相補(bǔ)充。數(shù)據(jù)標(biāo)注是一個(gè)比較簡單的人機(jī)系統(tǒng),但是這里面包含的技術(shù)已經(jīng)相當(dāng)有挑戰(zhàn)性。如果我們要建立更復(fù)雜的人機(jī)智能系統(tǒng)解決更大的問題,會有更多的新的困難需要克服。另外, 我們也通過報(bào)告展示出如何在一個(gè)看起來實(shí)際得不能再實(shí)際的問題上發(fā)展出堅(jiān)實(shí)優(yōu)雅的數(shù)學(xué)理論并產(chǎn)生有效的實(shí)用技術(shù)。這是基礎(chǔ)研究的魅力,這需要足夠的時(shí)間,耐心與環(huán)境支持。在我們的工作之前,眾包領(lǐng)域的工作基本是處于非常初級的經(jīng)驗(yàn)主導(dǎo)的階段。
CSDN:在此次 CCAI 大會上,您對哪些內(nèi)容比較感興趣?
周登勇:我非常高興參加這次中國人工智能大會。人工智能正在國內(nèi)呈現(xiàn)爆炸性的發(fā)展,從各種互聯(lián)網(wǎng)公司到學(xué)術(shù)研究。我對這次人工智能大會的所有的內(nèi)容都很有興趣。特別是,我許多朋友都來參加這次大會,他們在人工智能領(lǐng)域做了杰出的工作,我非常高興我們能聚在杭州這個(gè)美麗的城市一起談?wù)撊斯ぶ悄茴I(lǐng)域的最新進(jìn)展。
關(guān)于 CCAI
中國人工智能大會(CCAI),由中國人工智能學(xué)會發(fā)起,目前已成功舉辦兩屆,是中國國內(nèi)級別最高、規(guī)模最大的人工智能大會。秉承前兩屆大會宗旨,由中國人工智能學(xué)會、阿里巴巴集團(tuán) & 螞蟻金服主辦,CSDN、中國科學(xué)院自動化研究所承辦的第三屆中國人工智能大會(CCAI 2017)將于 7 月 22-23 日在杭州召開。
作為中國國內(nèi)高規(guī)格、規(guī)??涨暗娜斯ぶ悄艽髸敬未髸芍袊茖W(xué)院院士、中國人工智能學(xué)會副理事長譚鐵牛,阿里巴巴技術(shù)委員會主席王堅(jiān),香港科技大學(xué)計(jì)算機(jī)系主任、AAAI Fellow 楊強(qiáng),螞蟻金服副總裁、首席數(shù)據(jù)科學(xué)家漆遠(yuǎn),南京大學(xué)教授、AAAI Fellow 周志華共同甄選出在人工智能領(lǐng)域本年度海內(nèi)外最值得關(guān)注的學(xué)術(shù)與研發(fā)進(jìn)展,匯聚了超過 40 位頂級人工智能專家,帶來 9 場權(quán)威主題報(bào)告,以及“語言智能與應(yīng)用論壇”、“智能金融論壇”、“人工智能科學(xué)與藝術(shù)論壇”、“人工智能青年論壇”4 大專題論壇,屆時(shí)將有超過 2000 位人工智能專業(yè)人士參與。
目前,大會 8 折優(yōu)惠門票正在火熱發(fā)售中,掃描下方圖片中的二維碼或直接點(diǎn)擊鏈接火速搶票。