谷歌上馬神經網絡 百名PhD人工處理數據
2016-12-01 09:47:00 來源:環球網
搜索“世界上最快的鳥是什么?”谷歌會告訴你:“游隼。根據 YouTube,游隼被記錄下最高 389 km/h 的時速。”這的確是正確答案,但它并非來自于谷歌的數據庫。當你輸入這個問題的時候,谷歌搜索引擎找出了一個描述世界上五種最快鳥兒的 Youtube 視頻。然后它只把最快的“一種”鳥兒的信息提取出來,不提及另外四種。
這是谷歌搜索最新的技術進展。為了回答這些問題,谷歌需要借助深度神經網絡。作為 AI 技術之一,它不僅正在重塑谷歌搜索引擎,還在革新谷歌全套人工智能服務。其它互聯網巨頭當然也受到波及,例如 Facebook 和微軟。
深度神經網絡是一種模式識別系統。它能通過分析海量數據,學習如何處理特定任務。這個例子中,它學會了怎么在網絡上的長篇文字中找出相關的一句或一段話,然后提取其中的要點呈現給你。
移動端谷歌搜索剛剛上線這種“句子壓縮算法”(sentence compression algorithms)。這個對人類來說很簡單,但對傳統的機器來說很難的任務,終于能被 AI 系統完成。這說明,深度學習正在促進自然語言理解這門藝術(理解并回應人類語言)的發展。
谷歌研發產品經理 David Orr 說:“對于“句子壓縮”,你不得不使用神經網絡算法,因為這是目前我們發現的唯一方法。”
為了訓練神經網絡算法,谷歌在全世界聘用了約百名語言學博士處理數據,對它們人工篩選。事實上,谷歌的系統是從人類那里學習,怎么在大段文字中提取有用信息。而這過程需要一遍遍地重復——這是深度學習一個很大的限制。雇傭大批語言學家不停地篩選數據既麻煩又極其昂貴,但短期內谷歌沒有別的辦法。
谷歌也使用過期的新聞來訓練 AI 問答系統。這使 AI 逐漸理解,新聞標題是如何對文章主體進行歸納的。但這并不意味著谷歌不需要成批語言學家了。他們不僅示范句子壓縮,還要對語句的不同部分做標記,以幫助神經網絡理解人類語言是如何工作的。David Orr 把谷歌語言學家團隊處理的數據稱為“黃金數據”,過期新聞則是“白銀數據”。“白銀數據”作用不小,因為它的體量很大。但價值最大的還是“黃金數據”,它們是 AI 訓練的核心。語言學家團隊的負責人 Linne Ha 透露,在可見的將來,語言學家隊伍仍會繼續擴大。
這類需要人工輔助的 AI 學習便是“監督學習”(supervised learning),目前,神經網絡都是這么運作的。有時候公司會把這個業務進行眾包,有時候它會自發地進行。比方說,全世界的網民已經為數百萬的貓咪照片添加了“貓咪”標簽,這會讓神經網絡學習識別貓咪變得很簡單——訓練數據已經處理好了。但很多情況下,研究人員們別無選擇,只能自己一次次為數據添加標簽。
深度學習初創公司Skymind 的創始人 Chris Nicholson 認為,長遠來看,人工標注數據是不可行的。他說:“將來一定不會是這樣。這是極度枯燥的活兒。我想不出比這更無聊的 PhD 工作了。”
監督學習的缺陷遠不止如此:除非谷歌聘請所有語言的語言學家,否則這個系統無法在其他語言中運轉。現在,語言學家團隊的工作橫跨了 20 至 30 種語言。谷歌必須在將來的某一天,采取更自動化的 AI 訓練方式,即“無監督學習”(unsupervised learning)。
到了那時,機器將能夠從未經人工標注的數據中學習。互聯網上海量的數字信息可以被直接用于神經網絡學習。 Google、Facebook 和 OpenAI這樣的巨頭們已經開始這個領域的研究,但它的實際應用仍然非常遙遠。現在,AI 學習仍然需要幕后的大批語言學家隊伍。
編輯:賈斯曼
關鍵詞:谷歌;神經網絡;人工處理數據
谷歌在2013年首發Earth Timelapse工具,涵蓋了從1984年到2012年期間的海量氣候影像。谷歌必須從超過500萬張衛星視圖中篩選出三千萬億個像素來顯示整個地球的動態變化圖,不過這還不算太慘,因為它還要制作演繹各地大城市演變歷程的迷人影像。
2016-11-30 16:37:00
谷歌在瑞士蘇黎世的分公司為其職員打造的“豌豆莢屋”,使員工能在工作之余,接近自然,放松心情。(實習編譯:潘怡佳審稿:朱盈庫) 谷歌蘇黎世分公司還將戶外的滑雪纜車搬進了辦公室,讓員工不用在局促的格子間里工作。
2016-11-30 14:56:00
目標:為了應用深度學習來創建一種能通過視網膜眼底照片自動檢測糖尿病性視網膜病和糖尿病性黃斑水腫的算法。結論與相關:在這項成人的糖尿病性視網膜眼底照片的評估中,基于深機器學習的算法對可疑糖尿病性視網膜病變檢測時具有高靈敏度和特異性。
2016-11-30 14:01:00
參與討論
我想說