人工智能革命:深度學習改變世界
過去四年間,人們肯定已經(jīng)注意到,我們身邊的很多日常科技正在發(fā)生著日新月異的巨大進步。
最明顯的是,智能手機語音識別功能的識別質(zhì)量與過去比有了巨大突破。我們只需對著手機說出妻子或者丈夫的名字,就能毫不費力地接通他們的電話,而不至于被錯接到鐵路公司或者怒氣沖沖的前女友或男友的電話上。事實上,我們目前正在越來越多地通過語音識別功能(例如亞馬遜的Alexa、蘋果的Siri、微軟的Cortana、以及谷歌推出的大量語音交流功能)與計算機進行溝通。中國搜索巨頭百度稱,在過去18個月內(nèi),使用語音識別交互功能的用戶數(shù)量增加了兩倍。
機器翻譯及其他語言處理工具的質(zhì)量與以前相比也有了巨大提升。每個月,谷歌、微軟、Facebook和百度都會推出新的語言處理功能。谷歌翻譯(Google Translate)目前能夠提供32種語言間的語音翻譯,以及103種語言間的文本翻譯(包括宿務語、伊博語和祖魯語等小語種)。谷歌Inbox能夠為收件箱里的電子郵件預設3條自動回復。
圖像識別技術也在突飛猛進。以上四家企業(yè)都已推出了無需輸入關鍵詞就能幫你搜索或自動整理照片庫的功能。例如,你可以迅速篩選出畫面里有狗的照片、下雪天拍攝的照片、或者具有抽象特性——例如有人擁抱——的照片。四家公司都在開發(fā)能夠在數(shù)秒內(nèi)為照片自動撰寫圖片說明的功能。
這些功能貌似簡單,實際上背后卻是極為復雜的技術。想想看,為了篩選出有狗的照片,軟件就必須識別從吉娃娃到德國牧羊犬等所有品種的狗,還必須考慮狗的畫面上下顛倒、狗的一部分模糊不清、狗位于畫面左側(cè)或右側(cè)、起霧或下雪、晴天或陰天等等種類繁多的情況。與此同時,還必須排除掉狼和貓。而這一切僅僅只用到圖片像素。那么,這一切都是怎么做到的?
?????????????????????????????????????? 神經(jīng)網(wǎng)絡如何識別出圖片中有狗?
1. 訓練
訓練階段中,讓神經(jīng)網(wǎng)絡處理數(shù)以千計的有標簽動物圖片,并學習如何將其分類。
2.輸入
將一張無標簽圖片輸入相關網(wǎng)絡。
a.第一層
神經(jīng)元對邊線等圖像元素做出反應。
b.更高層
神經(jīng)元對更多復雜結(jié)構做出反應。
c.最頂層
神經(jīng)元對非常復雜抽象的概念做出反應,即分辨出不同動物。
3.輸出
神經(jīng)網(wǎng)絡猜出最有可能是什么物體。
圖像識別的應用范圍已經(jīng)遠遠超出流行社交App的范疇。有醫(yī)療初創(chuàng)公司稱,他們很快就能使用計算機以超過放射科醫(yī)師的速度和準確度判讀X光、核磁共振和CT圖像、以創(chuàng)傷更小的方式診斷早期癌癥、或者研發(fā)治療重大疾病的藥物。高質(zhì)量的圖像識別技術是機器人、自主化無人機、以及自動駕駛汽車技術(這一技術意義重大,于6月成為本刊封面故事的主題)取得進一步發(fā)展的關鍵。目前,福特、特斯拉、優(yōu)步、百度和谷歌母公司Alphabet都在加緊測試其自動駕駛樣車在公路上的表現(xiàn)。
大多數(shù)人都不知道,上面的這些突破實際上都能歸攏到單獨一項突破上。它們背后的英雄都是人工智能(artificial intelligence,簡稱AI)家族樹上的一個分支——深度學習。有些科學家仍然喜歡以它原來的名稱——深度神經(jīng)網(wǎng)絡——來稱呼它。
神經(jīng)網(wǎng)絡最神奇的地方在于,它的能力屬于自動生成,從來沒人能編寫出一套計算機程序來實現(xiàn)上述描述過的任何一項任務,實際上也沒人能做到這一點。為了構建神經(jīng)網(wǎng)絡,需要計算機內(nèi)安裝一套學習性算法,并讓其處理輸入的海量數(shù)據(jù)(例如,數(shù)十萬張圖像,或者持續(xù)數(shù)年時間的巨量語音樣本)對它進行訓練,從而讓計算機自己學會如何找出所需物體、詞匯或句段。
簡言之,這種計算機能夠自我學習。“最終是要讓軟件自己寫軟件,”圖像處理行業(yè)巨頭英偉達公司CEO黃仁勛說。英偉達公司在大約5年前對深度學習投下了巨額賭注。
???????????????????????????????????????????英偉達公司CEO黃仁勛
神經(jīng)網(wǎng)絡并非一個新興概念。神經(jīng)網(wǎng)絡起源于1950年代,在1980和1990年代,神經(jīng)網(wǎng)絡算法取得了多項重大突破。與當時不同的是,今天的計算機科學家手中握有兩件超級武器:極為強大的計算能力和極為龐大的數(shù)據(jù)庫——今天的互聯(lián)網(wǎng)上每天流轉(zhuǎn)著天文數(shù)字的圖像、視頻、音頻和文本——從而為神經(jīng)網(wǎng)絡大顯神威鋪平了道路。“這堪稱深度學習領域的寒武紀生物大爆發(fā),”硅谷風投公司安德森-霍洛維茨公司(Andreessen Horowitz)合伙人弗蘭克·陳(Frank Chen)說,他提到的寒武紀生物大爆發(fā)是高等動物物種突然暴增的時期。
這一系列技術突破帶來了一波接一波的創(chuàng)業(yè)浪潮。市場研究機構CB Insights發(fā)布報告稱,上個季度,人工智能初創(chuàng)企業(yè)獲得的股權投資超過10億美元,創(chuàng)下歷史季度新高。CB Insights還稱,2016年第二季度,人工智能初創(chuàng)企業(yè)獲得121宗投資,而2011年同時期這一數(shù)字僅有21宗。從2011年到2016年,人工智能初創(chuàng)企業(yè)共獲得75億美元投資,其中60多億美元都是在2014年以后到位的。(9月末,人工智能行業(yè)五大巨頭——亞馬遜、Facebook、谷歌、IBM和微軟共同組建了非營利機構人工智能伙伴計劃(Partnership on AI,該機構的使命在于促進公眾對于人工智能的了解,并對與人工智能有關的道德問題和最佳實踐開展研究。)
谷歌發(fā)言人表示,2012年,谷歌的深度學習項目僅有兩個,而今天則已超過1,000個,覆蓋了包括搜索、安卓、Gmail、翻譯、地圖、YouTube和自動駕駛等所有產(chǎn)品領域。2011年,當時采用人工智能技術,沒有涉及深度學習的IBM沃森系統(tǒng)在Jeopardy!問答比賽中兩度奪桂。而據(jù)沃森部門的CTO羅伯·海(Rob High)表示,目前沃森所有30個服務組件都已由深度學習技術進行了強化。
五年前對深度學習一無所知的風險資本今天已經(jīng)不愿意投資未采用深度學習技術的初創(chuàng)企業(yè)。弗蘭克·陳說,“在我們當今所處的時代,對于設計復雜軟件應用的程序設計師,”人們會問,“你的應用有沒有自然語言處理版本?我能和你的應用直接對話嗎?因為我不想浪費時間點擊菜單。”
已經(jīng)有公司開始把深度學習融入其日常工作流程。微軟研究院聯(lián)席院長彼得·李表示:“我們的銷售團隊正在使用神經(jīng)網(wǎng)絡自動篩選主推的產(chǎn)品和重點開發(fā)的客戶資源。”
硬件世界也已經(jīng)感受到了這股力量。計算能力出現(xiàn)爆炸式激增的原因不僅在于摩爾定律,還在于2000年代末英偉達圖像處理器(GPU)- 最初為3D游戲開發(fā)的高性能芯片 - 的計算能力超過傳統(tǒng)中央處理器(CPU)20-50倍,從而為深度學習計算的開展鋪平了道路。今年8月,英偉達宣布,其數(shù)據(jù)中心業(yè)務的季度收入達到1.51億美元,比去年同期增長一倍以上。英偉達首席財務官對投資者表示:“目前,絕大部分增長來自深度學習。”在為時83分鐘的電話會議中,“深度學習”一詞出現(xiàn)了81次。
芯片業(yè)巨頭英特爾也在躍躍欲試。過去兩個月,英特爾收購了Nervana Systems (收購價格超過4億美元)和Movidius(收購價格未透露)兩家提供定制化深度學習計算技術的初創(chuàng)公司。
谷歌在5月表示,在過去的一年里,他們一直在秘密使用名為一款名為Tensor處理器(TPU)的定制芯片運行采用了深度學習技術的軟件應用。(Tensor是指類似矩陣,在深度學習計算中經(jīng)常相乘的數(shù)字序列。)
事實上,各大企業(yè)似乎到達了另一個拐點。百度首席科學家吳恩達表示:“有很多標普500公司CEO都后悔沒能早點時間啟動互聯(lián)網(wǎng)戰(zhàn)略。我敢說在5年后,會有很多標普500公司CEO后悔沒能早點時間啟動人工智能戰(zhàn)略。”
???????????????????????????????????????????? 百度首席科學家吳恩達
吳恩達認為,以深度學習為基礎的人工智能的重要性甚至超過了互聯(lián)網(wǎng)。“人工智能是新時代的電力,”他說。“100年前,電力改造了所有行業(yè)的面貌,人工智能也必將如此。”
深度學習實質(zhì)上是一個非常細分的概念。 “人工智能”是由大量技術 ——包括基于邏輯和規(guī)則的傳統(tǒng)技術——所構成的一個技術組合體,在人工智能的輔助下,計算機和機器人能夠以模擬人類思維的方式解決問題。作為人工智能的一個分支概念,機器學習是一個由高度復雜但重要的數(shù)學技術構建的完整工具包,在此工具包的協(xié)助下,計算機能夠通過學習經(jīng)驗而提高執(zhí)行任務的質(zhì)量。而深度學習則是機器學習下屬的一個更為細分的概念。
深度學習的作用可以簡單用 “輸入A,輸出B”來概括,吳恩達說。“你輸入音頻文件,輸出字幕。這就是語音識別。”假如用數(shù)據(jù)對軟件不斷進行訓練,就會得出無窮無盡的可能結(jié)果,他說。“你輸入電子郵件,會輸出:這是一封垃圾郵件嗎?”輸入貸款應用,會輸出客戶償還貸款的可能性。輸入對一個汽車車隊的使用規(guī)律,則會輸出把下一輛車派到哪里的建議。
從這個角度看,深度學習擁有改造所有行業(yè)的能力。“計算機視覺技術繼續(xù)發(fā)展下去就會引發(fā)極其重大的變革,”谷歌大腦項目主管杰夫·迪恩(Jeff Dean)說。他有些神情不安地加了一句:“現(xiàn)在計算機已經(jīng)有了眼睛。”
這是不是意味著“奇點”的到來已經(jīng)迫在眉睫了嗎? “奇點”是指科學家設想的,超級智能機器無需人類介入就能夠自我改造,從而把低能的人類踩在腳下,造成可怕后果的那個時刻。
其實大可不必杞人憂天。盡管神經(jīng)網(wǎng)絡擅長于圖像識別——在這件事上可能比人做得更好,但它卻沒有獨立思考的能力。
點燃這場革命的最早火花出現(xiàn)在2009年。那時,神經(jīng)網(wǎng)絡技術開創(chuàng)者、多倫多大學的杰弗里·辛頓(Geoffrey Hinton)受邀走訪了微軟首席研究員鄧力的實驗室。當時,在辛頓研究成果的啟發(fā)下,鄧力的研究團隊正在實驗利用神經(jīng)網(wǎng)絡進行語音識別。“實驗結(jié)果讓我們大吃一驚,” 微軟研究院聯(lián)席院長彼得·李說到。“第一個版本就把準確率提高了30%。”
彼得·李說,2011年,微軟將深度學習技術引入其商業(yè)化語音識別產(chǎn)品。谷歌于2012年8月啟動類似研究項目緊追其后。
真正的轉(zhuǎn)折點發(fā)生在2012年10月。在一場于意大利佛羅倫薩召開的研討會上,斯坦福大學人工智能實驗室主任、知名年度ImageNet計算機視覺大賽的創(chuàng)辦者李飛飛宣布,辛頓的兩位學生已經(jīng)發(fā)明了能夠以比最強競爭對手高一倍準確率識別物體的軟件。“這是一項偉大的成就,”辛頓回憶說,“讓很多曾經(jīng)對人工智能批評有加的人轉(zhuǎn)變了看法。”(上年度大賽中,一個人工智能參賽者的表現(xiàn)超過了人類。)
盡管解決圖像識別問題只是人工智能時代的一個開始,但卻引發(fā)了一股人才爭奪戰(zhàn)的熱潮。谷歌把辛頓和他參與大賽的兩個學生招至麾下;Facebook招募了曾在1980和1990年代寫出大賽獲勝算法的法籍深度學習元老燕樂存(Yann LeCun);百度則聘請了原斯坦福人工智能實驗室主任吳恩達,他曾在2010年領導專注于深度學習技術的谷歌大腦項目。
今天,人工智能人才爭奪戰(zhàn)仍在愈演愈烈。微軟的彼得·李說,“這一領域的人才爭奪到了瘋狂的地步。”他說,頂級人工智能專家的薪酬“和國家橄欖球聯(lián)盟球星不相上下。”
現(xiàn)年68歲的杰弗里·辛頓最早是在愛丁堡大學研究生院攻讀人工智能相關學位時知道神經(jīng)網(wǎng)絡這個概念的。由此,本科在劍橋大學學習實驗心理學的辛頓對神經(jīng)網(wǎng)絡產(chǎn)生了極大興趣。神經(jīng)網(wǎng)絡是一種模仿大腦神經(jīng)元工作原理的軟件結(jié)構。當時,幾乎沒人對神經(jīng)網(wǎng)絡感興趣。“所有人都認為這是不可能實現(xiàn)的,”他回憶說。但是辛頓卻沒有氣餒,而是迎難而上。
神經(jīng)網(wǎng)絡可以讓計算機和兒童一樣通過經(jīng)驗自我學習,而不是讓人工編寫的程序告訴它怎么做。“當時,大多數(shù)人工智能都是由邏輯驅(qū)動的,”他回憶說。“但是,邏輯是人類在很大年齡才具備的東西。兩三歲的兒童不按邏輯行事。神經(jīng)網(wǎng)絡就是智力能夠超越邏輯的一個范例。”(有趣的是,邏輯曾是辛頓一家長期以來一直遵循的法則。他的家族涌現(xiàn)過大量杰出科學家,他是19世紀數(shù)學家喬治·布爾[George Boole]的曾孫,布爾搜索、布爾邏輯和布爾代數(shù)即以他的名字命名。)
1950和1960年代,神經(jīng)網(wǎng)絡曾經(jīng)是計算機科學中的一個時髦詞匯。1958年,康奈爾大學研究心理學家弗蘭克·羅森布拉特(Frank Rosenblatt)參與美國海軍資助的一項研究計劃,在布法羅的一家實驗室建成了一個神經(jīng)網(wǎng)絡原型,他稱之為“Perceptron”。這個原型使用一臺體積占滿整個房間的穿孔卡片計算機。50次實驗后,它學會了識別左側(cè)穿孔和右側(cè)穿孔的卡片。《紐約時報》當時刊登了一篇報道:“海軍近日發(fā)現(xiàn),一臺原型電子計算機有可能學會走路、說話、觀察、寫作、自我復制、并意識到自身的存在。”
Perceptron的軟件只有一層類似于神經(jīng)元的節(jié)點,它的能力十分有限。但是,研究人員認為,如果具備多層或深層的神經(jīng)網(wǎng)絡,它就能做更多事情。
辛頓向我們解釋了神經(jīng)網(wǎng)絡的基本原理:假設一個神經(jīng)網(wǎng)絡正在解析照片圖像,某些照片上有鳥。“像素數(shù)據(jù)輸入后,第一層神經(jīng)元將會探測各個微小的邊緣: 一側(cè)較暗,另一個較亮。”第二層神經(jīng)元將分析來自第一層的數(shù)據(jù),并學會探測“兩個側(cè)邊以一定角度交接的邊角,”他說。例如,其中一個神經(jīng)元將會識別出鳥喙的角度數(shù)據(jù)。
下一層神經(jīng)元“將會發(fā)現(xiàn)更為復雜的特征,例如一個圓內(nèi)的大量邊線。”一個神經(jīng)元可能會識別出鳥頭。位于更下一層的神經(jīng)元將會在類似鳥頭的圓附近發(fā)現(xiàn)反復出現(xiàn)的類似鳥喙的銳角。“這正是鳥頭的明顯標志,”辛頓說。以下每一層的神經(jīng)元都會識別出更為復雜和抽象的結(jié)構,直至最后一層得出被識別物體是一只“鳥”的結(jié)論。
然而,為了達到學習目的,神經(jīng)網(wǎng)絡需要做的不只是把信息發(fā)送到每層神經(jīng)元而已。它必須判斷最后一層是否得出了正確結(jié)果。如果結(jié)果錯誤,就會逐層反向發(fā)送信號,讓每層的神經(jīng)元重新調(diào)整其觸發(fā)規(guī)律,從而改善識別質(zhì)量。這就是為何稱為“學習”的原因。
深度學習歷史上的重要時刻
1958年
康奈爾大學心理學家弗蘭克·羅森布拉特推出基于占滿整個房間的計算機的單層神經(jīng)網(wǎng)絡Perceptron。
1969年
人們對神經(jīng)網(wǎng)絡失去興趣,麻省理工學院人工智能權威馬文·明斯基與他人共同撰寫一本著作,對神經(jīng)網(wǎng)絡的現(xiàn)實性提出質(zhì)疑。
1986年
神經(jīng)網(wǎng)絡開創(chuàng)者杰弗里·辛頓及他人發(fā)現(xiàn)一種訓練多層神經(jīng)網(wǎng)絡糾正錯誤的方法,催生了很多類似的研究成果。
1989年
當時就職于貝爾實驗室的法國科學家燕樂存對神經(jīng)網(wǎng)絡開始進行一系列基礎性研究,研究成果成為圖像識別技術的基石。
1991年
德國科學家賽普·霍希雷特和約根·施密德霍伯研制出具有記憶功能的神經(jīng)網(wǎng)絡,這一技術在日后的自然語言處理中展現(xiàn)了優(yōu)勢。
1997
IBM深藍采用傳統(tǒng)人工智能技術擊敗了國際象棋世界冠軍卡斯帕羅夫。
1990年代中期
其他機器學習技術快速發(fā)展,神經(jīng)網(wǎng)絡再次陷入停滯。
2007年
李飛飛創(chuàng)建ImageNet,整理了1400萬張帶標簽圖片供機器學習研究用途。
2011年
微軟的語音識別產(chǎn)品采用了神經(jīng)網(wǎng)絡。
IBM沃森采用傳統(tǒng)人工智能技術在Jeopardy節(jié)目中打敗兩位冠軍。
2012年6月
谷歌大腦公布“貓實驗”:由1000萬張YouTube視頻截圖訓練的神經(jīng)網(wǎng)絡學會了如何從圖片中找到貓。
2012年8月
微軟的語音識別產(chǎn)品采用了神經(jīng)網(wǎng)絡。
2012年10月
辛頓的兩位學生設計的神經(jīng)網(wǎng)絡以幾大優(yōu)勢奪取了年度ImageNet冠軍。
2013年5月
谷歌使用神經(jīng)網(wǎng)絡技術改進圖片搜索質(zhì)量。
2014年
谷歌以6億美元收購DeepMind,一家將深度學習和強化學習結(jié)合起來的初創(chuàng)企業(yè)。
2015年12月
微軟團隊利用神經(jīng)網(wǎng)路在ImageNet挑戰(zhàn)賽中戰(zhàn)勝了人類選手。
2016年3月
DeepMind的AlphaGo利用深度學習,以4比1的比分擊敗了圍棋世界冠軍李世石九段。
1980年代初,辛頓正在忙著解決多層神經(jīng)元問題。當時做同樣工作的還有剛剛在巴黎上研究生院的法國科學家燕樂存。燕樂存無意中讀到了辛頓于1983年撰寫的一篇討論多層神經(jīng)網(wǎng)絡的論文。“當時使用的不是這些術語,” 燕樂存回憶說,“當時你要是用‘神經(jīng)元’或者‘神經(jīng)網(wǎng)絡’這些詞,論文就很難發(fā)表。所以他當時用了一些含混不清的術語以求通過編輯的篩選。但我當時就感覺這篇論文非常非常有趣。” 兩人在兩年后會面并一見如故。
1986年,辛頓和兩名同事合作撰寫了一篇影響深遠的論文,為解決糾錯問題提供了算法。“他的這篇論文實際上是第二波神經(jīng)網(wǎng)絡浪潮的奠基石,” 燕樂存說。果然,這篇論文引燃了業(yè)內(nèi)人士的巨大興趣。
??????????????????????????????????? Facebook人工智能實驗室主任燕樂存
攻讀完辛頓的博士后學位后,燕樂存于1988年加入美國電報電話公司的貝爾實驗室,在以后的10年里,他做了許多基礎性工作,其中某些成功至今仍在圖像處理任務中得到應用。1990年代,當時為貝爾實驗室分支機構的NCR公司推出了一種可以幫助銀行識別支票上手寫數(shù)字的實用化神經(jīng)網(wǎng)絡設備,并大獲成功,燕樂存表示。與此同時,兩位德國科學家——賽普·霍希雷特(Sepp Hochreiter,目前就職于林茨大學)和約根·施密德霍伯(Jürgen Schmidhuber,瑞士盧加諾人工智能實驗室副主任)獨立推出另一種算法。在20年之后的今天,這種算法成為自然語言處理應用的基礎。
盡管取得了上述進展,但在1990年代中期,神經(jīng)網(wǎng)絡再一次陷入低谷,取而代之的是更加適合當時計算能力的其他機器學習技術。這種情況一直持續(xù)了將近10年,直到后來計算能力增大了三四個數(shù)量級,且有科學家發(fā)現(xiàn)了GPU加速現(xiàn)象才出現(xiàn)改觀。
但是另一個要素仍然不足:數(shù)據(jù)。盡管互聯(lián)網(wǎng)此時已經(jīng)大行其道,但大多數(shù)數(shù)據(jù) ——尤其是圖像數(shù)據(jù) ——都沒有備注標簽,而數(shù)據(jù)標簽是訓練神經(jīng)網(wǎng)絡的必需。此時,斯坦福人工智能教授李飛飛出現(xiàn)了。“我們的目標是,大數(shù)據(jù)將改變機器學習的方式,”她在一次采訪中表示。“數(shù)據(jù)將推動學習。”
????????????????????????????????????斯坦福大學人工智能實驗室主任李飛飛
2007年,她創(chuàng)辦了ImageNet ——包含1400萬張有標簽圖片的免費數(shù)據(jù)庫。數(shù)據(jù)庫于2009年實現(xiàn)了實時發(fā)布。第二年,她創(chuàng)辦了年度圖像識別大賽以激勵并發(fā)布計算機視覺方面的突破。
2012年10月,辛頓的兩個學生摘得大賽桂冠,這是,所有人都很清楚深度學習的時代終于到來了。
那時公眾已經(jīng)通過別的渠道知道了深度學習這一流行詞匯。2012年6月,谷歌大腦公布了一個奇特研究項目(現(xiàn)在人們在非正式場合將其稱為“貓實驗”)的結(jié)果,結(jié)果十分有趣,并在社交媒體上引發(fā)轟動。
這一項目專注于研究深度學習領域一個重要而未獲解決的問題:“無監(jiān)督學習”。目前市場上幾乎所有深度學習產(chǎn)品都采用了“無監(jiān)督學習”技術,其神經(jīng)網(wǎng)絡系采用標簽化數(shù)據(jù)(例如由ImageNet整理的圖像)進行訓練。有了“無監(jiān)督學習”技術,給神經(jīng)網(wǎng)絡輸入無標簽數(shù)據(jù)后,就會自動搜索重復性圖案特征。有朝一日,研究者將會輕松駕馭無監(jiān)督學習。到那時,計算機將會像嬰兒感知世界一樣,使用今天無法使用的海量數(shù)據(jù)自我認識世界。
在“貓實驗”中,研究者讓安裝在1,000臺計算機上的神經(jīng)網(wǎng)絡讀取1,000萬張YouTube視頻的隨機截圖。實驗結(jié)束后,研究者分析了最上一層神經(jīng)元,然后驚奇地發(fā)現(xiàn)其中一個神經(jīng)元對貓的圖像產(chǎn)生了強烈反應。“還有神經(jīng)元對人臉有強烈反應,”當時在谷歌大腦領導這一研究項目的吳恩達說。
實驗結(jié)果也令人感到困惑。比如“我們沒發(fā)現(xiàn)有神經(jīng)元對汽車有強烈反應,”,以及“有很多神經(jīng)元無法識別或很難識別英語單詞。”
盡管這項實驗引發(fā)了一場轟動,但是目前人們對無監(jiān)督學習仍然了解不多——這是一個需要在未來攻克的堡壘。
很自然,目前大多數(shù)已實現(xiàn)商業(yè)化的深度學習應用都和谷歌、微軟、Facebook、百度和亞馬遜等互聯(lián)網(wǎng)巨頭的名字聯(lián)系在一起。這些巨頭擁有深度學習運算所需的巨量數(shù)據(jù)。許多企業(yè)正在開發(fā)更具現(xiàn)實性和幫助性的“聊天機器人” ——自動化客戶服務代表。
IBM和微軟等企業(yè)正在幫助商業(yè)客戶了解并適應其業(yè)務框架下采用了深度學習技術的應用 ——例如語音識別界面和翻譯服務,而亞馬遜Web Service等云服務則為軟件開發(fā)者提供基于GPU的低成本深度學習運算服務。Caffe、谷歌TensorFlow、亞馬遜DSSTNE等大量開源軟件讓創(chuàng)新不再困難,同時建立了開放式出版規(guī)則,許多研究者能夠無需同儕審核即可立即將研究結(jié)果發(fā)布于數(shù)據(jù)庫內(nèi)。
深度學習最令人興奮的應用場景是醫(yī)療領域。我們已經(jīng)知道,神經(jīng)網(wǎng)絡十分擅長圖像識別,安德森-霍洛維茨公司生化投資部門主管、斯坦福大學教授維杰·潘德(Vijay Pande)說,“在醫(yī)生每天做的工作中,有很大一部分都是圖像識別。放射科、皮膚科、眼科等等很多科室的醫(yī)生都無不如此。”
初創(chuàng)公司Enlitic采用深度學習技術分析放射影像和CT、核磁共振掃描圖像。公司CEO、前加州大學舊金山分校腫瘤放射學教授伊格爾·巴拉尼(Igor Barani)稱,Enlitic的算法在判斷肺部結(jié)節(jié)屬于良性還是惡性時的準確率超過了四名放射科醫(yī)生。(這一成果并未得到行業(yè)專家審閱,這一技術也未獲得FDA批準。)
默沙東公司(Merck)正在計劃和舊金山初創(chuàng)公司Atomwise合作,利用后者提供的深度學習技術加速藥品研發(fā)。神經(jīng)網(wǎng)絡能夠?qū)彶槌汕先f個藥物候選分子的三維圖像,并預測其是否能夠有效對抗病原體。這些公司利用神經(jīng)網(wǎng)絡強化人類已經(jīng)具備的能力;而有創(chuàng)業(yè)者則試圖嘗試人類之前從未企及的領域。現(xiàn)年27歲的前計算生物學博士生加伯里爾·奧特(Gabriel Otte)創(chuàng)辦了Freenome公司試圖通過化驗血樣篩查癌癥。具體方法是:檢驗細胞死亡從細胞內(nèi)部涌出的血液DNA。采用深度學習技術后,計算機將找出脫細胞DNA和某些癌癥之間的關聯(lián)。“我們已經(jīng)發(fā)現(xiàn)了之前從未被癌癥生物學家注意到的新特征,”奧特說。
安德森-霍洛維茨公司正在考慮投資Freenome。AH的潘德給了奧特五個盲樣 ——其中兩個采自正常人,3個采自癌癥患者。潘德說,奧特準確分析了所有五個盲樣,這讓他們最終敲定了投資Freenome的決定。
一位放射學醫(yī)生在他的職業(yè)生涯里會觀看數(shù)以千計的圖像,而一臺電腦處理的圖像數(shù)量則以百萬級。“毫不奇怪,計算機能更好地解決圖像問題,”潘德說,“原因很簡單,計算機處理圖像的速度遠遠超過人類。”
新技術帶來的潛在好處不只包括更高的準確性和更快的分析速度,還有服務的普及化。隨著技術標準化的形成,最終所有患者都將從中獲益。
當深度學習與其他人工智能技術以創(chuàng)新方式結(jié)合起來時,就會發(fā)揮最大的威力。例如,通過將普通深度學習技術與一種名為“強化學習”的特殊深度學習技術相結(jié)合,谷歌附屬公司DeepMind創(chuàng)造了令人稱奇的成就。將二者結(jié)合起來后,DeepMind創(chuàng)造了圍棋軟件AlphaGo,并在今年3月?lián)魯×藝骞谲娺x手,這一成就堪稱是人工智能發(fā)展史上的一座里程碑。與1997年幾百國際象棋冠軍加里·卡斯帕羅夫(Garry Kasparov)的IBM深藍軟件不同,AlphaGo沒有采用決策樹構架、用于分析棋盤位置的方程、或者if-then規(guī)則。“AlphaGo主要通過自己和自己下棋,以及觀看職業(yè)高手的比賽學習下棋,”DeepMind CEO 德米斯·哈薩比斯(Demis Hassabis)說。(AlphaGo在訓練過程中和自己下了100萬盤棋。)
一盤棋看起來是一個人工設定。但是哈薩比斯卻認為,同樣的技術可以用于解決真實世界的問題。7月,谷歌發(fā)布報告稱,通過采用與AlphaGo類似的技術,DeepMind能夠把谷歌各數(shù)據(jù)中心的用電效率提高15%。“每個數(shù)據(jù)中心可能有多達120個不同的變量,”哈薩比斯說。“你可以更換風扇、開窗、更換計算機系統(tǒng)。你從傳感器、溫度計等等取得數(shù)據(jù)。這就像是一盤圍棋。通過試錯,你就能學會下一步該把棋子落在哪里。”
這一點意義非常重大,”他接著說。“你一年能節(jié)約數(shù)億美元資金,這對于環(huán)保也很有意義。世界各地的數(shù)據(jù)中心消耗了大量能源。現(xiàn)在我們希望能在更高的層面上做出改進,甚至整個國家電網(wǎng)層面。”
聊天機器人很有趣,但它只是深度學習一個微不足道的應用場景而已。(財富中文網(wǎng))
作者:Roger Parloff
譯者:鄭立飛