• <wbr id="a4kgy"></wbr>

        谷歌TPU以時間換吞吐量;AlphaGo探索強化學習新起點

        2017-11-24 09:30:18 來源:n

        ​​​谷歌TPU:以時間換吞吐量,軟硬兼施,沖入云端

        人工智能立夏將至的大趨勢下,芯片市場蛋糕越做越大,足以讓擁有不同功能和定位的芯片和平共存,百花齊放。后摩爾定律時代,我們強調AI芯片市場不是零和博弈。我們認為在3-5年內深度學習GPU的需求是當仁不讓的市場主流。行業由上至下傳導形成明顯的價值擴張,英偉達和AMD最為受益。在深度學習上游訓練端(主要用在云計算數據中心里),GPU是當仁不讓的第一選擇,但以ASIC為底芯片的包括谷歌的TPU、寒武紀的MLU等,也如雨后春筍。而下游推理端更接近終端應用,需求更加細分,我們認為除了GPU為主流芯片之外,包括CPU/FPGA/ASIC等也會在這個領域發揮各自的優勢特點。

        但我們需要強調,包括TPU在內的ASIC仍然面臨通用性較弱,以及開發成本高企等局限。TPU雖然理論上支持所有深度學習開發框架,但目前只針對TensorFlow進行了深度優化。另外ASIC芯片開發周期長和成本非常高,在開發調試過程中復雜的設計花費有時甚至會超過億美元,因此需要谷歌這樣的計算需求部署量才能將成本分攤到大量使用中。同時ASIC開發周期長,也可能會出現硬件開發無法匹配軟件更新換代而失效的情況。

        TPU是針對自身產品的人工智能負載打造的張量處理單元TPU。第一代主要應用于在下游推理端TPU。本質上沿用了脈動陣列機架構(systolic array computers),讓推理階段以時間換吞吐量。第二代TPU除了在推理端應用,還可以進行深度學習上游訓練環節。將TPU部署在云計算中以云服務形式進行銷售共享,在為數據中心加速市場帶來全新的需求體驗的同時,可進一步激活中小企業的云計算需求市場,另辟AWS、Azure之外蹊徑。

        AlphaGo的“終點”,強化學習的起點

        我們在今年1月的報告《2017 MIT人工智能5大趨勢預測:寒梅傲香春寒料峭,人工智能立夏將至》中提到第一大趨勢預測:正向強化學習(Positive Reinforcement)正成為深度學習(Deep Learning)后研究應用的最新熱點。

        強化學習(Reinforcement Learning)的目的是嘗試解決對人類標注樣本的依賴,并打破特定板塊和領域里的學習局限,向無監督、通用型人工智能拓展。強化學習的靈感來自于動物的學習方式。動物能夠學會某些特定行為所導致的正面或負面結果(a positive or negative outcome)。按照這種方法,計算機可以通過試錯法(trial and error)來與訓練環境互動,包括sensory perception和rewards,來決定這一結果的行為相關聯。這使得計算機可以不通過具體指示或范例(explicit examples)去學習。

        當前人工智能主流應用還是基于深度學習神經網絡,從針對特定任務的標記數據中學習,訓練過程需要消耗大量人類標注樣本。而在很多現實場景下,特定垂直領域的數據并不足以支持系統建構,我們認為強化學習有機會成為下一個機器學習商業成功的驅動力。

        谷歌重申買入:人工智能巨頭新征途:云+YouTube+硬件

        我們早在年初已經開始強調,AI巨頭谷歌的新征途——云+YouTube+硬件。YouTube和云計算的巨大增長動力將是谷歌持續轉型的助推器: YouTube百般武藝沖勁十足,Q3廣告業務凈營收增速回升至21%,移動端積極轉型執行力堅決。長期眼光看AI和Other Bets創新業務厚積薄發:谷歌是人工智能的龍頭標的,我們長期看好語音識別和無人駕駛的發力。公司20日收盤價1035美元,根據彭博一致預期2018年EPS 40.15美元,給予30x PE,目標價1200美元,重申“買入”評級。

        風險提示:芯片開發周期過長,市場需求不達預期等。


        1. 谷歌TPU:以時間換吞吐量,軟硬兼施,沖入云端

        AI芯片市場蛋糕越做越大,足以讓擁有不同功能和定位的芯片和平共存,百家爭鳴非零和博弈?!巴ㄓ眯院凸牡钠胶狻薄?a href="http://www.pm-marketingonline.com/ai" target="_blank" class="keylink">深度學習上游訓練端(主要用在云計算數據中心里),GPU是當仁不讓的第一選擇,ASIC包括谷歌TPU、寒武紀MLU等也如雨后春筍。而下游推理端更接近終端應用,需求更加細分,GPU主流芯片之外,包括CPU/FPGA/ASIC也會在這個領域發揮各自的優勢特點。

        但我們需要強調,包括TPU在內的ASIC仍然面臨通用性較弱,以及開發成本高企等局限。TPU雖然理論上支持所有深度學習開發框架,但目前只針對TensorFlow進行了深度優化。另外ASIC芯片開發周期長和成本非常高,在開發調試過程中復雜的設計花費有時甚至會超過億美元,因此需要谷歌這樣的計算需求部署量才能將成本分攤到大量使用中。同時ASIC開發周期長,也可能會出現硬件開發無法匹配軟件更新換代而失效的情況。

        ASIC(Application Specific Integrated Circuit,專用集成電路):細分市場需求確定后,以TPU為代表的ASIC定制化芯片(或者說針對特定算法深度優化和加速的DSA,Domain-Specific-Architecture),在確定性執行模型(deterministic execution model)的應用需求中發揮作用。我們認為深度學習ASIC包括英特爾的Nervana Engine、WaveComputing的數據流處理單元、英偉達的DLA、寒武紀的NPU等逐步面市,將依靠特定優化和效能優勢,未來在深度學習領域分一杯羹。

        神經網絡的兩個主要階段是訓練(Training和Learning)和推理(Inference和Prediction)。當前幾乎所有的訓練階段都是基于浮點運算的,需要進行大規模并行張量或多維向量計算,GPU依靠優秀的通用型和并行計算優勢成為廣為使用的芯片。

        在推理階段,由于更接近終端應用需求,更關注響應時間而不是吞吐率。由于CPUGPU結構設計更注重平均吞吐量(throughout)的time-varying優化方式,而非確保延遲性能。谷歌設計了一款為人工智能運算定制的硬件設備,張量處理單元(Tensor Processing Unit, TPU)芯片,并在2016年5月的I/O大會上正式展示。

        第一代TPU的確定性執行模型(deterministic execution model)針對特定推理應用工作,更好的匹配了谷歌神經網絡在推理應用99%的響應時間需求。第一代TPU是在一顆ASIC芯片上建立的專門為機器學習和TensorFlow量身打造的集成芯片。該芯片從2015年開始就已經在谷歌云平臺數據中心使用,谷歌表示TPU能讓機器學習每瓦特性能提高一個數量級,相當于摩爾定律中芯片效能往前推進了七年或者三代。

        谷歌表示,這款芯片目前不會開放給其他公司使用,而是專門為TensorFlow所準備。TPU的主要特點是:

        1、從硬件層面適配TensorFlow深度學習系統,是一款定制的ASIC芯片,谷歌將TPU插放入其數據中心機柜的硬盤驅動器插槽里來使用;

        2、數據的本地化,減少了從存儲器中讀取指令與數據耗費的大量時間;

        3、芯片針對機器學習專門優化,尤其對低運算精度的容忍度較高,這就使得每次運算所動用的晶體管數量更少,在同時間內通過芯片完成的運算操作也會更多。研究人員就可以使用更為強大的機器學習模型來完成快速計算。

        自2016年以來,TPU運用在人工智能搜索算法RankBrain、搜索結果相關性的提高、街景Street View地圖導航準確度提高等方面。在I/O大會上,皮查伊順帶提到了16年3月份行的舉世矚目人機大戰里,在最終以4:1擊敗圍棋世界冠軍李世石的AlphaGo身上,谷歌也使用了TPU芯片。

        谷歌把:

        1、2015年擊敗初代擊敗樊麾的版本命名為AlphaGo Fan,這個版本的AlphaGo運行于谷歌云,分布式機器使用了1202個CPU和176個GPU。

        2、去年擊敗李世石的版本AlphaGo Lee則同樣運行于云端,但處理芯片已經簡化為48個第一代TPU。

        3、今年擊敗柯潔的Master以及最新版本Zero則通過單機運行,只在一個物理服務器上部署了4個第一代TPU。(AlphaGo的背后算法詳解,可參見我們此前的深度報告《谷歌人工智能:從HAL的太空漫游到AlphaGo,AI的春天來了》)

        1.1. 谷歌以TPU為破局者,軟硬兼施,加速云端AI帝國

        AI芯片領域數據中心市場空間巨大,我們看到市場主流GPU之外,谷歌破局者之態依靠TPU2.0的浮點運算升級自下而上進入云計算服務。谷歌當下不直接銷售硬件,但將TPU部署在云計算中以云服務形式進行銷售共享,在為數據中心加速市場帶來全新的需求體驗的同時,可進一步激活中小企業的云計算需求市場,另辟AWS、Azure之外蹊徑。我們長期看好谷歌基于公司AIFirst戰略規劃打造AI開發軟硬件一體化開發帝國。

        不過TPU雖然理論上支持所有深度學習開發框架,但目前只針對TensorFlow進行了深度優化。而英偉達GPU支持包括TensorFlow、Caffe等在內所有主流AI框架。因此谷歌還在云計算平臺上提供基于英偉達TeslaV100 GPU加速的云服務。在開發生態方面,TensorFlow團隊公布了TensorFlow Research Cloud云開發平臺,向研究人員提供一個具有1000個云TPU的服務器集群,用來服務各種計算密集的研究項目。

        1.2. 第一代TPU:脈動陣列“獲新生”,以時間換吞吐量

        第一代TPU面向的推理階段,由于更接近終端應用需求,更關注響應時間而不是吞吐率。相對于CPUGPU結構設計更注重平均吞吐量(throughout)的time-varying優化方式,而非確保延遲性能。第一代TPU的確定性執行模型(deterministic execution model)針對特定推理應用工作,更好的匹配了谷歌神經網絡在推理應用上99%的響應時間需求。由于TPU沒有任何存儲程序,僅執行從主機發送的指令,這些功能的精簡讓TPU有效減小芯片面積并降低功耗。

        谷歌在今年4月的體系結構頂會ISCA 2017上面,發布了一篇介紹TPU相關技術以及與其它硬件比較的論文,并被評為最佳論文。我們通過論文得以看到第一代TPU的設計思路以及性能比較。

        第一代TPU從2015年開始就被使用在谷歌云計算數據中心的機器學習應用中,面向的是推理階段。首先看性能比較(鑒于2016年以前大部分機器學習公司主要使用CPU進行推理,谷歌在論文中TPU的比較對象產品為英特爾服務器級HaswellCPU和英偉達TeslaK80 GPU),谷歌表示:

        1、 針對自身產品的人工智能負載,推理階段,TPU處理速度比CPUGPU快15-30倍;

        2、 TPU的功耗效率(TOPS/Watt,萬億次運算/瓦特)也較傳統芯片提升了30-80倍;

        3、 基于TPU和TensorFlow框架的神經網絡應用代碼僅需100-1500行。

        基于在成本-能耗-性能(cost-energy-performance)上的提升目標,TPU的設計核心是一個65,536(256x256)個8位MAC組成的矩陣乘法單元(MAC matrix multiply unit),可提供峰值達到92 TOPS的運算性能和一個高達28 MiB的軟件管理片上內存。TPU的主要設計者NormanJouppi表示,谷歌硬件工程團隊最開始考慮過FPGA的方案,實現廉價、高效和高性能的推理解決方案。但是FPGA的可編程性帶來的是與ASIC相比在性能和每瓦特性能的巨大差異。

        從上圖我們看到,TPU的核心計算部分是右上方的黃色矩陣乘法單元(Matrix Multiply unit),輸入部分是藍色的加權FIFO和一致緩沖區(Unified Buffer,輸出部分是藍色的累加器(Accumulators)。在芯片布局圖中我們看到,藍色的緩存的面積占37%,黃色的計算部分占30%,紅色的控制區域只占2%,一般CPU、GPU的控制部分會更大而且難以設計。

        我們深挖谷歌TPU論文,在參考文獻中提及了谷歌申請的專利,核心的專利Neural Network Processor作為總構架在2015年就已提交,并在2016年公開(后續專利在2017年4月公開,專利號:US2017/0103313,即下圖12所示),同時還包括了幾個后續專利:如何在該構架上進行卷積運算、矢量處理單元的實現、權重的處理、數據旋轉方法以及Batch處理等。

        專利摘要概述:一種可以在多網絡層神經網絡中執行神經網絡計算的電路,包括一個矩陣運算單元(matrix computation unit):對多個神經網絡層中的每一層,可以被配置為接收多個weights輸入和多個activation輸入,并對應生成多個累積值;以及矢量運算單元(vector computation unit),其通信耦合到所述矩陣運算單元。

        TPU的設計思路比GPU更接近一個浮點運算單元,是一個直接連接到服務器主板的簡單矩陣乘法協處理器。TPU上的DRAM是作為一個獨立的并行單元,TPU類似CPU、GPU一樣是可編程的,并不針對某一特定神經網絡設計的,而能在包括CNN、LSTM和大規模全連接網絡(large, fully connected models)上都執行CISC指令。只是在編程性上TPU使用矩陣作為primitive對象,而不是向量或標量。TPU通過兩個PCI-E3.0 x8邊緣連接器連接協處理器,總共有16GB/s的雙向帶寬。

        我們看到,TPU的matrix單元就是一個典型的脈動陣列架構(systolic array computers)。weight由上向下流動,activation數據從左向右流動??刂茊卧獙嶋H上就是把指令翻譯成控制信號,控制weight和activation如何傳入脈動陣列以及如何在脈動陣列中進行處理和流動。由于指令比較簡單,相應的控制也是比較簡單的。

        從性能上,脈動陣列架構在大多數CNN卷積操作上效率很好,但在部分其他類型的神經網絡操作上,效率不是太高。另外脈動陣列架構在上世紀80年代就已經被提出,Simpleand regular design是脈動陣列的一個重要原則,通過簡單而規則的硬件架構,提高芯片的設計和實現的能力,從而盡量發揮軟件的能力,并平衡運算和I/O的速度。脈動陣列解決了傳統計算系統:數據存取速度往往大大低于數據處理速度的問題,通過讓一系列在網格中規律布置的處理單元(ProcessingElements, PE),進行多次重用輸入數據來在消耗較小的帶寬的情況下實現較高的運算吞吐率。但是脈動陣列需要帶寬的成比例的增加來維持所需的加速倍數,所以可擴展性問題仍待解決。

        對比GPU的硬件架構,英偉達的游戲顯卡GeForce GTX 1070 Ti使用的是Pascal架構16納米制程,主頻1,607MHz,擁有2,432個CUDA核心和152個紋理單元,2MB L2 cache,功耗180 W,8GB GDDR5內存。英偉達GPU的核心計算單元CUDA核心專為同時處理多重任務而設計,數千個CUDA核心組成了GPU的大規模并行計算架構。而在計算過程中,主要計算流程為:

        1)從主機內存將需要處理的數據read到GPU的內存;

        2)CPU發送數據處理執行給GPU;

        3)GPU執行并行數據處理;

        4)將結果從GPU內存write到主機內存。通過編譯優化把計算并行化分配到GPU的多個core里面,大大提高了針對一般性通用需求的大規模并發編程模型的計算并行度。

        1.3. 第二代TPU:可進行深度學習上游訓練計算

        第二代TPU,又名Cloud TPU,能夠同時應用于高性能計算和浮點計算,峰值性能達到180 TFLOPS/s。與第一代TPU只能應用于推理不同,第二代TPU還可以進行深度學習上游訓練環節。隨著第二代TPU部署在Google Compute Engine云計算引擎平臺上,谷歌將TPU真正帶入云端。

        谷歌在今年5月17日舉辦了2017年度I/O開發者大會。一場并未有太多亮點的大會上,谷歌CEO皮查伊繼續強調公司AI First的傳略規劃。最為振奮人心的當屬第二代TPU——Cloud TPU的發布。

        谷歌同時發布了TPU Pod,由64臺第二代TPU組成,算力達11.5 petaflops。谷歌表示1/8個TPU Pod在對一個大型機器翻譯模型訓練的只需要6個小時,訓練速度是市面上32塊性能最好的GPU的4倍。

        谷歌此前強調,第一代TPU是一款推理芯片,并不用作神經網絡模型訓練階段,訓練學習階段的工作仍需交由GPU完成。早在去年I/O大會上公布TPU之前,谷歌就已經將TPU應用在各領域任務中,包括:圖像搜索、街景、谷歌云視覺API、谷歌翻譯、搜索結果優化以及AlphaGo的圍棋系統中。

        而這次第二代TPU的升級,自下而上的進入深度學習上游,應用在圖像和語音識別,機器翻譯和機器人等領域,加速對單個大型機器學習模型的訓練。第二代TPU在左右兩側各有四個對外接口,左側還有兩個額外接口,未來可能允許TPU芯片直接連接存儲器,或者是高速網絡,實現更加復雜的運算以及更多的擴展功能。在半精度浮點數(FP16)情況下,第二代TPU的單芯片可以達到45Teraflops(每秒萬億次的浮點運算),4芯片的設計能達到180 Teraflops。(對比第一代TPU算力:8位整數運算達92TOPS,16位整數運算達23TOPS)

        對TPU Pod的結構進行簡要分析,四機架的鏡像結構包含64個CPU板和64個第二代TPU板,The Next Platform推測CPU板是標配英特爾Xeon雙插槽主板,因此整個Pod機柜包括128個CPU芯片和256個TPU芯片。

        The Next Platform認為,谷歌使用兩條OPA線纜將每塊CPU板一一對應連接至TPU板,使得TPU與CPU的使用比例為2:1,這種TPU加速器與處理器之間高度耦合的結構,與典型的深度學習加速結構中GPU加速器4:1或6:1的比例不太一樣,更強調了TPU作為協處理器的設計理念——CPU處理器還是需要完成大量的計算工作,只是把矩陣計算的的任務卸載到TPU中完成。

        1.4. 谷歌重申買入:人工智能巨頭新征途:云+YouTube+硬件

        我們早在年初已經開始強調,人工智能巨頭新征途——云+YouTube+硬件。YouTube & 云計算的巨大增長動力將是谷歌持續轉型的助推器,長期看好AI和OtherBets創新業務厚積薄發。

        3Q17營收277.7億美元,同比漲24%,高于華爾街預期219億美元,主要鑒于移動端廣告搜索業務和YouTube的增長。EPS9.57美元,高于預期8.31美元。廣告業務營收240.7億美元,同比漲21%,其他業務包括云計算和硬件銷售達34.1億美元,同比大漲40%(尚未囊括10月發布的Pixel2等新產品銷售收入)。新興業務OtherBets營收同比漲53%至3.02億美元,但虧損環比略漲至8.12億美元。

        核心廣告指標Cost per click實現環比轉正,移動端轉型之勢給予市場極大信心。谷歌股價3季度跑輸大盤,外部壓力包括歐盟審查、美國選舉操控等輿論監管壓力。我們認為雖然在情緒面上承壓,但對公司業績基本面影響有限。根據彭博一致預期2018年EPS40.15美元,給予30xPE,目標價1200美元,重申“買入”評級。

        YouTube百般武藝沖勁十足,移動端積極轉型執行力堅決

        YouTube成長繼續保持蓬勃動力,Pichai表示用戶通過電視觀看YouTube的總時長達到1億小時/日,同比劇增70%。YouTubeTV網絡電視服務超過30個城市,包括40個電視臺節目的打包訂閱費35美元/月,僅為有線電視訂閱均價的一半。根據eMarketer預測,2017年美國視頻廣告市場增速強勁,整體規模預計增長23.7%至132.3億美元,YouTube作為龍頭將貢獻21.7%約28.7億美元。

        廣告營收向移動設備轉移步伐扎實,廣告業務凈營收增速回升至21%,廣告業務指標Cost per click同比降-18%,對比Q2的-23%和Q1的-19%,但16年以來環比首現轉正。Paidclicks同比漲47%,對比Q2的52%和Q1的44%,自由網站尤其是YouTube極大拉動用戶點擊意愿。我們強調,在移動端獲取搜索流量的成本會高于PC端,谷歌需要向包括iPhone在內的合作伙伴支付更多的流量獲取成本和收入分成,谷歌已證明在移動廣告上擁有不遜于Facebook的市場執行力。

        谷歌是人工智能的龍頭標的

        我們長期看好人工智能,發力語音識別和無人駕駛:我們認為語音識別技術已經足夠進入普及。DeepMind成為谷歌AI的標簽門面,看好進一步實現前瞻AI技術與現有業務的有效整合。

        C端谷歌軟硬兼施,Pixel手機+Home音箱+AssistantAI助理打造AI生態圈,探索人機交互便捷方式和廣告業務協同效應。9月以11億美元收購HTC打造Pixel手機的團隊。無人駕駛業務Waymo初試共享經濟,領投Lyft把握用戶入口將成為未來布局關鍵。

        2. 初代AlphaGo原理簡介

        我們在今年1月的《谷歌人工智能深度解剖》報告中詳細介紹過AlphaGo的程序原理。簡單來說,AlphaGo的算法基于兩個不同的部分:蒙特卡洛樹搜索和指導樹搜索的卷積神經網絡。與以前的蒙特卡洛程序不同,AlphaGo使用了深度神經網絡來指導它的樹搜索。卷積神經網絡分為“策略網絡”(這個網絡又分為“監督學習”和“強化學習”兩種模式)和“價值網絡”。這兩個神經網絡以當前圍棋盤面為初始值,以圖片的形式輸入系統中。

        這里面的“策略網絡”用來預測下一步落子并縮小搜索范圍至最有可能獲勝的落子選擇?!皟r值網絡”則用來減少搜索樹的深度——對每一步棋局模擬預測至結束來判斷是否獲勝。與此前的蒙特卡洛模擬程序不同的是,AlphaGo使用了深度神經網絡來指導搜索。在每一次模擬棋局中,策略網絡提供落子選擇,而價值網絡則實時判斷當前局勢,綜合后選擇最有可能獲勝的落子。

        下圖是我們經過仔細研究DeepMind團隊在學術雜志《自然》上發表的論文原文,精心制作的AlphaGo系統原理圖解。

        3. AlphaGo Zero的進化:強化學習,萬物歸零

        谷歌DeepMind最近在Nature上發布AlphaGo最新論文,介紹了目前最強版本AlphaGo Zero,在沒有先驗知識的前提下,僅通過強化學習(Reinforcement Learning)自我訓練,將先前的兩個神經網絡:價值網絡和策略網絡整合為一個框架,僅通過3天的訓練就以100:0的成績擊敗了曾經戰勝李世石的AlphaGo版本。

        我們認為AlphaGo Zero的進化是在圍棋這個非常細分的特定問題上做的算法極致優化:

        1、 AlphaGoZero只使用棋盤上的黑白棋子作為輸入,訓練完全從隨機落子開始,而此前的AlphaGo版本均使用了少量人工標注的特征。

        2、 Zero背后的神經網絡精簡為一個,此前AlphaGo使用的兩個神經網絡:價值網絡(Value Network)和策略網絡(Policy Network)被整合為一個框架。在這個神經網絡中,Zero應用了更簡單的Monte-Carlo樹搜索,實現更高效的訓練和評估。

        3、 Zero沒有使用“走棋策略”(Rollouts),這是其他圍棋程序以及AlphaGo最初版本中使用的快速走棋策略(Fast Rollout Policy):進行快速判斷較優落子選擇,適當權衡走棋質量精準度與速度。相反Zero引入了全新的強化學習算法來在訓練回路(training loop)中做前向搜索(lookahead search)。極大地提高了棋力以及學習穩定性。

        算法的改善提升了AlphaGo系統的性能以及通用性,并極大地降低了系統能耗。谷歌把2015年初代擊敗樊麾的版本命名為AlphaGoFan,這個版本的AlphaGo運行于谷歌云,分布式機器使用了1202個CPU和176個GPU。去年擊敗李世石的版本AlphaGoLee則同樣運行于云端,但處理芯片已經簡化為48個第一代TPU。今年戰勝柯潔的AlphaGoMaster,運算量只有上一代AlphaGoLee的十分之一,在單機上運行,只在一個物理服務器上部署了4個第一代TPU。

        4. 強化學習:減少對數據樣本的依賴,里程碑后的新起點

        AlphaGo與李世石的世紀大戰,是人工智能領域,尤其是深度強化學習技術的一個里程碑。

        當前人工智能主流應用還是基于深度學習神經網絡,從針對特定任務的標記數據中學習,訓練過程需要消耗大量人類標注樣本。在很多現實場景下,特定垂直領域的數據并不足以支持系統建構,因此嘗試解決對人類標注樣本的依賴,包括強化學習、遷移學習(Transfer Learning)、多任務學習(Multi-task Learning)、零樣本學習(zero-shot learning)有機會成為下一個機器學習商業成功的驅動力。

        強化學習(Reinforcement Learning),就是智能系統從環境到行為映射的學習。人工智能的終極目標是模仿人類大腦的思考操作,而強化學習的靈感則來自于動物的學習方式。動物能夠學會某些特定行為所導致的正面或負面結果(positive or negative outcome)。按照這種方法,計算機可以通過試錯法(trial and error)來與訓練環境互動,包括sensory perception和rewards,來決定這一結果的行為相關聯。這使得計算機可以不通過具體指示或范例(explicit examples)去學習。

        其實強化學習理論已經存在了數十年,但通過與大型深度神經網絡的結合,讓我們真正獲得了解決復雜問題(如下圍棋)所需的能力。通過不懈的訓練與測試,以及對以前比賽的分析,AlphaGo能夠為自己找出了如何以職業棋手下棋的道路。

        我們在今年1月的報告《2017 MIT人工智能5大趨勢預測:寒梅傲香春寒料峭,人工智能立夏將至》中提到第一大趨勢預測:正向強化學習(Positive Reinforcement)正在成為深度學習(Deep Learning)之后研究應用的最新熱點。雖然隨著Master戰勝柯潔,DeepMind宣布了AlphaGo的退役,但我們認為AlphaGo的“終點”,正開啟了強化學習的起點。

        4.1. 游戲中的人機互動

        從Atari到Labyrinth,從連續控制到移動操作到圍棋博弈,DeepMind的深度強化學習智能系統在許多領域都表現出優異的成績。人工智能的一大難題就是局限于在特定的板塊和領域里學習。DeepMind這個板塊和領域中性的學習算法能夠幫助不同的研究團隊處理大規模的復雜數據,在氣候環境、物理、醫藥和基因學研究領域推動新的發現,甚至能夠反過來輔助科學家更好的了解人類大腦的學習機制。

        可以預期的是,強化學習將能夠在現實世界情景中得到更多的實用證明。過去一年中我們看到一些模擬環境(simulated environments)的推出,包括DeepMind的DQN、OpenAI的Universe以及著名的沙盒游戲《Minecraft》。這個游戲在2014年被微軟收購,目前微軟劍橋研究院的研究人員正通過這款游戲進行游戲內人與AI的互動協作研究。

        研究人員開發了一個Malmo項目,通過這個平臺使用人工智能控制Minecraft游戲里面的角色完成任務。這個項目被視為有效的強化學習訓練平臺。通過特定的任務獎勵,人工智能能夠完成研究人員布置的游戲任務,例如控制角色從一個布滿障礙物的房間的一頭走到另一頭。同時,人工控制的角色還會在旁邊提供建議,進行人與AI協作的測試。

        4.1.1. DeepMind之DeepQ-Network (DQN)

        DeepMind在2015年2月于《自然》上發表了一篇《人類控制水平的深度強化學習》的論文,描述了其開發的深度神經網絡DeepQ-Network (DQN)將深度神經網絡(Deep Neural Networks)與強化學習(Reinforcement Learning)相結合的深度強化學習系統(DeepReinforcement Learning System)。Q-Network是脫離模型(model-free)的強化學習方法,常被用來對有限馬爾科夫決策過程(Markov decision process)進行最優動作選擇決策。

        谷歌設計的這個神經網絡能夠完成雅達利(Atari)游戲機2600上一共49個游戲,從滾屏射擊游戲RiverRaid,拳擊游戲Boxing到3D賽車游戲Enduro等。令他們驚喜的是,DQN在所有游戲過程都可以使用同一套神經網絡模型和參數設置,研究人員僅僅向神經網絡提供了屏幕像素、具體游戲動作以及游戲分數,不包含任何關于游戲規則的先驗知識。

        游戲結果顯示,DQN在一共49個游戲中的43個都戰勝了以往任何一個機器學習系統,并且在超過半數的游戲中,達到了職業玩家水平75%的分數水平。在個別游戲中,DQN甚至展現了強大的游戲策略并拿到了游戲設定的最高分數。

        雖然Atari游戲為深度學習系統提供了多樣性,但它們都還是二維動畫層面的游戲。DeepMind最近開始把研究重心放在3D游戲中并開發了一套3D迷宮游戲Labyrinth進行深度學習系統的訓練。與之前類似,智能系統只獲得了在視場(field-of-view)中觀察到的即時像素輸入,需要找到迷宮地圖的正確寶藏路徑。

        DQN作為第一個深度學習系統,通過進行端到端訓練完成一系列有難度的任務。這樣的技術能夠有效運用到谷歌的產品服務中,我們可以想象一下,以后用戶可以直接發出指令要求谷歌為他制定一個歐洲背包旅行計劃。

        4.1.2. OpenAIUniverse:通用vs 具體

        人工智能非牟利組織OpenAI去年推出了Universe。這是一個用于訓練解決通用問題的AI基礎架構,能在幾乎所有的游戲、網站和其他應用中衡量和訓練AI通用智能水平的開源平臺。這是繼去年12月OpenAI發布可以用來開發強化學習算法的開發工具Gym之后,向通用型人工智能進一步擴展的新動作。

        OpneAI Universe的目標是開發一個單一的AI智能體,使其能夠靈活運用過去在Universe中的經驗,快速在陌生和困難的環境中學習并獲得技能,這也是通往通用型人工智能的重要一步。目前,Universe包括了大約2600 種Atari 游戲,1000種flash 游戲和80 種瀏覽器環境,可供所有人用于訓練人工智能系統。最近,Universe加入了游戲大作《GTA5》。用戶只需購買正版游戲,即可使用Universe中的人工智能在游戲中的3D環境中縱橫馳騁。在Universe的新測試環境中,人工智能獲取視頻信息的幀數被限制在了8fps,環境信息和視角管理齊備。此次開源GTA5讓普林斯頓大學開發的自動駕駛模擬測試平臺DeepDrive在GTA世界中進行測試變得更加簡便易行。

        4.2. 更瘦、更綠的云計算數據中心

        在2017年,我們預計看到強化學習更多的出現在自動駕駛系統和工業機器人控制等方面。谷歌一直在致力于更瘦、更綠的云計算數據平臺。早在2014年,谷歌通過安裝智能溫度和照明控制以及采用先進的冷卻技術而非機械冷卻器,最小化能量損失,使其數據中心的耗電量比全球數據中心平均水平的低50%。而且對比自己的數據中心,谷歌現在的數據處理性能是5年前的3.5倍,但能耗卻沒有提高。

        如今,坐擁DeepMind的谷歌在很大程度上又走在世界前沿。DeepMind將強化學習神經網絡技術應用到云計算數據中心的能源控制方面,通過獲取數據中心內的傳感器收集的大量歷史數據(如溫度、功率、泵速、設定點等),首先在未來平均PUE(Power Usage Effectiveness,電力使用效率)值上訓練神經網絡系統。PUE是總建筑能源使用量與IT能源使用量的比率,是衡量數據中心能源效率的標準指標,而每一部儀器可以受到幾十個變量的影響。通過不斷的模擬調整模型與參數,使其接近最準確預測的配置,提高設施的實際性能。團隊訓練兩個額外的深層神經網絡集合,以預測未來一小時內數據中心的溫度和壓力,模擬來自PUE模型的推薦行為。

        通過18個月的模型研發與測試,DeepMind聯合谷歌云的研發團隊成功為數據中心節省了40%的冷卻能耗以及15%的總能耗,其中一個試點已經達到了PUE的最低點,未來該技術的可能應用于提高發電轉換效率、減少半導體生產的能量和用水量,或幫助提高生產設施的產量。機器學習為數據中心節省能源,減少了更多的碳排放。DeepMind和谷歌云計算團隊計劃將這項成果開源出來,造福全世界的數據中心、工廠和大型建筑等,打造一個更綠色的世界。

        1. EETOP 官方微信

        2. 創芯大講堂 在線教育

        3. 創芯老字號 半導體快訊

        相關文章

        全部評論

        • 最新資訊
        • 最熱資訊
        @2003-2022 EETOP

        京ICP備10050787號   京公網安備:11010502037710

        99国内精品久久久久久久
      1. <wbr id="a4kgy"></wbr>