- 相關推薦
計算機架構未來面臨的挑戰(zhàn)
過去10年,很多計算機體系結構研究學者都在感嘆體系結構的研究步履維艱,計算機架構未來面臨的挑戰(zhàn),又會有哪些呢,我們一起來看看!
專用化的鴻溝:硬件設計大眾化
為了延續(xù)計算機工業(yè)創(chuàng)新的光榮歷史,開發(fā)硬件必須像開發(fā)軟件一樣簡單、便宜和靈活。
廣泛和新興的看法一直認為,經(jīng)典的CMOS工藝縮放路線——基于晶體管越來越小、集成度越來越高的摩爾定律的技術引擎——將在不到3代半導體工藝(6~9年)之后面臨終結。而且,登納德縮放——隨著CMOS的集成度提高但能夠使每個芯片的功耗保持不變的技術趨勢——也將在21世紀中葉終結,這將導致處理器設計的巨大變革:運算能效已經(jīng)取代面積效率或峰值邏輯門開關,成為最重要的一項限制峰值性能的設計約束。
從近期工業(yè)界的動向中可以窺見到經(jīng)典工藝縮放路線即將到來的后果。例如,英特爾已經(jīng)放棄了長期奉行的“工藝年-構架年(tick-tock)”開發(fā)模式,從原先每代工藝推出兩款主要芯片設計,現(xiàn)已改為三款。這個改變意在通過維系“茍延殘喘”的摩爾定律從而延長每代產(chǎn)品的市場壽命。更有甚者,美國半導體行業(yè)協(xié)會(Semiconductor Industry Association)也已放棄維持了數(shù)十年、每兩年更新一次的國際半導體技術路線圖(International Technology Roadmap for Semiconductors, ITRS)的老傳統(tǒng),這一技術文檔為整個半導體產(chǎn)業(yè)界協(xié)調(diào)技術、制造與系統(tǒng)開發(fā)提供了指導。由于沒有明確的方向維系縮放路線,ITRS的價值也在逐漸衰退。
然而,新應用的不斷涌現(xiàn),對計算能力的需求在日益增長。其中最突出的就是那些由大規(guī)模機器學習所驅(qū)動的、從前難以想象的應用:從圖像和語音識別到無人駕駛汽車,再到擊敗圍棋頂尖高手。同樣可以看到對視覺數(shù)據(jù)處理和理解的需求的爆發(fā)式增長,有些前瞻性應用或許要求為世界上每個人提供每秒千兆像素級的運算能力。
過往計算技術的進步主要來源于對通用計算設計的巨大投入,而這些設計依賴于經(jīng)典的縮放路線,并且完全由少數(shù)幾家處理器制造商完成。得益于這些通用設計的計算機應用綜合市場的龐大體量,足以分攤這些廠商的大量投入。
隨著傳統(tǒng)縮放路線的衰落,只通過改進少數(shù)通用計算平臺將無法繼續(xù)滿足新興應用對計算性能的需求。相反,在過去的5~10年里,在一些計算密集型應用領域,一種新的性能優(yōu)化手段策略已經(jīng)興起——專用硬件設計。與在通用處理芯片上運行軟件的方案相比,專用硬件方案(如專用集成電路)單位操作上可提高能效10000倍。此能效的提升對于新興的物聯(lián)網(wǎng)的豐富應用是至關重要的。專用化已經(jīng)在圖形渲染和視頻播放等方面取得了巨大成功。機器學習應用也開始取得商業(yè)成功。實際上,計算機體系結構領域的科研人員已經(jīng)認識到專用化的重要性并投身其研究:2016年體系結構領域三大頂級會議(ISCA、HPCA、MICRO)共收錄論文175篇,其中38篇是關于圖形處理器(GPU)和專用加速器設計的,還有17篇是關于機器學習專用化設計的。
然而,迄今為止,專用設計的商業(yè)化的成功,只限于擁有巨大市場的應用(例如視頻游戲、移動視頻播放等),值得像通用處理器廠商那樣投資。以上市時間和金錢來衡量,設計和制造專用硬件的成本極高,只有極少數(shù)的設計可以在這樣巨大的市場逐步攤銷。
為了繼續(xù)有效創(chuàng)新的周期,關鍵是排除專用系統(tǒng)設計的障礙,從而在所有應用中體現(xiàn)出專用化在能效方面的優(yōu)勢。我們的愿景是“大眾化”硬件設計,也就是讓硬件設計變得像軟件設計那樣敏捷、便宜和開放。軟件開發(fā)團隊可以利用豐富的、擁有現(xiàn)成的可重用部件的生態(tài)系統(tǒng)(通常是免費和開源的),使用高級語言加速提高單個開發(fā)者的能力,并依靠強大和自動化的程序分析、綜合、測試和調(diào)試來保證品質(zhì)。
盡管經(jīng)過了幾十年的投入,計算機輔助設計仍未能達到一個小開發(fā)團隊即可進行硬件設計的水平。硬件系統(tǒng)設計者需要更好的工具,提高在硬件描述方面的能力,更快的性能評估手段,更敏捷的原型化方法和更嚴謹?shù)能?硬件協(xié)同設計驗證方法。工具鏈要成熟,可以跨越多個硬件層次,從通用可編程處理核到大規(guī)模可編程邏輯陣列、可編程加速器以及專用集成電路,從而能夠輕易實現(xiàn)重定位。更好的抽象描述對于硬件的組件化和可重用是必需的,這些抽象可以是以可綜合的知識產(chǎn)權(IP)模塊的形式,甚至可以是以物理芯片或芯片組的形式存在,在制造時可便宜地集成到系統(tǒng)中。對于體系結構領域的研究者來說,這是一次努力彌補通用和專用系統(tǒng)之間的鴻溝的機會,并開發(fā)出一系列工具和框架平臺,使大眾化硬件設計成為現(xiàn)實。
云計算是對體系結構創(chuàng)新的抽象
利用規(guī)模化和虛擬化技術,云計算提供商可以透明和低成本地提供硬件創(chuàng)新,即使最小的客戶也是如此。
云計算對傳統(tǒng)商業(yè)模式的顛覆已被廣泛認可。云計算能夠促使新興企業(yè)的規(guī)模發(fā)展遠快于傳統(tǒng)的基礎設施投資。新產(chǎn)品的用戶可以在短短幾天時間內(nèi)從幾百個增長到幾百萬個,2016年7月迅速風靡全球的手機游戲“口袋妖怪”(Pokemon Go)就是很好的例證。但是,云計算也打破了傳統(tǒng)財富500強的商業(yè)模式,因為以前擁有自己的IT基礎設施的企業(yè)實現(xiàn)了出租云資源帶來的成本收益。
云計算提供商利用規(guī)模化不僅是為了自身業(yè)務,也是為了投資IT的客戶的利益。因此,這些提供商往往會發(fā)現(xiàn),進行巨大的、非重復性的工程投資是合算的,例如,在內(nèi)部開發(fā)全新的軟件和硬件系統(tǒng),而不依賴第三方產(chǎn)品供應商。
我們開始看到出現(xiàn)了使得云計算實現(xiàn)前所未有的性能的專用計算機架構。無論是高端的超級計算機,還是商業(yè)的云端產(chǎn)品,GPU變得無處不在。微軟公司公開披露了Catapult項目,該項目致力于整合現(xiàn)場可編程門陣列(FPGA)以促進其數(shù)據(jù)中心的計算專用化。Cavium公司已經(jīng)發(fā)布了一個互聯(lián)網(wǎng)服務應用的專用架構ThunderX。谷歌公司公布了張量處理器TPU,這是一個面向機器學習應用的專用協(xié)處理器。上述項目表明,已經(jīng)有很多經(jīng)濟原因促使云計算提供商投資專用計算機架構。
對學術界的計算機體系結構研究者來說,現(xiàn)在是抓住這個機遇并展示跨層專用化愿景的時機。例如,專用集成電路云(ASIC Clouds)項目展示了如何協(xié)同開發(fā)大量高度專用的處理器,從而讓關鍵應用得到明顯加速。
云計算模型的第二個關鍵優(yōu)勢是虛擬化。虛擬化這類技術將新的硬件和軟件創(chuàng)新透明地引入現(xiàn)有的軟件系統(tǒng)。虛擬化使得云提供商可以為了更快、更便宜的技術替換處理器、存儲器和網(wǎng)絡部件,而不必與消費者溝通協(xié)調(diào)。虛擬化也促成了資源的超額認購——在消費者對特定資源的需求具有時變、碎片化特征的情況下,在消費者之間進行透明的資源共享。超額訂購對云計算的成本結構很重要,和單獨的消費者購買專屬資源比較,它使得云供應商以極低的價格提供IT資源。
學術界的計算機體系結構研究長期以來對實現(xiàn)虛擬化起到重要作用,例如威睿(VMWare)這個最被認可的虛擬化技術供應商,就是從一個大學研究計劃發(fā)起的。學術界的體系結構研究者必須繼續(xù)在開發(fā)虛擬化技術中扮演關鍵角色,來縮短虛擬化性能與裸機性能之間的差距。此外,體系結構研究者必須開發(fā)新型的虛擬化抽象,從而實現(xiàn)對專用硬件單元,比如Catapult、TPU和ASIC Clouds等的透明使用和超額訂購。
垂直化趨勢
三維(3D)集成提供了一個新的可擴展維度。
摩爾定律終結的重要后果是使得芯片設計師再也不能“無償?shù)亍泵?8個月將自己設計中的晶體管數(shù)量提高一倍。與此同時,最近幾代芯片中,相對于計算,驅(qū)動全局總線開銷的增長很快,因此不斷提升了互聯(lián)在芯片功耗預算中所占比例。
3D集成為芯片設計提供了一個新的擴展維度,盡管摩爾定律終結了,仍然可以在一個單系統(tǒng)上集成更多的晶體管,可以從3個維度縮減互聯(lián)開銷,并實現(xiàn)各種混合制造技術的緊密集成。因此,3D集成使3D結構內(nèi)部的系統(tǒng)組件具有更高的能效、更寬的帶寬和更低的延遲。
從架構上來講,3D集成也說明平衡系統(tǒng)的計算必須盡量靠近數(shù)據(jù)。盡管閃存和其他內(nèi)存設備早已通過3D方式進行容量擴展,但將內(nèi)存設備與高性能邏輯集成的嘗試才剛剛開始。例如,美光(Micron)公司推出的混合內(nèi)存立方體(Hybrid Memory Cube),實現(xiàn)了快速邏輯和密度內(nèi)存的3D堆疊,為學術界重新刮起“近數(shù)據(jù)計算”(near-data computing, NDC)和“內(nèi)存處理”(processing-in-memory, PIM)架構的學術研究風潮。盡管這個研究問題早在20年前已相當流行,但受限于當時的工藝技術,PIM架構并沒有進一步實現(xiàn)商業(yè)應用。近幾年,隨著實用芯片堆疊和多技術垂直集成技術的出現(xiàn),這些架構成為提升擴展性的有效途徑。
盡管3D集成為芯片設計賦予了新能力,但同時也在實現(xiàn)高可靠性和高收益方面提出許多復雜的新挑戰(zhàn),其中高可靠性和高收益可以通過架構支持解決。比如,3D集成內(nèi)存啟發(fā)我們重新思考傳統(tǒng)內(nèi)存和存儲架構。3D集成也對功率和溫度管理引入了全新的問題,這是由于傳統(tǒng)的散熱技術不足以應對高性能集成設計帶來的功率密度提升。這些問題和挑戰(zhàn)開啟了全新的、豐富的體系架構創(chuàng)新的可能性。
體系結構“更接近物理層”
經(jīng)典縮放定律的終結,給計算機底層架構帶來更多的本質(zhì)變化。
新的器件技術和電路設計技術歷來引發(fā)新結構的產(chǎn)生。未來有若干可能的情況給計算機體系結構帶來深遠的影響。這些情況分為兩大類。第一類是通過更有效的信息編碼,更接近模擬信號,來更好地利用目前的材料和器件。對模擬計算的關注再次興起,因為它很適合需要控制準確度的應用。而且和數(shù)字信息處理相比,模擬信息處理通過把信息更密集地映射到模擬信號上,以及更高效的功能單元,能夠保證功耗更低。然而,這類計算更易受到噪聲影響,需要有新的容錯方法才能實際應用。
第二類機會是“新”材料的使用,包括更高效的交換、更密集的布局和獨特的計算模型。下面我們列出一些值得體系結構領域注意的努力方向。
新的存儲器件。幾十年來,數(shù)據(jù)一直存儲在動態(tài)隨機存取存儲器(DRAM)、閃存或磁盤上。但是,新的存儲器件(例如Intel/Micron 3D XPoint存儲器)正在進入商用化,與傳統(tǒng)存儲層次部件相比,這些新器件在開銷、密度、延遲、吞吐量、可靠性和壽命等方面完全不同。
碳納米管。基于碳納米管(CNTs)的電子學研究持續(xù)取得顯著進展,最近的結果表明,只使用碳納米管搭建出一個簡單的微處理器是可行的。碳納米管可以保證更高的密度和更低的功耗,并且可用在三維基底上。這使得碳納米管成為體系結構方案是非常可行的。
量子計算。量子計算利用量子力學現(xiàn)象存儲和操縱信息。它的主要優(yōu)點是,“疊加”量子現(xiàn)象有效地允許同時表達0和1狀態(tài),這使得量子計算實現(xiàn)選擇算法時比傳統(tǒng)計算有了指數(shù)級加速。
超導邏輯。量子計算的一個姊妹方向是超導邏輯,使用約瑟夫森結等超導器件的系統(tǒng),能夠提供“免費”的通信,因為在超導線上傳輸信號幾乎不消耗能量。另一方面,在數(shù)據(jù)操作上比傳輸數(shù)據(jù)有更高的能耗。這些權衡與CMOS硅電路正好相反,在CMOS電路上大部分能量消耗在通信而不是數(shù)據(jù)操作。
微軟、谷歌、IBM和I-ARPA等公司和機構都已經(jīng)宣布在量子計算和超導邏輯進行了大量投資。我們認為量子計算機結構得到再次關注的時機是成熟的,量子計算在十年內(nèi)可能會產(chǎn)生實際影響。
借鑒生物學。利用生物學基底做計算很早就想到了,有可能實現(xiàn)。DNA計算已經(jīng)演示了簡單的邏輯操作,最近的許多結果也表明DNA作為檔案存儲器和納米結構自組裝的數(shù)字媒介具備潛力。對研究人員來說,生物科技產(chǎn)業(yè)推動的DNA操縱技術所取得的進展使得體系結構研究人員認為,使用生物是可行的。除了DNA,還有諸如蛋白質(zhì)等其他生物分子能夠用于計算,這些生物分子工程在過去十年進步顯著。
機器學習作為核心負載
機器學習正在改變我們實現(xiàn)應用的方式。硬件性能提升使得機器學習應用于大數(shù)據(jù)成為可能。
機器學習在過去十年中取得了長足的進步,產(chǎn)生了很多長期以來只存在于科幻小說里的應用。可以說,這一進步在很大程度上受益于豐富的數(shù)據(jù)和強大的計算能力。大規(guī)模機器學習應用也促進了存儲系統(tǒng)和專用硬件(GPU, TPU)等的設計。
盡管目前的重點是支持云端的機器學習,但是在諸如智能手機和超低功耗傳感器節(jié)點等低功耗設備中支持機器學習應用也有非常重要的機會。幸運的是,許多機器學習內(nèi)核具有相對規(guī)整的結構,能夠在準確率和資源需求之間進行權衡。因此,它們適用于專用硬件、重構和近似計算等技術,為體系結構的創(chuàng)新開啟了新空間。
機器學習從業(yè)者在計算上花費相當長的時間用于模型訓練。即便使用超大規(guī)模的計算集群,花費一星期到一個月來訓練一個模型也是普遍的。雖然這樣的計算資源投資能夠分攤到對模型多次調(diào)用,但模型較長的更新迭代周期可能會對用戶體驗產(chǎn)生負面影響。因此,對體系結構研究人員來說,設計能更好地支持機器學習模型訓練的系統(tǒng)是一個新的機遇。
【計算機架構未來面臨的挑戰(zhàn)】相關文章:
招聘發(fā)展面臨的挑戰(zhàn)10-24
中國學生面臨新SAT挑戰(zhàn)09-12
秒殺系統(tǒng)架構分析09-22
華為認證架構介紹10-03
智慧健康系統(tǒng)架構09-01
什么是系統(tǒng)架構師-如何成為系統(tǒng)架構師08-10
濕地資源面臨的問題08-17