LPDDR4是用于移動(dòng)應(yīng)用的最新雙數(shù)據(jù)率同步DRAM,它是當(dāng)今高端便攜產(chǎn)品中常見(jiàn)的DRAM類(lèi)型,應(yīng)用于如Samsung Galaxy S6智能手機(jī),Apple iPhone 6S [1],以及數(shù)種最新發(fā)布的設(shè)備。除了移動(dòng)應(yīng)用之外,預(yù)計(jì)LPDDR4會(huì)像其前任LPDDR3那樣應(yīng)用于平板電腦、輕薄筆記本電腦中,會(huì)采用“底層存儲(chǔ)器”配置,亦即,DRAM以物理方式焊接在主板上。
LPDDR4在很小的PCB面積和體積上提供了巨大的帶寬;在3200Mbps的數(shù)據(jù)率下,當(dāng)兩片Die封裝在一起時(shí),單個(gè)15毫米x15毫米LPDDR4封裝包可提供25.6 GByte/s的帶寬。LPDDR4建立在LPDDR2和LPDDR3的成功基礎(chǔ)之上,增加了新的特性并引入了主要的結(jié)構(gòu)變化。
本白皮書(shū)中闡明了LPDDR4與以前所有JEDEC DRAM規(guī)格的差異之處。討論了下述方面:
設(shè)計(jì)人員為何選擇LPDDR4
LPDDR4體系結(jié)構(gòu)的亮點(diǎn)
如何最好地配置LPDDR4通道
如何處理具有多通道連接的2片和4片封裝
通過(guò)系統(tǒng)級(jí)芯片(SOC)分割共享通道的優(yōu)點(diǎn)
如何優(yōu)化通道以實(shí)現(xiàn)最低功耗
為什么是LPDDR4?
LPDDR4包含多項(xiàng)特性,這使得SOC設(shè)計(jì)團(tuán)隊(duì)能夠降低分離DRAM的功耗。對(duì)于諸如PC和服務(wù)器等桌面設(shè)備,通常將使用安裝在雙列直插內(nèi)存模塊(DIMM)上的DDR器件,所述DIMM位于64位寬總線上。這類(lèi)板級(jí)解決方案能夠就地升級(jí)DRAM容量,但需要長(zhǎng)且負(fù)載較重的連接線,與較短的走線相比,它消耗的功率更高。對(duì)于使用LPDDR2、LPDDR3和LPDDR4的系統(tǒng),每條總線上的內(nèi)存器件通常數(shù)量更少,連接線也更短,因而消耗的功率比DDR2、DDR3和DDR4器件更低。
設(shè)計(jì)團(tuán)隊(duì)能夠調(diào)用LPDDR4 DRAM內(nèi)的節(jié)能選項(xiàng)。這些特性包括更低的電壓和I/O電容;更小寬度的多路復(fù)用命令和地址總線;消除了on-DRAM DLL;更快進(jìn)出的低功耗待機(jī)模式;更快、更加簡(jiǎn)單的變頻。
最后,LPDDR4 DRAM具有溫度感知刷新特性,這有助于使DRAM的刷新率與DRAM的位單元本身的要求匹配,尤其是在低功率自刷新待機(jī)模式下更是如此。在待機(jī)模式下可自動(dòng)啟用該特性,類(lèi)似地,在主動(dòng)模式下可讀取溫度指示,使得LPDDR4控制器能夠調(diào)節(jié)其自刷新率,從而與LPDDR4器件的熱狀態(tài)相符。
LPDDR4采用了針對(duì)移動(dòng)裝置的模型
在實(shí)際應(yīng)用中,移動(dòng)用戶(hù)僅在較少的時(shí)間段內(nèi)才會(huì)用到LPDDR4的最高工作頻率。此時(shí),用戶(hù)或是采集或顯示高清晰(4K)視頻,或是玩具有高圖形要求的游戲,或是處理圖形,或是引導(dǎo)或加載新的軟件。
在部分時(shí)間段內(nèi),內(nèi)存會(huì)降至LPDDR3速度級(jí)別。這一性能水平足以支持文本、呼叫、網(wǎng)頁(yè)瀏覽、照片、簡(jiǎn)單游戲:所有這些功能對(duì)CPU或GPU沒(méi)過(guò)高要求。
在大部分時(shí)間段內(nèi),移動(dòng)設(shè)備并不使用,它或是在口袋內(nèi)、或是在床邊,此時(shí)DRAM斷電或處于低速模式下。僅一個(gè)內(nèi)存通道處于活動(dòng)狀態(tài)下,用于執(zhí)行“始終在線、始終連接”任務(wù)。在該模式下,設(shè)備執(zhí)行后臺(tái)任務(wù),如保持電池接觸,接收消息,接收/顯示推送通知,郵件同步,以及時(shí)間顯示。
然而,正是由于最高使用時(shí)間的設(shè)備性能,很多移動(dòng)用戶(hù)升級(jí)了其設(shè)備,這正是該使用模式下優(yōu)秀用戶(hù)體驗(yàn)十分重要的原因之所在(圖1)。
?
圖1:最高使用時(shí)間是移動(dòng)用戶(hù)升級(jí)循環(huán)的驅(qū)動(dòng)因素
LPDDR4體系結(jié)構(gòu)變化
與前代相比,LPDDR4規(guī)范中確定了多種性能和特性改進(jìn)。最為重要的是,LPDDR4對(duì)體系結(jié)構(gòu)進(jìn)行了重大改變:LPDDR4器件采用了每一裸片上2個(gè)獨(dú)立通道的布局方案。
DDR2、DDR3和DDR4器件的每一封裝包提供了一套命令地址輸入總線和一套數(shù)據(jù)總線,最為常見(jiàn)的是每一封裝包一個(gè)裸片。LPDDR2和LPDDR3的每一封裝包可提供1~4個(gè)裸片。對(duì)于LPDDR4、LPDDR3和LPDDR2,在雙裸片和4裸片封裝包情形下,通常提供了2套獨(dú)立的命令地址輸入和數(shù)據(jù)總線(通道)。換句話講,LPDDR2和LPDDR3器件實(shí)施了部分多通道,其中,每一封裝包提供了2個(gè)獨(dú)立通道。LPDDR4將該特性發(fā)揮到極致,這是因?yàn)槊恳宦闫加袃蓚€(gè)獨(dú)立通道,大多數(shù)封裝包都有4個(gè)通道。
連接多個(gè)通道
LPDDR4體系結(jié)構(gòu)天然具有2個(gè)通道(圖2),每一裸片有2套命令地址輸入和2套數(shù)據(jù)總線。LPDDR4的2裸片封裝包提供了4個(gè)獨(dú)立通道。為了更有效地使用LPDDR4,設(shè)計(jì)人員必須理解LPDDR4體系結(jié)構(gòu)變化對(duì)SoC體系結(jié)構(gòu)的影響。
?
圖2:LPDDR4雙通道體系結(jié)構(gòu)
對(duì)于具有1個(gè)通道(如LPDDR3的單裸片封裝包)的單個(gè)DRAM器件,只能做單向連接,即SOC上的命令/地址總線接到位于DRAM上的命令/地址總線,SOC數(shù)據(jù)總線接到DRAM數(shù)據(jù)總線(圖3)。片選(CS)可在需要時(shí)使能DRAM。
?
圖3:連接單個(gè)DRAM裝置的標(biāo)準(zhǔn)方式
2個(gè)DRAM器件,或具有2個(gè)獨(dú)立接口的單個(gè)DRAM器件(如LPDDR4)可支持4種可能配置:
并行(前后緊接)
串行(多級(jí))
多通道
共享命令/地址
并行(前后緊接)連接
對(duì)于在DDR2/DDR3/DDR4方面具有豐富經(jīng)驗(yàn)的設(shè)計(jì)人員,最熟悉的選擇是并行或前后緊接配置。并行配置(圖4)對(duì)于2個(gè)或多個(gè)DRAM裸片是恰當(dāng)?shù)?,?duì)于與同一命令/地址總線相連的LPDDR4的2個(gè)通道也是恰當(dāng)?shù)摹K鼈儾捎昧讼嗤钠x,但每一數(shù)據(jù)總線具有獨(dú)立的數(shù)據(jù)通道。在這類(lèi)并行連接中,所有的DRAM器件接收相同的命令和地址,但會(huì)通過(guò)不同的字節(jié)線發(fā)送其數(shù)據(jù)。由于可同時(shí)訪問(wèn)所有器件,因此兩個(gè)DRAM始終處于相同狀態(tài)。它們打開(kāi)相同的內(nèi)存頁(yè)面,并訪問(wèn)相同的數(shù)據(jù)列,但保存在每一 DRAM中的數(shù)據(jù)不同。
?
圖4:并行(前后緊接)連接
串行(多級(jí))連接
第二種選擇是采用串行或多級(jí)配置將器件連接在一起(圖5)。這等效于將多個(gè)DIMM置于PC上的同一通道內(nèi)。命令/地址和數(shù)據(jù)總線均連接在兩個(gè)DRAM器件上,但根據(jù)命令循環(huán)選中的2個(gè)不同的片選,以對(duì)兩個(gè)DRAM器件的訪問(wèn)進(jìn)行獨(dú)立控制。這兩個(gè)器件可處于不同狀態(tài),具有不同的活動(dòng)內(nèi)存頁(yè)面。典型情況下,SOC負(fù)責(zé)控制共享數(shù)據(jù)總線,確保DRAM不會(huì)同時(shí)進(jìn)行數(shù)據(jù)傳輸。
?
圖5:串行(多級(jí))連接
多通道連接
多通道連接(圖6)為DRAM的每一通道或每一DRAM器件提供了與SOC的獨(dú)立連接,其中,每一器件或通道具有自己的命令/地址總線,數(shù)據(jù)總線和片選。由于采用了這一靈活配置,每一DRAM器件(或器件組)能夠彼此完全獨(dú)立地工作。它們可能處于不同狀態(tài),接收不同命令和不同地址,當(dāng)一器件執(zhí)行寫(xiě)入操作時(shí),另一器件可執(zhí)行讀取操作。
多通道連接還允許DRAM工作在不同功耗狀態(tài)下。例如,某一塊內(nèi)存可能處于待機(jī)自刷新模式,而另一內(nèi)存處于完全激活狀態(tài)。
?
圖6:多通道連接
共享命令/地址(CA)連接
最后一種配置選擇更常應(yīng)用在非低功耗DDR器件中,這是一種具有共享命令/地址(CA)或共享AC(圖7)的多通道配置。在該配置下,兩個(gè)DRAM裝置接收相同的命令和地址,與串行連接類(lèi)似,片選決定了哪個(gè)DRAM器件負(fù)責(zé)監(jiān)聽(tīng)特定的時(shí)鐘周期,因而每一器件可能處于不同狀態(tài)下。兩個(gè)通道之間的DRAM命令仲裁在SoC內(nèi)部完成,但每一DRAM能夠獨(dú)立傳輸數(shù)據(jù)。
?
圖7:共享CA連接
雙通道連接的各種配置選項(xiàng)的比較
這些配置選項(xiàng)中的每一個(gè)各有其優(yōu)缺點(diǎn)(圖8)。例如,并行實(shí)施僅有8個(gè)可用庫(kù)(bank),任一時(shí)刻在32位數(shù)據(jù)總線上可突發(fā)塊取的最小數(shù)據(jù)量為64字節(jié)。并行方法不太適合于使用堆疊封裝(POP)的設(shè)計(jì)。
?
圖8:LPDDR4的雙通道(1個(gè)晶片)連接選項(xiàng)比較
串行連接也不太適合于POP實(shí)現(xiàn)。它的確能節(jié)省一些DQ引腳,但由于DRAM器件共享了數(shù)據(jù)總線,它所提供的帶寬只有其他解決方案的一半,該方法的吸引力較低。
共享CA適合于DDR系統(tǒng),多通道連接使得設(shè)計(jì)團(tuán)隊(duì)能夠從LPDDR4中獲取最大好處。
管理具有多通道連接的2裸片和4裸片封裝包
在LPDDR4的實(shí)施中,最常見(jiàn)的方式是在單個(gè)封裝包中使用2個(gè)LPDDR4裸片,該包提供了4個(gè)16位通道,可實(shí)現(xiàn)8種不同拓?fù)浞桨?。在將LPDDR4器件連接至SOC的8種可能方式中,有三種特別有用的實(shí)施方案:
“真正”的4通道,雙通道加雙并行,完全并行
對(duì)于希望在其LPDDR4裝置中實(shí)現(xiàn)最大帶寬的設(shè)計(jì)團(tuán)隊(duì),尤其是在使用較小的數(shù)據(jù)塊傳輸時(shí),可能會(huì)考慮真正的4通道實(shí)施方案(圖9)。與其他實(shí)施方案相比,它具有最大的bank數(shù)目,以及最小的塊提取尺寸。它要求在SOC上具有24個(gè)CA引腳,可與SOC上的4個(gè)單獨(dú)的內(nèi)存控制器以及PHY一起實(shí)施。
?
圖9:真正的4通道實(shí)施
雙通道加雙并行實(shí)施在全并行實(shí)施和4通道實(shí)施之間實(shí)現(xiàn)了良好折衷。對(duì)于LPDDR3-LPDDR4組合(圖10),它尤其有用。在使用LPDDR4的早期商用SOC中,大部分都采用了該配置。
雙通道加雙并行
?
圖10:雙通道和并行實(shí)施
全并行實(shí)施僅采用了6個(gè)CA引腳,具有最大的DQ數(shù)(64)。然而該系統(tǒng)中僅提供了8個(gè)Bank。最小尺寸塊提取尺寸為128字節(jié),這將會(huì)限制其在某些應(yīng)用中的實(shí)用性。由于總線負(fù)載或芯片級(jí)時(shí)序收斂方面的原因,可能還需要復(fù)制CA總線。
圖11顯示了雙裸片4通道LPDDR4多通道實(shí)施(左側(cè))和4裸片實(shí)施(右側(cè))的示例。LPDDR4封裝包具有4個(gè)連接的裸片,每一物理通道具有與其相連的2排(rank)內(nèi)存存儲(chǔ)體。對(duì)于該配置,要求設(shè)計(jì)團(tuán)隊(duì)在包的4個(gè)通道的每一通道的串行方向上擴(kuò)展連接。不幸的是,4裸片包未提供8通道連通性;在4裸片包上只有4個(gè)通道。
?
圖11:雙裸片和4裸片實(shí)施。4裸片LPDDR4多通道和串行實(shí)施增加了DRAM容量。該解決方案與2裸片封裝包兼容
概括而言,推薦的雙裸片LPDDR4實(shí)施為:
雙通道加并行,這是LPDDR3用戶(hù)最熟悉的方案,也是可以實(shí)現(xiàn)LPDDR3/LPDDR4組合的實(shí)現(xiàn)方式;
4通道,這是最靈活并具有潛在最高性能的方案。
關(guān)于共享通道的設(shè)計(jì)推薦,通過(guò)多Bank改善LPDDR4的性能
類(lèi)似地,LPDDR4繼承了DRAM的很多特性,其存儲(chǔ)結(jié)構(gòu)由Bank構(gòu)成,每一Bank具有多行(Row),每一行具有用于存儲(chǔ)數(shù)據(jù)的多個(gè)列(Column)。訪問(wèn)位于相同行內(nèi)保存在列中的數(shù)據(jù)很快,訪問(wèn)位于不同Bank內(nèi)不同的行也很快,但訪問(wèn)位于相同Bank內(nèi)的不同行則會(huì)很慢。
獨(dú)立訪問(wèn)其他器件的每一通道意味著,每一通道上的每一Bank可以具有不同的活動(dòng)行。對(duì)于像視頻和網(wǎng)絡(luò)包等在內(nèi)存中隨機(jī)分布的小尺寸的數(shù)據(jù)傳輸類(lèi)型而言,擁有更多的Bank能夠避免一些固有的、會(huì)限制性能的內(nèi)存時(shí)序參數(shù)。在盡可能多的Bank上傳輸數(shù)據(jù)能夠改善性能是因?yàn)樗芙档陀龅揭恍﹥?nèi)存時(shí)序參數(shù)的概率。
在系統(tǒng)中有更多的Bank,并延長(zhǎng)在每一Bank上完成命令所需的時(shí)間這一方法能夠改善性能,是由于降低了因tRRD、tFAW和tRC內(nèi)存時(shí)序參數(shù)所導(dǎo)致延遲的概率::
tRC:內(nèi)存的行周期時(shí)間。這是觸發(fā)同一Bank中不同行所需的最小時(shí)間。
tRRD:行-行延遲。這是觸發(fā)不同Bank中不同行所需的最小時(shí)間。
tFAW:4激活窗口。該時(shí)序參數(shù)的含義是,在一個(gè)tFAW窗口內(nèi),不能發(fā)出4個(gè)以上的激活(active)命令。LPDDR4標(biāo)準(zhǔn)將其設(shè)為tRRD的4倍,因此,對(duì)于LPDDR4,它們實(shí)際上是相同的定時(shí)約束,對(duì)于其他內(nèi)存,可能會(huì)采用tRRD和tFAW之間的不同關(guān)系。
tRC定時(shí)會(huì)導(dǎo)致很多問(wèn)題,尤其是在更快的器件中更是如此。在LPDDR4的最高速度下,tRC時(shí)間超過(guò)100時(shí)鐘周期。當(dāng)在LPDDR4的最高速度下工作時(shí),觸發(fā)Bank中的某一行后,至少在100時(shí)鐘周期內(nèi),tRC會(huì)阻止訪問(wèn)該Bank中的其他行,這樣,就會(huì)在相當(dāng)長(zhǎng)的時(shí)間內(nèi)禁止再次使用該Bank。如果具有更多的可用Bank,會(huì)降低訪問(wèn)因tRC時(shí)間而鎖定的Bank中新行的訪問(wèn)概率。
tRRD和tFAW會(huì)限制頻繁更換存儲(chǔ)體Bank的能力,設(shè)計(jì)團(tuán)隊(duì)可能希望這樣做,以避開(kāi)tRC定時(shí)參數(shù)。
圖12顯示了1個(gè)器件示例,它具有4個(gè)激活窗口tFAW,具有4倍的行行延遲tRRD。在LPDDR4-3200中,tRRD時(shí)間可達(dá)16個(gè)時(shí)鐘周期。
?
圖12:tFAW和tRRD時(shí)序
在圖13中,顯示了在并行實(shí)施方案下執(zhí)行的連續(xù)傳輸序列。符號(hào)AC/BA0是Bank0觸發(fā)命令的代稱(chēng)。與其相鄰的命令RD/BA4指的是對(duì)Bank4的讀取命令(假定Bank4已在較早時(shí)間觸發(fā))。每一命令標(biāo)記代表4時(shí)鐘周期,原因在于LPDDR4器件的4相尋址特性。在實(shí)際應(yīng)用中,該序列會(huì)需要延長(zhǎng),這是因?yàn)樵诩せ睿ˋctive)之后會(huì)接著讀取、激活、讀取、激活、讀取、激活、讀取。數(shù)據(jù)返回,完全占用DQ總線,總線處于滿(mǎn)狀態(tài)。并行訪問(wèn)模式會(huì)利用100%的內(nèi)存帶寬,但僅在800MHZ(DDR1600)下訪問(wèn)器件時(shí)才能實(shí)現(xiàn)該點(diǎn)。
?
圖13:在BL16和800MHz/DDR1600上使用至旋轉(zhuǎn)地址的連續(xù)64字節(jié)讀取的并行實(shí)施
圖14中顯示了一種雙通道實(shí)施,其中執(zhí)行了相同的序列,獨(dú)立使用每一命令地址通道。每一命令地址總線的訪問(wèn)模式略有差異:激活、讀取、無(wú)操作、讀取、激活、讀取、無(wú)操作、讀取。命令通道中的空隙可用于其他方面,如設(shè)定的預(yù)充或按bank刷新,或簡(jiǎn)單地留作空閑時(shí)鐘周期。圖中數(shù)據(jù)總線已被完全占用。
?
圖14:在BL16和800MHz/DDR1600上使用至循環(huán)地址的連續(xù)64字節(jié)讀取、獨(dú)立使用命令地址的雙通道實(shí)施
將頻率加倍至1600 MHz(DDR 3200操作)(圖15)時(shí),tRRD時(shí)間會(huì)限制SOC的能力,允許在并行實(shí)施的上方示例中發(fā)送激活命令至LPDDR4器件。序列為:激活、讀取、無(wú)操作、無(wú)操作、激活、讀取、無(wú)操作、無(wú)操作。無(wú)操作周期可用于預(yù)充或刷新,但內(nèi)存的激活速度不足以就每一傳輸向新rank發(fā)送連續(xù)的64-bank傳輸。
?
圖15:頻率加倍至1600MHZ/DDR3200
當(dāng)沒(méi)有發(fā)向同一內(nèi)存頁(yè)的另一64字節(jié)傳輸時(shí),SOC必須等待,直至tRRD期滿(mǎn)并能再次在內(nèi)存中觸發(fā)新頁(yè)為止。如果傳輸?shù)臅r(shí)間不足以在移動(dòng)至新bank之前對(duì)每一bank進(jìn)行兩次讀取,該工作模式會(huì)將器件的最大性能限制在50%帶寬下。
與之相比,對(duì)于圖15下方的雙通道實(shí)施,由于“激活、讀取、無(wú)操作、讀取”模式,允許每一通道滿(mǎn)足tRRD的要求。即使在DDR 3200數(shù)據(jù)率下,總線帶寬也能工作在滿(mǎn)負(fù)荷下。
找出最小的塊提取大小
塊提取大小指的是可在一個(gè)DRAM事務(wù)(一次突發(fā)傳輸)中傳輸?shù)淖钚∽止?jié)數(shù)。由于LPDDR4的最小突發(fā)長(zhǎng)度為16,采用LPDDR4的并行連接可能使SoC具有不優(yōu)化的塊提取大小。
最佳方式是使提取大小與SOC匹配,不僅體現(xiàn)在通過(guò)總線傳輸?shù)膫鬏敶笮》矫?,也體現(xiàn)在器件的總帶寬方面。
對(duì)于很多SOC和CPU的緩存線,首選塊取大小是32字節(jié)。在偶爾情況下,一些較大的64位CPU使用64字節(jié)緩沖線。視頻和網(wǎng)絡(luò)傳輸通常需要32字節(jié)或更小的短字節(jié)傳輸。在理想情況下,多通道體系結(jié)構(gòu)應(yīng)與系統(tǒng)的提取大小匹配,以便將系統(tǒng)優(yōu)化至系統(tǒng)所能使用的提取大小。
在圖16顯示的并行實(shí)施方案中,LPPDDR4最小突發(fā)長(zhǎng)度為16,有64個(gè)的并行DQ引腳,塊提取大小為128字節(jié),它實(shí)際上僅適合于至連續(xù)地址的長(zhǎng)數(shù)據(jù)傳輸。對(duì)于每次以128字節(jié)為單位的訪問(wèn),并行實(shí)施方案能夠工作,然而,如果數(shù)據(jù)訪問(wèn)小于128字節(jié)且需訪問(wèn)隨機(jī)地址,那么并行實(shí)施方案的效率不高。
?
圖16:并行實(shí)施
對(duì)于64位并行實(shí)施方案,另一問(wèn)題是SOC和DRAM裸片之間的物理連接。LPDDR4 PoP封裝的管腳分配是每一角一個(gè)通道,使得封裝包上有4個(gè)通道以容納2或4個(gè)裸片。每一通道位于器件的每一角。在理想情況下,SOC內(nèi)存控制器和PHY布局應(yīng)與LPDDR4的管腳分配匹配。采用該布局,允許將通道A映射到通道A,通道B映射到通道B,C到C,D到D,使得LPDDR4 PoP封裝內(nèi)的路徑盡可能短,無(wú)交叉。該封裝布局還有助于并行4通道LPDDR4接口的物理實(shí)現(xiàn)。
用戶(hù)還應(yīng)注意傳輸是否訪問(wèn)內(nèi)存中的不同頁(yè),tRRD可能會(huì)限制較高頻率下的有效帶寬,如同前述部分中介紹的那樣。
正是由于這些原因,與4通道實(shí)施相比,設(shè)計(jì)者更傾向于選擇LPDDR4的多通道實(shí)施。
命令/地址總線
LPDDR4具有很窄的命令/地址總線(每通道僅6位寬,DDR4為20位或以上),因此,使用多個(gè)命令/地址通道的開(kāi)銷(xiāo)低于使用其他DDR類(lèi)型的開(kāi)銷(xiāo)。在LPDDR4封裝包上獨(dú)立使用所有4個(gè)命令/地址總線,能夠提供最大的靈活性,可能還會(huì)為整個(gè)系統(tǒng)提供最高性能。
LPDDR4 PoP的SOC分割
有多種適用于LPDDR4的SOC分割方式。圖17顯示了最簡(jiǎn)單的一種方式。這是一種同構(gòu)CPU體系結(jié)構(gòu),它具有4個(gè)CPU和4個(gè)通道。每一CPU具有自己的方式以訪問(wèn)自己的獨(dú)立通道。該體系結(jié)構(gòu)具有下述優(yōu)點(diǎn):CPU不會(huì)彼此屏蔽,SOC總線更短。可關(guān)閉未使用通道以便節(jié)省功耗。
?
圖17:LPDDR4.PoP的最簡(jiǎn)單SOC分割
然而,該體系結(jié)構(gòu)不夠靈活。如果通道A需使用通道C中的一些數(shù)據(jù),它無(wú)法將內(nèi)存當(dāng)作郵箱使用。必須通過(guò)SOC以某種方式傳輸數(shù)據(jù)。這還會(huì)使得CPU更難于執(zhí)行與負(fù)載平衡相關(guān)的共享任務(wù)。
另一方法是使每一CPU共享每一內(nèi)存(圖18)。這樣就能實(shí)現(xiàn)更加靈活的分割。對(duì)于異構(gòu)處理,它的工作表現(xiàn)更好,CPU能夠?qū)蚕頂?shù)據(jù)進(jìn)行處理,但需要更多和更長(zhǎng)的片上布線資源,這可能需要用到復(fù)雜的片上互聯(lián)系統(tǒng)。這樣就能更準(zhǔn)確地反映實(shí)際芯片的工作方式,尤其是對(duì)具有不同CPU、GPU和其他處理單元的異構(gòu)體系結(jié)構(gòu)而言。
?
圖18:共享通道,所有CPU共享所有內(nèi)存
邏輯至物理地址映射
多通道體系結(jié)構(gòu)提供了多種控制邏輯至物理地址映射的選擇。考慮如圖19所示的雙通道體系結(jié)構(gòu)。存在多種控制邏輯至物理地址映射的方式。最簡(jiǎn)單的方式是,雙通道存儲(chǔ)器映射到不同的SoC地址空間(圖19)。
?
圖19:使用分區(qū)內(nèi)存映射的邏輯至物理地址映射
例如,通道A可能會(huì)存放操作系統(tǒng),并保持始終在線、始終連通的功能。通道B可能包含應(yīng)用數(shù)據(jù),視頻緩沖和類(lèi)似數(shù)據(jù)。這兩個(gè)不同的地址空間獨(dú)立且分離。這有助于功耗控制,原因在于,通道B可在不使用時(shí)關(guān)閉。
另一方式是,采用較小的連續(xù)邏輯地址區(qū)訪問(wèn)內(nèi)存的不同通道(圖20),對(duì)內(nèi)存映射進(jìn)行交織處理。例如,通道A為字節(jié)0~63,通道B為字節(jié)64~127,以此類(lèi)推,直至遍及整個(gè)內(nèi)存空間。在整個(gè)內(nèi)存上對(duì)邏輯空間進(jìn)行交錯(cuò)處理。該方法有助于在2個(gè)不同通道上實(shí)現(xiàn)負(fù)載平衡,可實(shí)現(xiàn)良好性能。然而,由于始終需要兩個(gè)通道,無(wú)法關(guān)閉任一通道以降低功耗。
?
圖20:交錯(cuò)式內(nèi)存映射
更進(jìn)一步的實(shí)施方案是使用混合內(nèi)存映射(圖21),其中,每一通道中的不同區(qū)可提供交織式訪問(wèn)或非交織訪問(wèn)。該混合方法可能包含一個(gè)始終在線、始終連接的內(nèi)存區(qū),以便獲得最高性能而在2個(gè)通道之間交織的內(nèi)存區(qū),以及用于程序存儲(chǔ)的高地址內(nèi)存區(qū),這類(lèi)程序與高帶寬相關(guān)。
?
圖21:混合內(nèi)存映射
針對(duì)高性能、低功耗移動(dòng)SOC的Synopsys LPDDR4 IP解決方案
Synopsys完整的LPDDR4 IP解決方案包括1個(gè)內(nèi)嵌I/O的LPDDR4 multiPHY,增強(qiáng)型通用DDR內(nèi)存控制器(uMCTL2)和協(xié)議控制器(uPCTL2),驗(yàn)證IP,建模工具,以及IP硬化和信號(hào)完整性分析服務(wù)。IP完全支持LPDDR4標(biāo)準(zhǔn),并可靈活配置,以發(fā)揮上文所述的多通道體系結(jié)構(gòu)的優(yōu)點(diǎn)。
Synopsys DDR內(nèi)存控制器包含uMCTL2內(nèi)存控制器,它提供了與SOC的多端口或單端口連接??捎每偩€包括1~16端口的AXI3、AXI4或AHB。對(duì)于需要在內(nèi)存控制器之外做內(nèi)存?zhèn)鬏斦{(diào)度的系統(tǒng),我們提供了單端口協(xié)議控制器uPCTL2。
uMCTL2具有低延遲、高帶寬和強(qiáng)大的QOS特性,包括QOS驅(qū)動(dòng)的仲裁和高性能內(nèi)存調(diào)度算法。內(nèi)存控制中的低功耗功能具有自動(dòng)的特點(diǎn),允許設(shè)計(jì)團(tuán)隊(duì)將重心放在系統(tǒng)設(shè)計(jì)方面。他能夠支持包括DDR2、DDR3、DDR4、LPDDR2、LPDDR3和LPDDR4等多種內(nèi)存標(biāo)準(zhǔn)。對(duì)于車(chē)載應(yīng)用和其他高可靠性系統(tǒng),IP提供了多種可靠性、可用性、可服務(wù)性(RAS)特性。
面向LPDDR4的uMCTL2內(nèi)存控制器提供了一種基于CAM的調(diào)度架構(gòu),尤其針對(duì)2667-4266的數(shù)據(jù)率進(jìn)行了優(yōu)化,并支持多種地址映射機(jī)制,為不同使用模式和多內(nèi)存類(lèi)型的系統(tǒng)提供了高度靈活性。它具有自動(dòng)斷電功能,自刷新功能以及快速頻率轉(zhuǎn)換功能,支持自動(dòng)溫度監(jiān)測(cè)和刷新率調(diào)節(jié)。
結(jié)論
LPDDR4多通道規(guī)范為新穎的系統(tǒng)設(shè)計(jì)提供了新的機(jī)會(huì),尤其是多通道體系結(jié)構(gòu)可以改善系統(tǒng)性能。設(shè)計(jì)團(tuán)隊(duì)需要綜合考慮性能、功耗和設(shè)計(jì)復(fù)雜度來(lái)部署實(shí)施LPDDR4架構(gòu)。
評(píng)論
查看更多