国产黄色一级片,亚洲综合在线视频

做嵌入式系統(tǒng)軟件開發(fā)，經(jīng)常在代碼中看到各種各樣的對(duì)齊，很多時(shí)候我們都是知其然不知其所以然，知道要做好各種對(duì)齊，但是不明白為什么要對(duì)齊，不對(duì)齊會(huì)有哪些后果，這篇文章大概總結(jié)了內(nèi)存對(duì)齊的理由。

CPU體系結(jié)構(gòu)和MMU的要求

目前有一些RISC指令集的CPU不支持非對(duì)齊的內(nèi)存變量訪問操作，比如 MIPS/PowerPC/某些DSP等等，如果發(fā)生非對(duì)齊的內(nèi)存訪問，會(huì)產(chǎn)生unaligned exception 異常。

ARM指令集是從ARMv6(ARM11)開始支持非對(duì)齊內(nèi)存訪問的，以前老一點(diǎn)的ARM9的CPU也是不支持非對(duì)齊訪問的。ARM指令集支持的部分特性迭代如下:

盡管現(xiàn)代的ARMv7 ARMv8 指令集的Cortex-AXX系列CPU都支持非對(duì)齊內(nèi)存訪問，但是考慮到如下圖所示現(xiàn)代SOC芯片里面多種異構(gòu)CPU協(xié)調(diào)工作的情況，主CPU用于跑Linux/Android 操作系統(tǒng)的ARM64可以支持非對(duì)齊內(nèi)存訪問，但是SOC里面還有其它不知道體系結(jié)構(gòu)和版本的協(xié)CPU(可能是MIPS, ARM7，Cortex-R/M系列，甚至51單片機(jī)核)，這些協(xié)CPU都和主ARM64主CPU共享物理內(nèi)存的不同地址段，并且有自己的固件程序在內(nèi)存上運(yùn)行，所以在劃分地址空間的時(shí)候還是要注意內(nèi)存對(duì)齊的問題，尤其是考慮到這些協(xié)CPU可能不支持非對(duì)齊訪問，同樣在編寫協(xié)CPU固件程序的時(shí)候，也要清晰認(rèn)識(shí)到該CPU是否支持非對(duì)齊內(nèi)存訪問。

image.png

同樣在ARM的MMU虛擬地址管理中，也有內(nèi)存地址對(duì)齊的要求，下圖是ARM的MMU的工作原理和多級(jí)頁表(Translation Tables)的索引關(guān)系圖

ARM體系架構(gòu)的MMU要求

arm 32位體系結(jié)構(gòu)要求L1第一級(jí)頁表基地址（The L1 Translation Table Base Addr）對(duì)齊到16KB的地址邊界，L2第二級(jí)頁表地址（The L2 Translation Table Add）對(duì)齊到1KB的地址邊界。

ARM 64位體系結(jié)構(gòu)要求虛擬地址的第21-28位VA[28:21]對(duì)齊到64 KB granule，第16到20位VA[20:16]對(duì)齊到4 KB granule。

ARM 的Memory ordering特性中的不同Memory types對(duì)非對(duì)齊內(nèi)存訪問的支持的要求是不同的。下圖是ARM Memory ordering特性中三種不同的Memory types訪問規(guī)則

只有Normal Memory是支持非對(duì)齊內(nèi)存訪問的

Strongly-ordered 和 Device Memory不支持非對(duì)齊內(nèi)存訪問

對(duì)原子操作的影響

盡管現(xiàn)代的ARMv7 ARMv8 指令集的ARM CPU支持非對(duì)齊內(nèi)存訪問，但是非對(duì)齊內(nèi)存訪問是無法保證操作的原子性。下圖分別是一個(gè)變量在內(nèi)存對(duì)齊和非對(duì)齊的時(shí)候的內(nèi)存布局:

內(nèi)存對(duì)齊的變量訪問，使用單個(gè)通用的CPU寄存器暫存，一個(gè)內(nèi)存對(duì)齊的變量的讀寫操作能保證是單次原子操作.

非對(duì)齊的變量的內(nèi)存訪問是非原子操作，他們通常情況下訪問一個(gè)非對(duì)齊的內(nèi)存中的變量需要2次分別的對(duì)內(nèi)存進(jìn)行訪問，因而不能保證原子性，一旦發(fā)生2次分別內(nèi)存訪問，2次分別的訪問中間就有可能被異步事件打斷，造成變量改變，因而不能保證原子性。

ARM NEON的要求

現(xiàn)代ARM CPU一般都有一個(gè)NEON的協(xié)處理器，一般用在浮點(diǎn)計(jì)算中用來做SIMD并行矢量加速計(jì)算。下圖是NEON SIMD并行矢量計(jì)算的基本原理圖:

NEON本身是支持非對(duì)齊內(nèi)存訪問的

但是NEON訪問非對(duì)齊的內(nèi)存一般會(huì)有2個(gè)指令周期的時(shí)間penalty

通常情況下，為了靈活應(yīng)用NEON的并行計(jì)算特性，在做SIMD并行矢量加速運(yùn)算時(shí)，我們要根據(jù)NEON寄存器的Lane的bits數(shù)對(duì)齊相應(yīng)的變量。如果是配置成8-bits的計(jì)算，就做8-bits對(duì)齊，如果是16-bits計(jì)算，就做16-bits對(duì)齊，以此類推，NEON的并行矢量計(jì)算的lane根據(jù)spec手冊，有各種靈活配置的方法。

對(duì)性能perf的影響

通常而言，盡管現(xiàn)代的ARM CPU已經(jīng)支持非對(duì)齊內(nèi)存的訪問，但是ARM訪問非對(duì)齊的內(nèi)存地址還是會(huì)造成明顯的性能下降。因?yàn)樵L問一個(gè)非對(duì)齊的內(nèi)存，需要增加多次load/store內(nèi)存變量次數(shù)，進(jìn)而增加了程序運(yùn)行的指令周期

才有perf工具進(jìn)行性能分析，能看到非對(duì)齊內(nèi)存訪問的性能下降，在perf工具中有一個(gè)alignment-faults的事件，可以觀察程序訪問非對(duì)齊內(nèi)存的事件統(tǒng)計(jì)

cache line 對(duì)齊

除了通常所講的根據(jù)CPU訪問內(nèi)存的地址位數(shù)的內(nèi)存對(duì)齊之外，在程序優(yōu)化的時(shí)候，還要考慮到cache存在的情況，根據(jù)cache line的長度來對(duì)齊你的訪問變量。

cache和cache line的結(jié)構(gòu)原理圖如下(其中圖2從該文章引用自: cenalulu)，cache line是cache和內(nèi)存進(jìn)行數(shù)據(jù)傳輸?shù)淖钚挝唬话鉩ache都是以cache line的長度一次讀寫內(nèi)存中的映射地址。

在ARM 系列的CPU中，不同型號(hào)的ARM CPU的cache line長度是不一樣的，因此同樣是基于ARM平臺(tái)的CPU，從A平臺(tái)移植優(yōu)化過的程序到B平臺(tái)時(shí)，一定要注意不同CPU的cache line大小是否一致，是否要重新調(diào)整cache line對(duì)齊優(yōu)化。下圖是ARMv7幾款公版CPU的cache line的資料手冊，ARMv8 64位的公版CPU(A53, A57, A72, A73)目前的cache line大小都是64 bytes, 但是各家公司基于公版ARM的定制版CPU的cache line大小可能有差異，一定要參考相關(guān)TRM手冊進(jìn)行調(diào)整、對(duì)齊、優(yōu)化.

下圖是一個(gè)例子關(guān)于未做cache line對(duì)齊的情況下，進(jìn)行內(nèi)存讀寫性能抖動(dòng)的例子，引用自cenalulu.測試代碼如下程序的大意，對(duì)不同大小的數(shù)組進(jìn)行1億次讀寫操作，統(tǒng)計(jì)不同數(shù)組size時(shí)的讀寫時(shí)間。從測試的結(jié)果可以看出，當(dāng)數(shù)組大小小于cache line size時(shí)，讀寫時(shí)間基本變化不大，當(dāng)數(shù)組大小剛剛超過cache line size的時(shí)候，讀寫時(shí)間發(fā)生了劇烈的抖動(dòng)。這是因?yàn)槌^cache line 大小的數(shù)組元素可能沒有提前預(yù)讀到cache line中，在訪問完cache line中的數(shù)組元素之后，要重新從內(nèi)存讀取數(shù)據(jù)，刷新cache line，因而產(chǎn)生了性能抖動(dòng)。通過這個(gè)例子告訴我們，充分利用系統(tǒng)cache特性，根據(jù)cache line對(duì)齊你的數(shù)據(jù)，保證程序訪問的局部數(shù)據(jù)都在一個(gè)cache line中可以提升系統(tǒng)性能。

#include"stdio.h"
#include
#include

longtimediff(clock_tt1,clock_tt2){
longelapsed;
elapsed=((double)t2-t1)/CLOCKS_PER_SEC*1000;
returnelapsed;
}

intmain(intargc,char*argv[])
#*******
{

intarray_size=atoi(argv[1]);
intrepeat_times=1000000000;
longarray[array_size];
for(inti=0;i

	
image.jpg

	

	

	沒有對(duì)齊到同一個(gè)cache line中的變量，在多核SMP系統(tǒng)中，cross cache line操作是非原子操作，存在篡改的風(fēng)險(xiǎn)。該例子引用自kongfy)測試代碼如下，程序大意是，系統(tǒng)cpu的cache line是64字節(jié)，一個(gè)68字節(jié)的結(jié)構(gòu)體struct data， 其中前面填充60字節(jié)的pad[15]數(shù)組，最后一個(gè)8字節(jié)的變量v, 這樣結(jié)構(gòu)體大小超過了64字節(jié)，最后一個(gè)變量v的前后部分可定不在同一個(gè)cache line中，整個(gè)結(jié)構(gòu)體沒法根據(jù)cache line對(duì)齊。全局變量value.v初始值是0， 程序開多線程，對(duì)全局變量value.v進(jìn)行多次~位取反操作，直覺上最后結(jié)果value.v的位結(jié)果不是全0就是全1，但是最后value.v的位結(jié)果居然是一半1一半0， 這就是由于cross cache line 操作是非原子性的，導(dǎo)致一個(gè)線程對(duì)value.v前半部分取反的時(shí)候，另外的線程對(duì)后半部分在另一個(gè)cache line同時(shí)取反，然后前一個(gè)線程再對(duì)另一個(gè)cache line的value.v后半部分取反，導(dǎo)致和直覺不一致。

	

	
#include
#include
#include
#include

usingnamespacestd;

staticconstint64_tMAX_THREAD_NUM=128;

staticint64_tn=0;
staticint64_tloop_count=0;

#pragmapack(1)
structdata
{
int32_tpad[15];
int64_tv;
};
#pragmapack()

staticdatavalue__attribute__((aligned(64)));
staticint64_tcounter[MAX_THREAD_NUM];

voidworker(int*cnt)
{
for(int64_ti=0;i
",argv[0]);
exit(1);
}

/*Parseargument*/
n=min(atol(argv[1]),MAX_THREAD_NUM);
loop_count=atol(argv[2]);/*Don'tbotherwithformatchecking*/

/*Startthethreads*/
for(int64_ti=0L;i

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

ARM

ARM

+關(guān)注

關(guān)注
134

文章
9094

瀏覽量
367540
嵌入式系統(tǒng)

嵌入式系統(tǒng)

+關(guān)注

關(guān)注
41

文章
3593

瀏覽量
129466
內(nèi)存

內(nèi)存

+關(guān)注

關(guān)注
8

文章
3025

瀏覽量
74042

原文標(biāo)題：【內(nèi)存管理】ARM嵌入式系統(tǒng)為什么要做內(nèi)存對(duì)齊

文章出處：【微信號(hào)：嵌入式與Linux那些事，微信公眾號(hào)：嵌入式與Linux那些事】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評(píng)論

相關(guān)推薦

Linux內(nèi)核內(nèi)存回收對(duì)嵌入式系統(tǒng)的重要性

嵌入式系統(tǒng)的內(nèi)存回收還是比較重要的，因?yàn)檫@塊涉及到程序運(yùn)行性能。

發(fā)表于 07-14 09:25 ?1726次閱讀

嵌入式的重要性

器那么復(fù)雜，但計(jì)算機(jī)系統(tǒng)的各種組成一樣也不缺。因此，以嵌入式系統(tǒng)作為切入點(diǎn)開始學(xué)習(xí)軟件技術(shù)是非常好的選擇，避開不必要的復(fù)雜性，把握計(jì)算機(jī)系統(tǒng)

發(fā)表于 05-13 10:12

Reset對(duì)系統(tǒng)穩(wěn)定性有什么重要性？

嵌入式系統(tǒng)的應(yīng)用領(lǐng)域越來越廣泛，干擾或者惡劣環(huán)境常影響嵌入式系統(tǒng)運(yùn)行的穩(wěn)定性和可靠性。Reset是維護(hù)系

發(fā)表于 03-11 07:53

Linux對(duì)嵌入式的重要性

最近遇到很多處于迷茫中的就業(yè)者，在糾結(jié)要不要從事嵌入式這個(gè)行業(yè)，主要問題在于嵌入式這個(gè)行業(yè)對(duì)求職者的專業(yè)技能要求是非常高的，但是現(xiàn)在嵌入式開發(fā)行業(yè)的確發(fā)展很好，很多的行業(yè)都是需要用

發(fā)表于 10-27 07:00

嵌入式軟件的重要性

效率的重要工作。目前，裝備嵌入式軟件的自動(dòng)化測試，更多的還是依賴代碼級(jí)別的白盒測試工具；黑盒動(dòng)態(tài)測試還主要是根據(jù)不同的裝備需求，研發(fā)配套的工裝系統(tǒng)，測試效率和測試深度都有很大缺陷。主要表現(xiàn)在以下幾點(diǎn)：...

發(fā)表于 10-27 06:59

嵌入式技術(shù)的重要性

、汽車電子、娛樂中的機(jī)器人，無不采用嵌入式技術(shù)。在通訊、網(wǎng)絡(luò)、工控、醫(yī)療、電子等領(lǐng)域，嵌入式發(fā)揮著越來越重要的作用。在百度搜索“嵌入式”、“

發(fā)表于 11-08 09:28

ARM嵌入式系統(tǒng)為什么要對(duì)齊？不對(duì)齊會(huì)有哪些后果

這里寫自定義目錄標(biāo)題做嵌入式系統(tǒng)軟件開發(fā)，經(jīng)常在代碼中看到各種各樣的對(duì)齊，很多時(shí)候我們都是知其然不知其所以然，知道要做好各種對(duì)齊，但是不明白為什么要

發(fā)表于 12-14 09:09

使用memtester工具對(duì)嵌入式Linux內(nèi)存壓力進(jìn)行測試

存儲(chǔ)器等。內(nèi)存是將外存與CPU連接起來的橋梁，計(jì)算機(jī)中所有數(shù)據(jù)都需經(jīng)過內(nèi)存進(jìn)行交互，而且所有應(yīng)用程序都運(yùn)行在內(nèi)存中。可見，內(nèi)存的

發(fā)表于 12-15 06:29

編程在嵌入式中的重要性

嵌入式小白入門博客時(shí)間總是不等人，轉(zhuǎn)眼間自己都已經(jīng)是一名研一的學(xué)生了，回想起自己過去本科的學(xué)習(xí)，講實(shí)話根本是無規(guī)律可循，可以說自己大學(xué)四年在編程這塊都沒有用心去系統(tǒng)的學(xué)習(xí)過，當(dāng)然這也和自己是控制專業(yè)

發(fā)表于 12-17 06:32

虛擬內(nèi)存對(duì)內(nèi)存申請的重要性

內(nèi)存申請接口返回的內(nèi)存可以直接使用, 正確性由操作系統(tǒng)/平臺(tái)來保證，沒必要判斷返回結(jié)果。答案：錯(cuò)誤在嵌入式

發(fā)表于 12-17 06:30

嵌入式系統(tǒng)內(nèi)存管理方案研究

摘要：嵌入式系統(tǒng)的內(nèi)存管理機(jī)制必須滿足實(shí)時(shí)性和可靠性的要求。本文以開源的的操作系統(tǒng)RTEMS

發(fā)表于 05-24 23:57 ?1157次閱讀

Reset對(duì)嵌入式系統(tǒng)穩(wěn)定性的重要性分析

嵌入式系統(tǒng) 的應(yīng)用領(lǐng)域越來越廣泛，干擾或者惡劣環(huán)境常影響嵌入式系統(tǒng)運(yùn)行的穩(wěn)定性和可靠性。 Reset 是維護(hù)

發(fā)表于 02-07 09:04 ?2207次閱讀

嵌入式系統(tǒng)的內(nèi)存指針操作

到處理器的內(nèi)存空間中。在x86系統(tǒng)中，分為內(nèi)存和I/O映射兩種內(nèi)存；在ARM體系

發(fā)表于 08-27 11:33 ?6207次閱讀

ARM嵌入式系統(tǒng)

一、常見的ARM嵌入式系統(tǒng)開發(fā)環(huán)境配置：1、編譯器/匯編器2、指令系統(tǒng)模擬器3、在線仿真器或調(diào)試探測器4、目標(biāo)開發(fā)板5、跟蹤捕捉儀6、嵌入式

發(fā)表于 10-20 18:20 ?6次下載

RAM測試是什么？嵌入式系統(tǒng)開發(fā)中RAM測試的重要性

嵌入式系統(tǒng)在眾多關(guān)鍵應(yīng)用中發(fā)揮著至關(guān)重要的作用，涵蓋汽車和航空航天工業(yè)到醫(yī)療設(shè)備和工業(yè)控制系統(tǒng)領(lǐng)域。隨著嵌入式

發(fā)表于 07-28 11:11 ?2393次閱讀