0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ARM架構(gòu)和總線協(xié)議如何支持Linux原子操作?

Linux閱碼場 ? 來源:未知 ? 作者:易水寒 ? 2018-08-18 10:57 ? 次閱讀

這篇文章探討ARM架構(gòu)和總線協(xié)議如何來支持的。對于某款ARM處理器和總線CCI,CCN和CMN產(chǎn)品的具體實現(xiàn),屬于實現(xiàn)層面的微架構(gòu),一般需要NDA,這里不予討論。

順便提一下,在ARMv8 架構(gòu)下對應的是LDXR (load exclusive register 和STXR (store exclusiveregister)及其變種指令,另外,在ARMv8.1架構(gòu)中引入atomic instruction, 例如LDADD (Atomic add),CAS(Compare and Swap)等。

Exclusive monitor

首先,作為一個愛問為什么的工程師,一定會想到LDXR/ STXR和一般的LDR/STR有什么區(qū)別。這個區(qū)別就在于LDXR除了向memory發(fā)起load請求外,還會記錄該memory所在地址的狀態(tài)(一般ARM處理器在同一個cache line大小,也就是64 byte的地址范圍內(nèi)共用一個狀態(tài)),那就是Open和Exclusive。

我們可以認為一個叫做exclusive monitor的模塊來記錄。根據(jù)CPU訪問內(nèi)存地址的屬性(在頁表里面定義),這個組件可能在處理器 L1 memory system, 處理器cluster level, 或者總線,DDR controller上。

下面是Arm ARM架構(gòu) [1] 文檔定義的狀態(tài)轉(zhuǎn)換圖

實例說明:

1)CPU1發(fā)起了一個LDXR的讀操作,記錄當前的狀態(tài)為Exclusive

2)CPU2發(fā)起了一個LDXR的讀操作,當前的狀態(tài)為Exclusive,保持不變

3)CPU2發(fā)起了一個STXR的寫操作,狀態(tài)從Exclusive變成Open,同時數(shù)據(jù)回寫到DDR

4)CPU1發(fā)起了一個STXR的寫操作,因為當前的exclusive monitor狀態(tài)為Open,寫失?。偃绯绦蜻@時用STR操作來寫,寫會成功,但是這個不是原子操作函數(shù)的本意,屬于編程錯誤)

假如有多個CPU,同時對一個處于Exclusive的memory region來進行寫,CPU有內(nèi)部邏輯來保證串行化。

Monitor的狀態(tài)除了STXR會清掉,從Exclusive變成Open之外,還有其他因素也可以導致monitor的狀態(tài)被清掉,所以軟件在實現(xiàn)spinlock的時候,一般會用一個loop循環(huán)來實現(xiàn),所謂“spin”。

Exclusive monitor實現(xiàn)所處的位置

根據(jù)LDXR/STXR 訪問的memory的屬性,需要的monitor可以在CPU內(nèi)部,總線,也可以DDR controller(例如ARM DMC-400 [2]在每個memory interface 支持8個 exclusive access monitors)。

一般Memory屬性配置為 normal cacheable, shareable,這種情形下,CPU發(fā)起的exclusive access會終結(jié)在CPU cluster內(nèi)部,對外的表現(xiàn),比如cacheline fill和line eviction和正常的讀寫操作產(chǎn)生的外部行為是一樣的。具體實現(xiàn)上,需要結(jié)合local monitor的狀態(tài)管理和cache coherency 的處理邏輯,比如MESI/MOESI的cacheline的狀態(tài)管理來。

為方便大家理解,下面劃出一個monitor在一個假象SOC里面的邏輯圖(在一個真實芯片里面,不是所有monitor都會實現(xiàn),需要和SOC vendor確認)

External exclusive monitor

對于normal non-cacheable,或者Device類型的memory屬性的memory地址,cpu會發(fā)出exclusive access的AXI 訪問(AxLOCK signals )到總線上去,總線需要有對應的External exclusive monitor支持,否則會返回錯誤。例如, 假如某個SOC不支持外部global exclusivemonitor,軟件把MMU disabled的情況下,啟動SMP Linux,系統(tǒng)是沒法啟動起來的,在spinlock處會掛掉。

AMBA AXI/ACE 規(guī)范

The exclusive access mechanism can provide semaphore-type operations without requiring the bus to remain dedicated to a particular master for the duration of the operation. This means the semaphore-type operations do not impact either the bus access latency or the maximum achievable bandwidth.

The AxLOCK signals select exclusive access, and the RRESP and BRESP signals indicate the success or failure of the exclusive access read or write respectively.

The slave requires additional logic to support exclusive access. The AXI protocol provides a mechanism to indicate when a master attempts an exclusive access to a slave that does not support it.

Atomic指令的支持

處理器,支持cache coherency協(xié)議的總線,或者DDR controller可以增加了一些簡單的運算,比如,在讀寫指令產(chǎn)生的memory訪問的過程中一并把簡單的運算給做了。

AMBA 5 [3] 里面增加了對Atomic transactions的支持:

AMBA 5 introduces Atomic transactions, which perform more than just a single access, and have some form of operation that is associated with the transaction.

Atomic transactions are suited to situations where the data is located a significant distance from the agent that must perform the operation. Previously, performing an operation that is atomically required pulling the data towards the agent, performing the operation, and then pushing the result back.

Atomic transactions enable sending the operation to the data, permitting the operation to be performed closer to where the data is located.

The key advantage of this approach is that it reduces the amount of time during which the data must be made inaccessible to other agents in the system.

支持4種Atomic transaction:AtomicStore ,AtomicLoad,AtomicSwap 和AtomicCompare

QA

1) Local monitor和Global monitor的使用場景

* Local monitor適用于訪問的memory屬為normal cacheable, shareable或者non-shareable的情況.

* Global monitor ,準確來說,external global exclusive monitor (處理器之外,在外部總線上)用于normal noncacheable或者device memory類型。比如可以用于一個Cortex-A處理器和一個Cortex-M 處理器(沒有內(nèi)部cache)之間的同步。

2)多CPU下,多個LDREX,和STREX的排他性實現(xiàn)

* 各個處理器和總線的實現(xiàn)不同,可以從軟件上理解為和data coherency實現(xiàn)相結(jié)合,比如M(O)ESI協(xié)議[5],這是一種Invalidate-basedcache coherence protocol, 其中的key point就是當多個CPU在讀同一個cacheline的時候,在每個CPU的內(nèi)部cache里面都有cacheline allocation, cacheline的狀態(tài)會變成Shared;但是當某個CPU做寫的時候,會把其它CPU里面的cacheline數(shù)據(jù)給invalidate掉,然后寫自己的cacheline數(shù)據(jù),同時設(shè)置為Modified狀態(tài),從而保證了數(shù)據(jù)的一致性。

* LDREX,本質(zhì)上是一個LDR,CPU1做cache linefill,然后設(shè)置該line為E狀態(tài)(Exclusive),額外的一個作用是設(shè)置exclusive monitor的狀態(tài)為Exclusive;其他cpu做LDREX,該line也會分配到它的內(nèi)部cache里面,狀態(tài)都設(shè)置為Shared ,也會設(shè)置本CPU的monitor的狀態(tài)。當一個CPU 做STREX時候,這個Write操作會把其它CPU里面的cacheline數(shù)據(jù)給invalidate掉。同時也把monitor的狀態(tài)清掉,從Exclusive變成Open的狀態(tài),這個MESI協(xié)議導致cachline的狀態(tài)在多CPU的變化,是執(zhí)行Write操作一次性改變的。這樣在保證數(shù)據(jù)一致性的同時,也保證了montitor的狀態(tài)更新同步改變。

3)比如舉一個多核的場景,一個核ldrex了,如果本核的local monitor會發(fā)生什么,外部的global monitor發(fā)生什么,開不開mmu,cache不cache,區(qū)別和影響是什么。

Ldrex/strex本來就是針對多核的場景來設(shè)計的,local monitor的狀態(tài)發(fā)生改變,不會影響外部的global monitor狀態(tài)。但是external global monitor的狀態(tài)發(fā)生改變,可以告訴處理器,把local monitor的狀態(tài)清掉。

Data coherency是通過硬件來支持的。對于normal cacheable類型的memory, MMU和DCache必須使能,否則CPU會把exclusive類型的數(shù)據(jù)請求發(fā)出處理器,這時需要外部monitor的支持。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9121

    瀏覽量

    368247
  • Linux
    +關(guān)注

    關(guān)注

    87

    文章

    11327

    瀏覽量

    209966
  • 總線
    +關(guān)注

    關(guān)注

    10

    文章

    2894

    瀏覽量

    88222

原文標題:羅玉平: 關(guān)于ARM Linux原子操作的底層支持

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    X86和ARM中的指令集支持原子操作

    裸機開發(fā)與RTOS開發(fā)一個非常重要的區(qū)別在于多線程之間的消息傳遞和數(shù)據(jù)共享問題,然而在這中間變量的原子操作是一個非常重要的話題,不同的處理器架構(gòu)和編譯選項都可能生成不同的指令,從而影響到變量的
    發(fā)表于 07-06 16:10 ?1962次閱讀
    X86和<b class='flag-5'>ARM</b>中的指令集<b class='flag-5'>支持</b><b class='flag-5'>原子</b><b class='flag-5'>操作</b>

    工程師深談ARM+FPGA的設(shè)計架構(gòu)

    控制器等,在ARM端直接對相關(guān)的SPI通信控制器操作就可以了。而FPGA這一端可作為SPI從,按照SPI協(xié)議的時序?qū)懞脧脑O(shè)備接口,這個工作量沒有多大,所以相對都比較容易。[/url]另一種是數(shù)據(jù)量
    發(fā)表于 01-12 19:00

    ARM架構(gòu)是什么

    從單片機轉(zhuǎn)到ARM,主要需要學習ARM架構(gòu),ARM相比單片機多了一些外設(shè)和總線。在僅僅是裸奔的情況下,如果熟悉了
    發(fā)表于 07-01 09:23

    ARM架構(gòu)簡單介紹

    ARM架構(gòu)簡單介紹市場上成百上千種的 ARM 芯片,如果我們?nèi)タ此鼈兊膬?nèi)核,卻只有不多的幾種。從時間上來看,從1985年設(shè)計的 26 位地址總線的 ARMv1, 到 ARMv2, 一直
    發(fā)表于 12-06 07:29

    SOC芯片之互聯(lián)總線協(xié)議相關(guān)資料分享

    1、對APB總線的理解之前,說了片上互聯(lián)總線,但是光有總線可是不行的,還需要片上總線協(xié)議支持才行
    發(fā)表于 07-18 16:26

    設(shè)備仿真模擬軟件 QEMU 8.0 發(fā)布:改進對 ARM / RISC-V 架構(gòu)支持

    和 HPPA 平臺帶來各種新功能和改進。 QEMU (Quick Emulator)是業(yè)界主流的設(shè)備仿真模擬軟件之一,可以在一種架構(gòu)(如 X86 PC)的物理機上運行支持其它架構(gòu)操作
    發(fā)表于 05-05 09:48

    基于嵌入式系統(tǒng)異構(gòu)總線原子協(xié)議錐匹配

    針對異構(gòu)總線嵌入系統(tǒng)難以進行部件移植和接口互換問題,提出基于嵌入系統(tǒng)異構(gòu)總線原子協(xié)議錐匹配方法,分析接口協(xié)議
    發(fā)表于 04-20 08:50 ?15次下載

    Linux環(huán)境下實現(xiàn)ARM9的CAN總線通信

    Linux環(huán)境下實現(xiàn)ARM9的CAN總線通信 1.  引言CAN(Controller Area Network)總線最早是由德國BOSCH公司提出,實現(xiàn)汽車環(huán)境中的微控制
    發(fā)表于 11-02 15:06 ?1000次閱讀
    <b class='flag-5'>Linux</b>環(huán)境下實現(xiàn)<b class='flag-5'>ARM</b>9的CAN<b class='flag-5'>總線</b>通信

    手機支持Linux操作系統(tǒng)

    手機支持Linux操作系統(tǒng)   Linux系統(tǒng):Linux系統(tǒng)是一個源代碼開放的
    發(fā)表于 01-28 17:07 ?1836次閱讀

    ARM+Linux設(shè)計的CAN總線和MiniGUI的虛擬儀表

    ARM+Linux設(shè)計的CAN總線和MiniGUI的虛擬儀表技術(shù) 摘  要: 基于ARM+Linux架構(gòu),通過CAN總線獲得數(shù)
    發(fā)表于 05-06 17:24 ?1803次閱讀

    ARM架構(gòu)應用實例_操作系統(tǒng)

    ARM嵌入式應用程序架構(gòu)設(shè)計實例精講--ARM架構(gòu)應用實例03操作系統(tǒng)
    發(fā)表于 07-08 11:08 ?0次下載

    淺談鴻蒙內(nèi)核源碼的原子操作

    ARMv6架構(gòu)引入了LDREX和STREX指令,以支持對共享存儲器更縝密的非阻塞同步。由此實現(xiàn)的原子操作能確保對同一數(shù)據(jù)的“讀取-修改-寫入”操作
    的頭像 發(fā)表于 04-25 16:05 ?1290次閱讀
    淺談鴻蒙內(nèi)核源碼的<b class='flag-5'>原子</b><b class='flag-5'>操作</b>

    使用Linux原子操作實現(xiàn)互斥點燈

    Linux原子操作是指不能再進一步分割的操作,一般原子操作用于變量或者位
    的頭像 發(fā)表于 04-13 15:07 ?920次閱讀
    使用<b class='flag-5'>Linux</b><b class='flag-5'>原子</b><b class='flag-5'>操作</b>實現(xiàn)互斥點燈

    Emulex HBA CLI ARM架構(gòu)上的Linux發(fā)行說明

    電子發(fā)燒友網(wǎng)站提供《Emulex HBA CLI ARM架構(gòu)上的Linux發(fā)行說明.pdf》資料免費下載
    發(fā)表于 08-10 16:28 ?0次下載
    Emulex HBA CLI <b class='flag-5'>ARM</b><b class='flag-5'>架構(gòu)</b>上的<b class='flag-5'>Linux</b>發(fā)行說明

    arm架構(gòu)和x86架構(gòu)區(qū)別 linux是x86還是arm

    ARM架構(gòu)和x86架構(gòu)是兩種不同的計算機處理器架構(gòu),它們在體系結(jié)構(gòu)、指令集、應用領(lǐng)域等方面有著明顯的區(qū)別。Linux
    的頭像 發(fā)表于 01-30 13:46 ?1.9w次閱讀