久久精品久久久久久,最新国产小视频在线播放,高潮迭起av乳颜射后入

本文簡(jiǎn)介：

內(nèi)核死鎖問(wèn)題一般是讀寫(xiě)鎖(rw_semaphore)和互斥鎖(mutex)引起的，本文主要講如何通過(guò)ramdump+crash工具來(lái)分析這類(lèi)死鎖問(wèn)題。

0、背景知識(shí)點(diǎn)

ramdump是內(nèi)存轉(zhuǎn)存機(jī)制，我們可以在某個(gè)時(shí)刻把系統(tǒng)的內(nèi)存轉(zhuǎn)存到一個(gè)文件中，然后與符號(hào)信息(vmlinux)一起導(dǎo)入到trace32或crash等內(nèi)存分析工具中做離線分析。是分析崩潰、死鎖、內(nèi)存泄露等內(nèi)核疑難問(wèn)題的重要調(diào)試手段。

crash是用于解析ramdump的開(kāi)源工具(http://people.redhat.com/anderson/)，是命令行式的交互模式，提供諸多功能強(qiáng)大的調(diào)試命令，是分析定位內(nèi)核復(fù)雜問(wèn)題的利器。

死鎖是指兩個(gè)或兩個(gè)以上的執(zhí)行流在執(zhí)行過(guò)程中，由于競(jìng)爭(zhēng)鎖資源而造成的一種阻塞的現(xiàn)象。如圖：

1、問(wèn)題描述

在Android7.1系統(tǒng)中跑monkey時(shí)出現(xiàn)界面卡死現(xiàn)象：

1)沒(méi)有任何刷新，所有輸入事件無(wú)效，包括電源鍵

2)watchdog沒(méi)有重啟system_server

3)可以連adb，但ps等調(diào)試命令卡住

2、初步分析

由于無(wú)法直接用adb調(diào)試，用長(zhǎng)按電源鍵的方式進(jìn)入dump模式并導(dǎo)出ramdump文件，之后再用crash工具載入randump文件開(kāi)始離線分析。

一般卡死時(shí)可能是因?yàn)楹诵木€程處在UNINTERRUPTIBLE狀態(tài)，所以先在crash環(huán)境下用ps命令查看手機(jī)中UNINTERRUPTIBLE狀態(tài)的線程，參數(shù)-u可過(guò)濾掉內(nèi)核線程：

bt命令可查看某個(gè)線程的調(diào)用棧，我們看一下上面UN狀態(tài)的最關(guān)鍵的watchdog線程：

從調(diào)用棧中可以看到proc_pid_cmdline_read()函數(shù)中被阻塞的，對(duì)應(yīng)的代碼為：

這里是要獲取被某個(gè)線程mm的mmap_sem鎖，而這個(gè)鎖又被另外一個(gè)線程持有。

3、推導(dǎo)讀寫(xiě)鎖

要想知道哪個(gè)線程持有了這把鎖，我們得先用匯編推導(dǎo)出這個(gè)鎖的具體值?？捎胐is命令看一下proc_pid_cmdline_read()的匯編代碼：

0xffffff99a680aaa0處就是調(diào)用down_read()的地方，它的第一個(gè)參數(shù)x0就是sem鎖，如：

x0和x28寄存器存放的就是sem的值，那x21自然就是mm_struct的地址了，因?yàn)閙m_struct的mmap_sem成員的offset就是104（0x68），用whatis命令可以查看結(jié)構(gòu)體的聲明，如：

因此我們只需要知道x21或者x28就知道m(xù)m和mmap_sem鎖的值。

函數(shù)調(diào)用時(shí)被調(diào)用函數(shù)會(huì)在自己的棧幀中保存即將被修改到的寄存器，所以我們可以在down_read()及它之后的函數(shù)調(diào)用中找到這兩個(gè)寄存器：

也就是說(shuō)下面幾個(gè)函數(shù)中，只要找到用到x21或x28，必然會(huì)在它的棧幀中保存這些寄存器。

先從最底部的down_read()開(kāi)始找：

顯然它沒(méi)有用到x21或x28，繼續(xù)看rwsem_down_read_failed()的匯編代碼：

在這個(gè)函數(shù)中找到x21，它保存在rwsem_down_read_failed棧幀的偏移32字節(jié)的位置。

rwsem_down_read_failed()的sp是0xffffffd6d9e4bcb0

sp + 32 =0xffffffd6d9e4bcd0，用rd命令查看地址0xffffffd6d9e4bcd0中存放的x21的值為：

用struct命令查看這個(gè)mm_struct：

這里的owner是mm_struct所屬線程的task_struct：

sem鎖的地址為0xffffffd76e349a00+0x68= 0xffffffd76e349a68，因此：

分析到這里我們知道watchdog線程是在讀取1651線程的proc節(jié)點(diǎn)時(shí)被阻塞了，原因是這個(gè)進(jìn)程的mm，它的mmap_sem鎖被其他線程給拿住了，那到底是誰(shuí)持了這把鎖呢？

4、持讀寫(xiě)鎖的線程

帶著問(wèn)題我們繼續(xù)分析，首先通過(guò)list命令遍歷wait_list來(lái)看一下共有多少個(gè)線程在等待這個(gè)讀寫(xiě)鎖：

從上面的輸出可以看到一共有2個(gè)寫(xiě)者和有17個(gè)讀者在等待，這19個(gè)線程都處于UNINTERRUPTIBLE狀態(tài)。

再回顧一下當(dāng)前系統(tǒng)中所有UNINTERRUPTIBLE狀態(tài)的線程:

其中除標(biāo)注紅顏色的5個(gè)線程外的19個(gè)線程，都是上面提到的等待讀寫(xiě)鎖的線程。當(dāng)持鎖線程是寫(xiě)者，我們可以通過(guò)rw_semaphore結(jié)構(gòu)的owner找到持鎖線程?？上н@里owner是0，這表示持鎖者是讀者線程，因此我們無(wú)法通過(guò)owner找到持鎖線程。這種情況下可以通過(guò)search命令加-t參數(shù)從系統(tǒng)中所有的線程的棧空間里查找當(dāng)前鎖：

一般鎖的值都會(huì)保存在寄存器中，而寄存器又會(huì)在子函數(shù)調(diào)用過(guò)程中保存在棧中。所以只要在棧空間中找到當(dāng)前鎖的值（0xffffffd76e349a68），那這個(gè)線程很可能就是持鎖或者等鎖線程

這里搜出的20個(gè)線程中19個(gè)就是前面提到的等鎖線程，剩下的1個(gè)很可能就是持鎖線程了：

查看這個(gè)線程的調(diào)用棧：

由于2124線程中存放鎖的地址是0xffffffd6d396b8b0，這個(gè)是在handle_mm_fault()的棧幀范圍內(nèi)，因此可以推斷持鎖的函數(shù)應(yīng)該是在handle_mm_fault()之前。

我們先看一下do_page_fault函數(shù)：

代碼中確實(shí)是存在持mmap_sem的地方，并且是讀者，因此可以確定是2124持有的讀寫(xiě)鎖阻塞了watchdog在內(nèi)的19個(gè)線程。

接下來(lái)我們需要看一下2124線程為什么會(huì)持鎖后遲遲不釋放就可以了，但在這之前我們先看一下system_server的幾個(gè)UNINTERRUPTIBLE狀態(tài)的線程阻塞的原因。

5、其他被阻塞的線程（互斥鎖的推導(dǎo)）

先看一下ActivityManager線程：

通過(guò)調(diào)用棧能看到是在binder_alloc_new_buf時(shí)候被掛起的，我們得先找出這個(gè)鎖的地址。

首先從mutex_lock()函數(shù)入手：

從它的聲明中可以看到它的參數(shù)只有1個(gè)，就是mutex結(jié)構(gòu)體指針。

再看看mutex_lock函數(shù)的實(shí)現(xiàn)：

mutex_lock的第一個(gè)參數(shù)x0就是我們要找的struct mutex，在0xffffff99a74e1648處被保存在x19寄存器中,接著在0xffffff99a74e1664處調(diào)用了__mutex_lock_slowpath()，因此我們可以在__mutex_lock_slowpath()中查找x19：

由于__mutex_lock_slowpath()的sp是0xffffffd75ca379a0：

因此x19的值保存在0xffffffd75ca379a0+ 16 = 0xffffffd75ca379b0

我們要找的mutex就是0xffffffd6dfa02200：

其中owner就是持有該所的線程的task_struct指針。它的pid為：

查看這個(gè)線程的調(diào)用棧：

這個(gè)3337線程就是前面提到的被讀寫(xiě)鎖鎖住的19個(gè)線程之一。

用同樣的方法可找到audioserver的1643線程、system_server的1909、2650線程也都是被這個(gè)3337線程持有的mutex鎖給阻塞的。

總結(jié)起來(lái)的話：1)一共有4個(gè)線程在等待同一個(gè)mutex鎖，持鎖的是3337線程2)包括3337的19個(gè)線程等待著同一個(gè)讀寫(xiě)鎖，持鎖的是2124線程。

也就是說(shuō)大部分的線程都是直接或者間接地被2124線程給阻塞了。

6、死鎖

最后一個(gè)UNINTERRUPTIBLE狀態(tài)的線程就是2767(sdcard)線程：

可以看出2124線程是等待fuse的處理結(jié)果，而我們知道fuse的請(qǐng)求是sdcard來(lái)處理的。

這很容易聯(lián)想到2124的掛起可能跟2767(sdcard)線程有關(guān)，但2124線程是在做read請(qǐng)求，而2767線程是在處理open請(qǐng)求時(shí)被掛起的。

就是說(shuō)sdcard線程并不是在處理2124線程的請(qǐng)求，不過(guò)即使這種情況下sdcard線程依然能阻塞2124線程。因?yàn)閷?duì)于一個(gè)APP進(jìn)程來(lái)說(shuō)，只會(huì)有一個(gè)特定的sdcard線程服務(wù)于它，如果同一個(gè)進(jìn)程的多線程sdcard訪問(wèn)請(qǐng)求，sdcard線程會(huì)串行的進(jìn)行處理。

如果前一個(gè)請(qǐng)求得不到處理，那后來(lái)的請(qǐng)求都會(huì)被阻塞。跟之前mutex鎖的推導(dǎo)方法一樣，得2767線程等待的mutex鎖是0xffffffd6948f4090，

它的owner的task和pid為：

先通過(guò)bt命令查找2124的棧范圍為0xffffffd6d396b4b0～0xffffffd6d396be70：

從棧里面可以找到mutex：

mutex值在ffffffd6d396bc40這個(gè)地址上找到了，它是在__generic_file_write_iter的棧幀里。

那可以肯定是在__generic_file_write_iter之前就持鎖了，并且很可能是ext4_file_write_iter中，查看其源碼：

這下清楚了，原來(lái)2124在等待2767處理fuse請(qǐng)求，而2767又被2124線程持有的mutex鎖給鎖住了，也就是說(shuō)兩個(gè)線程互鎖了。

本文只限于介紹如何定位死鎖問(wèn)題，至于如何解決涉及到模塊的具體實(shí)現(xiàn)，由于篇幅的關(guān)系這里就不再贅述了。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

Linux

Linux

+關(guān)注

關(guān)注
87

文章
11312

瀏覽量
209713

原文標(biāo)題：樸英敏：用crash工具分析Linux內(nèi)核死鎖的一次實(shí)戰(zhàn)

文章出處：【微信號(hào)：LinuxDev，微信公眾號(hào)：Linux閱碼場(chǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

Linux內(nèi)核開(kāi)發(fā)工具介紹

進(jìn)行嵌入式Linux產(chǎn)品開(kāi)發(fā)，往往需要對(duì)內(nèi)核進(jìn)行裁剪和定制，以滿足嵌入式產(chǎn)品的功能和性能需求。本文介紹幾種閱讀Linux內(nèi)核源碼的工具和方法

發(fā)表于 12-29 15:20 ?4713次閱讀

<b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>開(kāi)發(fā)<b class='flag-5'>工具</b>介紹

一款隨Linux內(nèi)核代碼維護(hù)的性能診斷工具

Perf Event 是一款隨 Linux 內(nèi)核代碼一同發(fā)布和維護(hù)的性能診斷工具，由內(nèi)核社區(qū)維護(hù)

發(fā)表于 04-06 09:23 ?7632次閱讀

<b class='flag-5'>一</b>款隨<b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>代碼維護(hù)的性能診斷<b class='flag-5'>工具</b>

一文詳解Linux內(nèi)核源碼組織結(jié)構(gòu)

概要：本文內(nèi)容包含Linux源碼樹(shù)結(jié)構(gòu)分析、Linux Makefile分析、Kconfig文件分析、L

發(fā)表于 05-10 19:28 ?5773次閱讀

Linux內(nèi)核開(kāi)發(fā)工具介紹

接觸到Linux內(nèi)核代碼的開(kāi)發(fā)人員，都有無(wú)從下手的感覺(jué)。下面推薦幾個(gè)源碼閱讀和索引工具，能為后續(xù)內(nèi)核開(kāi)發(fā)提供一些便利。1、Source In

發(fā)表于 01-06 17:20

Linux內(nèi)核源碼之我見(jiàn)——內(nèi)核源碼的分析方法

，還是系統(tǒng)啟動(dòng)的代碼等等。內(nèi)核的龐大決定著我們不能一次性將內(nèi)核代碼全部分析完成，因此我們需要給自己一個(gè)合理的分工。正如算法設(shè)計(jì)告訴我們的，要

發(fā)表于 05-11 07:00

linux系統(tǒng)異常重啟，如何獲取最后一次啟動(dòng)日志并分析異常？

親愛(ài)的 NXP IMX8 支持團(tuán)隊(duì)。 linux系統(tǒng)異常重啟，如何獲取最后一次啟動(dòng)日志并分析異常？

發(fā)表于 06-08 07:21

一次網(wǎng)絡(luò)“抖動(dòng)”分析

一次網(wǎng)絡(luò)抖動(dòng)分析:

發(fā)表于 03-21 15:10 ?35次下載

linux內(nèi)核啟動(dòng)內(nèi)核解壓過(guò)程分析

linux啟動(dòng)時(shí)內(nèi)核解壓過(guò)程分析，一份不錯(cuò)的文檔，深入了解內(nèi)核必備

發(fā)表于 03-09 13:39 ?1次下載

基于Linux 2.6內(nèi)核Makefile分析

基于2.4內(nèi)核的，可以說(shuō)關(guān)于2.6內(nèi)核Makefile相關(guān)的文章鳳毛麟角，筆者抽時(shí)間完成了這篇分析文章，讓讀者迅速熟悉Linux最新Makefile體系，從而加深對(duì)

發(fā)表于 09-18 19:09 ?0次下載

關(guān)于Linux 2.6內(nèi)核Makefile的分析

的介紹文章都是基于2.4內(nèi)核的，可以說(shuō)關(guān)于2.6內(nèi)核Makefile相關(guān)的文章鳳毛麟角，筆者抽時(shí)間完成了這篇分析文章，讓讀者迅速熟悉Linux最新Makefile體系，從而加深對(duì)

發(fā)表于 11-02 10:12 ?1次下載

你知道perf學(xué)習(xí)-linux自帶性能分析工具怎么用？

Linux性能調(diào)優(yōu)工具，32內(nèi)核以上自帶的工具，軟件性能分析。在2.6.31及后續(xù)版本的linux

發(fā)表于 05-16 14:54 ?2600次閱讀

Linux內(nèi)核GPIO操作函數(shù)的詳解分析

本文檔的主要內(nèi)容詳細(xì)介紹的是Linux內(nèi)核GPIO操作函數(shù)的詳解分析免費(fèi)下載。

發(fā)表于 01-22 16:58 ?28次下載

Linux內(nèi)核死鎖lockdep功能

的編程思路，也不可能避免會(huì)發(fā)生死鎖。在Linux內(nèi)核中，常見(jiàn)的死鎖有如下兩種：遞歸死鎖：如在中斷延遲操作中使用了鎖，和外面的鎖構(gòu)成了遞歸

發(fā)表于 09-27 15:13 ?729次閱讀

Linux內(nèi)核實(shí)際項(xiàng)目中的死鎖

實(shí)際項(xiàng)目中的死鎖下面的例子要復(fù)雜一些，這是從實(shí)際項(xiàng)目中抽取出來(lái)的死鎖，更具有代表性。 # include # include # include # include # include

發(fā)表于 09-27 15:24 ?781次閱讀

基波是一次諧波么基波與一次諧波的區(qū)別

基波是一次諧波么基波與一次諧波的區(qū)別? 基波和一次諧波是兩個(gè)不同的概念。基波是在諧波分析中指的是頻率最低且沒(méi)有任何諧波成分的波形，它是構(gòu)成復(fù)雜波形的基礎(chǔ)。在正弦波中，基波就是正弦波

發(fā)表于 04-08 17:11 ?7838次閱讀