0x0. 前言

這篇文章主要是填一下 MLC-LLM 部署RWKV World系列模型實(shí)戰(zhàn)（3B模型Mac M2解碼可達(dá)26tokens/s）這里留下來(lái)的坑，這篇文章里面介紹了如何使用 MLC-LLM 在A100/Mac M2上部署 RWKV 模型。但是探索在Android端部署一個(gè)RWKV對(duì)話模型的app時(shí)卻碰到了諸多問(wèn)題，解決的周期也很長(zhǎng)，之前留了issue在MLC-LLM的repo，這周@chentianqi大佬回復(fù)說(shuō)之前編譯出的app會(huì)在模型初始化階段卡住的問(wèn)題已經(jīng)解決了，所以我又重新開(kāi)始踩了一些坑最終完成了在手機(jī)上運(yùn)行RWKV World4 3B模型的目的。這里把踩的坑和Android編譯方法都描述一下。

我這里編譯了一個(gè)RWKV4 World 3B模型的權(quán)重int4量化版本的apk，地址為：https://github.com/BBuf/run-rwkv-world-4-in-mlc-llm/releases/download/v1.0.0/app-debug.apk 。感興趣的小伙伴可以下載這個(gè)apk到android手機(jī)上來(lái)運(yùn)行，需要注意的是由于要在線拉取HuggingFace的權(quán)重，所以手機(jī)上需要可以訪問(wèn)HuggingFace需要代理。

在我的Redmik50手機(jī)上進(jìn)行測(cè)試，效果和速度如下：

每一秒大概可以解碼8個(gè)token，我感覺(jué)速度勉強(qiáng)夠用了。由于RWKV5迭代到了第5個(gè)版本，后續(xù)希望能支持RWKV5的模型，當(dāng)然也可以尋求新的優(yōu)化機(jī)會(huì)提升解碼速度。

0x1. 踩坑

之前寫(xiě)這篇文章 MLC-LLM 部署RWKV World系列模型實(shí)戰(zhàn)（3B模型Mac M2解碼可達(dá)26tokens/s）的時(shí)候發(fā)現(xiàn)android app在初始化的時(shí)候一直會(huì)卡住，即使換成官方編譯的app也是如此，所以提了issue之后就放棄了?，F(xiàn)在這個(gè)bug被修復(fù)了，不過(guò)我沒(méi)有找到具體的改動(dòng)pr是什么，但我在mlc-llm的android部分沒(méi)有發(fā)現(xiàn)相關(guān)改動(dòng)，所以大概率是relax本身的bug，就不深究了。

這次仍然是按照之前的方法進(jìn)行編譯，但是也踩了幾個(gè)坑，具體體現(xiàn)在下方的改動(dòng)：

這個(gè)改動(dòng)只是為了在本地可以編譯出RWKV的android app，有坑的地方體現(xiàn)在下面的2個(gè)改動(dòng)：

第一個(gè)坑是在dump_mlc_chat_config的時(shí)候，對(duì)于RWKV World模型應(yīng)該使用工程下面的tokenzier_model文件作為tokenzie的文件，但是之前沒(méi)考慮這個(gè)問(wèn)題（dump出的config中tokenizer_files字段為空）就會(huì)導(dǎo)致編譯出的app在初始化階段報(bào)錯(cuò)：

經(jīng)過(guò)上面的修改之后重新在mlc-llm下面pip install .，然后編譯模型就可以得到可以正常初始化的config了。這個(gè)問(wèn)題是通過(guò)在Android Studio里面通過(guò)Device Explore查看下載的文件夾發(fā)現(xiàn)的，我發(fā)現(xiàn)少了一個(gè)tokenizer_model文件才注意的。

第二個(gè)坑是初始化完成之后聊天的時(shí)候不出字，我在mac上去復(fù)現(xiàn)了這個(gè)錯(cuò)誤，然后發(fā)現(xiàn)是因?yàn)樵赗WKV里面把max_window_size這個(gè)屬性設(shè)置成了1。

然后在mlc_chat.cc里面通過(guò)max_window_size判斷結(jié)束符時(shí)沒(méi)有考慮-1，所以第一個(gè)token生成之后程序就終止了。所以在這里加一個(gè)特判進(jìn)行了修復(fù)。

解決了上面2個(gè)問(wèn)題，編譯出新的apk之后就可以正常運(yùn)行了。

0x2. 詳細(xì)教程

下面是編譯出apk的詳細(xì)教程。在這之前請(qǐng)閱讀：MLC-LLM 部署RWKV World系列模型實(shí)戰(zhàn)（3B模型Mac M2解碼可達(dá)26tokens/s），這是前置內(nèi)容。

對(duì)于Android，你可以按照https://mlc.ai/mlc-llm/docs/deploy/android.html的教程在你的手機(jī)上編譯apk。

根據(jù)官方教程，這里有一些需要修改的地方：

修改這個(gè)文件。更新的內(nèi)容應(yīng)該是：

{
"model_libs":[
"RWKV-4-World-3B-q4f16_1"
],
"model_list":[
{
"model_url":"https://huggingface.co/BBuf/RWKV-4-World-3B-q4f16_1/",
"local_id":"RWKV-4-World-3B-q4f16_1"
}
],
"add_model_samples":[]
}

將代碼的這個(gè)部分修改為：

compileOptions{
sourceCompatibilityJavaVersion.VERSION_17
targetCompatibilityJavaVersion.VERSION_17
}
kotlinOptions{
jvmTarget='17'
}

如果你遇到錯(cuò)誤：“Android Gradle插件要求運(yùn)行Java 17。你目前使用的是Java 11”，請(qǐng)按照https://stackoverflow.com/questions/76362800/android-gradle-plugin-requires-java-17-to-run-you-are-currently-using-java-11 的方法清除緩存并重新編譯。

一旦你完成了APK的編譯，你可以在你的手機(jī)上啟用開(kāi)發(fā)者模式并安裝APK以供使用。

以小米手機(jī)為例，你可以按照下面的教程啟用開(kāi)發(fā)者模式并將APK傳輸?shù)侥愕氖謾C(jī)上。

第一步：在手機(jī)上啟用USB調(diào)試
- 首先，前往你的手機(jī)的"設(shè)置 -> 我的設(shè)備 -> 所有規(guī)格 -> MIUI版本"，連續(xù)點(diǎn)擊"MIUI版本"七次以進(jìn)入開(kāi)發(fā)者模式。
- 接下來(lái)，導(dǎo)航至"設(shè)置 -> 額外設(shè)置 -> 開(kāi)發(fā)者選項(xiàng)"，打開(kāi)"USB調(diào)試"和"USB安裝"。
第二步：配置Android Studio
- 打開(kāi)你的Android Studio項(xiàng)目，前往"運(yùn)行 -> 編輯配置"，如下圖所示，選擇"打開(kāi)選擇部署目標(biāo)對(duì)話框"。這將在每次你調(diào)試時(shí)提示設(shè)備選擇對(duì)話框。注意：如果你直接選擇"USB設(shè)備"，你可能無(wú)法在調(diào)試過(guò)程中檢測(cè)到你的手機(jī)。
第三步：在線調(diào)試
- 通過(guò)USB將你的手機(jī)連接到電腦。通常會(huì)自動(dòng)安裝必要的驅(qū)動(dòng)程序。當(dāng)你運(yùn)行程序時(shí)，將出現(xiàn)設(shè)備選擇對(duì)話框。選擇你的手機(jī)，APK將自動(dòng)安裝并運(yùn)行。

一個(gè)編譯好的apk: https://github.com/BBuf/run-rwkv-world-4-in-mlc-llm/releases/download/v1.0.0/app-debug.apk

0x3. 總結(jié)

這篇文章分享了一下使用MLC-LLM將RWKV模型跑在Android手機(jī)上遭遇的坑以及編譯的詳細(xì)教程，接下來(lái)也會(huì)嘗試一下RWKV5。想在andorid手機(jī)上本地運(yùn)行開(kāi)源大模型的伙伴們可以考慮一下MLC-LLM，他們的社區(qū)還是比較活躍的，如果你提出一些問(wèn)題一般都會(huì)有快速的回復(fù)或者解決方法。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴