作者 / 開(kāi)發(fā)者關(guān)系工程師 Terence Zhang 和產(chǎn)品經(jīng)理 Kristi Bradford
Google Pixel 的 Recorder 應(yīng)用允許用戶錄制、轉(zhuǎn)錄、保存和共享音頻。為了讓用戶更輕松地管理和回顧自己的錄音,Recorder 的開(kāi)發(fā)者將目光鎖定在功能強(qiáng)大的設(shè)備端大語(yǔ)言模型 (LLM) Gemini Nano 上。這一集成引入了 AI 驅(qū)動(dòng)的音頻摘要功能,幫助用戶更輕松地找到所需的錄音并快速掌握內(nèi)容要點(diǎn)。
近期,隨著引入新的多模態(tài)模型,Gemini Nano 實(shí)力大增。Recorder 應(yīng)用已經(jīng)在利用此升級(jí)來(lái)提煉更長(zhǎng)的錄音,并提升了對(duì)語(yǔ)法和細(xì)節(jié)的處理能力。
使用設(shè)備端 AI 滿足用戶需求
Recorder 的開(kāi)發(fā)者最初嘗試了基于云端的解決方案,在性能和質(zhì)量方面取得了卓越的成果。然而,為了優(yōu)先考慮用戶的無(wú)障礙和隱私需求,他們轉(zhuǎn)而尋求一種設(shè)備端解決方案。Gemini Nano 提供了一個(gè)絕佳機(jī)會(huì),可以提供用戶所需的簡(jiǎn)潔音頻摘要,與此同時(shí)還能保持在設(shè)備端進(jìn)行數(shù)據(jù)處理。
Gemini Nano 是 Google 為設(shè)備端任務(wù)打造的最高效的模型。Pixel essential 應(yīng)用產(chǎn)品經(jīng)理 Kristi Bradford 表示: "在設(shè)備端集成 LLM 對(duì)用戶有很多好處,能為用戶提供更高隱私性、更低延遲,而且由于不需要網(wǎng)絡(luò),用戶在任何地方都能使用。"
為了取得更好的效果,Recorder 還使用與其用例相匹配的數(shù)據(jù)對(duì)模型進(jìn)行了微調(diào)。開(kāi)發(fā)者采用低秩適應(yīng) (LoRA) 技術(shù)進(jìn)行微調(diào),從而讓 Gemini Nano 能夠穩(wěn)定地輸出包含相關(guān)發(fā)言人姓名、內(nèi)容要點(diǎn)和主題在內(nèi)的三點(diǎn)描述。
AICore 是一種 Android 系統(tǒng)服務(wù),可集中管理 LLM 的運(yùn)行時(shí)、交付和關(guān)鍵安全組件,大幅簡(jiǎn)化了 Recorder 對(duì) Gemini Nano 的使用。借助用于運(yùn)行 GenAI 工作負(fù)載的開(kāi)發(fā)者 SDK,開(kāi)發(fā)團(tuán)隊(duì)僅依靠四名開(kāi)發(fā)者,在短短四個(gè)月內(nèi)便開(kāi)發(fā)了轉(zhuǎn)錄摘要功能。而這樣的效率,正是由于無(wú)需維護(hù)內(nèi)部模型所實(shí)現(xiàn)的。
自 Recorder 發(fā)布以來(lái),用戶平均每天使用 2 到 5 次新的 AI 摘要功能,保存的錄音總數(shù)增加了 24%。這一功能顯著提高了應(yīng)用的總體參與度和用戶留存率。Recorder 團(tuán)隊(duì)還指出,用戶對(duì)新功能給予了正面反饋,許多用戶表示新的 AI 摘要功能為他們節(jié)省了大量時(shí)間。
下一項(xiàng)重大進(jìn)展:
多模態(tài) Gemini Nano
Recorder 的開(kāi)發(fā)者還采用了最新的 Gemini Nano 模型,即多模態(tài) Gemini Nano,以進(jìn)一步改進(jìn)該應(yīng)用在 Pixel 9 設(shè)備上的摘要功能。新模型比 Pixel 8 設(shè)備上的舊模型大很多,而且功能更強(qiáng)大、結(jié)果更準(zhǔn)確、擴(kuò)展能力更出色。新模型還擴(kuò)展了令牌 (token) 支持,讓 Recorder 可以提煉比以前更長(zhǎng)的轉(zhuǎn)錄文本。
將 Gemini Nano 與多模態(tài)集成需要再進(jìn)行一輪微調(diào)。不過(guò),Recorder 的開(kāi)發(fā)者得以利用原始 Gemini Nano 模型的微調(diào)數(shù)據(jù)集作為基礎(chǔ),從而簡(jiǎn)化了開(kāi)發(fā)過(guò)程。
為了充分發(fā)揮新模型的功能,Recorder 開(kāi)發(fā)者擴(kuò)大了數(shù)據(jù)集,支持更長(zhǎng)的錄音,實(shí)施了完善的評(píng)估方法,并建立了側(cè)重于語(yǔ)法和細(xì)節(jié)的發(fā)布標(biāo)準(zhǔn)指標(biāo)。將語(yǔ)法作為評(píng)估推理質(zhì)量的新指標(biāo),完全得益于多模態(tài) Gemini Nano 的增強(qiáng)功能。
使用設(shè)備上的 AI 實(shí)現(xiàn)更多功能
Kristi 表示:"生成式 AI 是一項(xiàng)新的功能,整個(gè)團(tuán)隊(duì)都在學(xué)習(xí)使用它的過(guò)程中收獲了樂(lè)趣?,F(xiàn)在,我們有能力在滿足用戶新需求和把握新機(jī)遇的同時(shí),突破極限。生成式 AI 確實(shí)為解決問(wèn)題和開(kāi)展實(shí)驗(yàn)帶來(lái)了全新的創(chuàng)造力。我們已經(jīng)演示了至少兩項(xiàng)生成式 AI 功能,它們可以幫助人們?cè)诠緝?nèi)部節(jié)省時(shí)間,以獲得早期反饋。我們很期待看到未來(lái)的更多可能性。"
-
Google
+關(guān)注
關(guān)注
5文章
1788瀏覽量
58686 -
Gemini
+關(guān)注
關(guān)注
0文章
64瀏覽量
7851 -
模型
+關(guān)注
關(guān)注
1文章
3488瀏覽量
50020 -
Pixel
+關(guān)注
關(guān)注
1文章
238瀏覽量
10461
原文標(biāo)題:Pixel 的 Recorder 應(yīng)用通過(guò) Gemini Nano 將用戶參與度顯著提升了 24%
文章出處:【微信號(hào):Google_Developers,微信公眾號(hào):谷歌開(kāi)發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
小程序開(kāi)發(fā)必須知道的5個(gè)技巧:提升效率與用戶體驗(yàn)的權(quán)威指南
Android16 Beta 1來(lái)襲,谷歌Pixel 6用戶搶先體驗(yàn)
TMS320C3x通用應(yīng)用用戶指南

評(píng)論