0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

初探AI測試分析

Testin云測 ? 來源:Testin云測 ? 2024-11-12 10:25 ? 次閱讀

人工智能中,算法不只是用代碼敲出來這么簡單的,而是由訓(xùn)練數(shù)據(jù)、標(biāo)簽神經(jīng)網(wǎng)絡(luò)的結(jié)合產(chǎn)生的,這是機(jī)器學(xué)習(xí)的本質(zhì)。算法本身沒有直接洞察力,也不能直接像缺陷一樣被修復(fù):它屬于“黑盒開發(fā)”。

人工智能系統(tǒng)需要具備應(yīng)用于不同數(shù)據(jù)和不同應(yīng)用場景的能力。訓(xùn)練數(shù)據(jù)和標(biāo)簽的選擇會引起偏差和透明度的風(fēng)險,可能對真實(shí)情況產(chǎn)生重大影響。測試人工智能的重點(diǎn)在于這些風(fēng)險。人工智能測試需要道德、社會和意識,以突出用戶、預(yù)期,并將這些預(yù)期轉(zhuǎn)化為可重復(fù)運(yùn)行和自動化的測試用例。人工智能測試包括設(shè)置指標(biāo),將測試結(jié)果轉(zhuǎn)化為對系統(tǒng)的有意義和可量化的評估,以便開發(fā)人員優(yōu)化系統(tǒng)。

1. 介紹

毫無疑問,未來屬于人工智能。它已經(jīng)進(jìn)入了我們的日常生活,并被世界各地的大公司所使用。人工智能的適用性似乎無窮無盡。然而,仍然存在許多疑慮和擔(dān)憂。例如,在自動駕駛汽車的情況下:事故責(zé)任、不穩(wěn)定的物體識別以及與不可預(yù)測的人類交通參與者的復(fù)雜互動阻礙了它的廣泛推廣。人工智能的一些可能令人恐懼的影響已經(jīng)顯現(xiàn)出來。人工智能算法可以制造和擴(kuò)大偏差。例如,在緬甸的種族清洗中,數(shù)以萬計(jì)的羅興亞人被殺害,100萬人流離失所。Facebook算法支持了已經(jīng)存在的種族緊張局勢,這偏差觀點(diǎn)得到強(qiáng)化,因?yàn)樗粌?yōu)化為點(diǎn)擊成功則被獎勵。負(fù)面信息在搜索結(jié)果中越來越多地出現(xiàn)。每個AI軟件開發(fā)人員都在與這些疑慮和風(fēng)險作斗爭。AI測試,什么是缺陷,如何修復(fù)它?如何確保系統(tǒng)在各種輸入做正確的事情?如何獲得正確率的信心?結(jié)果對所有相關(guān)方公平嗎?當(dāng)前的發(fā)展、觀點(diǎn)和價值觀是否反映在算法中?從測試的角度來看,AI的最大風(fēng)險是什么,如何處理這些風(fēng)險?

2. 介紹

2.1. AI 屬于黑盒開發(fā)

在人工智能中,算法、系統(tǒng)在標(biāo)準(zhǔn)、決策和行動方面的行為,并沒有明確地體現(xiàn)在代碼中。在非人工智能開發(fā)中,代碼直接表達(dá)了算法。在人工智能中,算法是訓(xùn)練數(shù)據(jù)、參數(shù)化、標(biāo)簽和神經(jīng)網(wǎng)絡(luò)選擇的產(chǎn)物,而且無法在代碼中體現(xiàn)。代碼、神經(jīng)網(wǎng)絡(luò)只是通過訓(xùn)練產(chǎn)生算法的系統(tǒng)的一個組成部分,這是機(jī)器學(xué)習(xí)的本質(zhì)。

2.2. 機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)

機(jī)器學(xué)習(xí)和人類學(xué)習(xí)之間有很強(qiáng)的相似性。以一個孩子第一次學(xué)習(xí)使用一個概念為例。這個孩子被告知,它抱著的毛茸茸的生物是一只“貓”?,F(xiàn)在,這個孩子開始用自己的神經(jīng)網(wǎng)絡(luò)工作。貓的概念與不是貓的物體(如“爸爸”)進(jìn)行比較。神經(jīng)網(wǎng)絡(luò)的工作方式是找到一種配置自己的方法,如果它看到貓,它會將其歸類為貓,而不是爸爸。它通過找到差異、標(biāo)準(zhǔn)(如皮毛、胡須、四條腿等)來做到這一點(diǎn)。但我們不知道這些標(biāo)準(zhǔn)到底是什么。它們也可能是“捉老鼠”、“呼嚕聲”或“白色”。我們無法在大腦中找到貓的概念及其標(biāo)準(zhǔn),也無法直接在大腦中糾正它。

神經(jīng)網(wǎng)絡(luò)由許多代碼塊(“節(jié)點(diǎn)”)組成,這些代碼塊按層排列,每個節(jié)點(diǎn)層都連接到其上下層。節(jié)點(diǎn)沒有被預(yù)先編程以執(zhí)行特定任務(wù)。節(jié)點(diǎn)只是小型的計(jì)算器,處理頂層呈現(xiàn)給它們的部分并返回計(jì)算結(jié)果。給定兩張圖片,一張是貓,一張是爸爸,它將嘗試不同的配置,以找到一種配置,將一個樣本識別為貓,另一個樣本識別為爸爸。它將找出差異,以便其配置將在下一次給出正確的分類。

2.3. 算法=數(shù)據(jù)+編碼+標(biāo)簽

因此,該系統(tǒng)產(chǎn)生的算法由從樣本中衍生出的模型組成,因此它可以對輸入進(jìn)行分類和識別,并給它們打標(biāo)簽。該算法是神經(jīng)網(wǎng)絡(luò)的產(chǎn)物,但主要基于訓(xùn)練數(shù)據(jù)和標(biāo)簽。因此,算法不是代碼,而是代碼+訓(xùn)練數(shù)據(jù)+標(biāo)簽。

2.4. 模糊邏輯和數(shù)學(xué)

雖然整個系統(tǒng)所做的只是計(jì)算,產(chǎn)生數(shù)字,但這些數(shù)字不會產(chǎn)生布爾結(jié)果:例如:“這是爸爸”或“這是一只貓”。結(jié)果將是從節(jié)點(diǎn)和層中計(jì)算的所有數(shù)字的總和,每個數(shù)字都表示根據(jù)每個給定的標(biāo)簽滿足標(biāo)準(zhǔn)的程度。這幾乎不可能(在0-1區(qū)間)達(dá)到1。其次,它還會給樣本給出評分。因此,呈現(xiàn)給系統(tǒng)的新圖片可能會將“貓性”評為0.87,將“爸爸性”評為0.13。結(jié)論是,樣本是一只貓,但它不是100%的貓,也不是0%的爸爸。因此,人工智能的最終產(chǎn)品是計(jì)算、概率,而不是100%的確定性。

2.5. 開發(fā)與糾錯

神經(jīng)網(wǎng)絡(luò)的開發(fā)包括開發(fā)神經(jīng)網(wǎng)絡(luò)本身,但大多數(shù)開發(fā)人員使用現(xiàn)成的神經(jīng)網(wǎng)絡(luò)。接下來,他們需要配置神經(jīng)網(wǎng)絡(luò),使其能夠接收手工的輸入并配置標(biāo)簽。最后,神經(jīng)網(wǎng)絡(luò)的層可以參數(shù)化:計(jì)算結(jié)果可以加權(quán),以便某些結(jié)果對最終結(jié)果的影響比其他結(jié)果更大。這些是開發(fā)人員擁有的主要調(diào)整工具。如果系統(tǒng)表現(xiàn)不令人滿意,則可以調(diào)整參數(shù)。這不是一個重點(diǎn)的缺陷修復(fù),而是糾正一個缺陷決策的例子。參數(shù)化將影響結(jié)果,但每次調(diào)整都會對整體性能產(chǎn)生影響。在人工智能中,存在大量的“回歸”:對不打算改變的系統(tǒng)部分產(chǎn)生不必要和意想不到的影響。訓(xùn)練數(shù)據(jù)和標(biāo)簽也可能成為影響系統(tǒng)的候選因素。在人工智能的某些問題上,例如欠擬合,擴(kuò)大訓(xùn)練數(shù)據(jù)很可能會改善系統(tǒng)。欠擬合指的是模型無法很好地擬合訓(xùn)練數(shù)據(jù),無法捕捉到數(shù)據(jù)中的真實(shí)模式和關(guān)系。欠擬合可以比喻為一個學(xué)生連基本的知識都沒有掌握好,無論是老題還是新題都無法解答。這種情況下,模型過于簡單或者復(fù)雜度不足,無法充分學(xué)習(xí)數(shù)據(jù)中的特征和模式。

2.6. 整體評估和指標(biāo)

當(dāng)缺陷修正無法聚焦,每次微調(diào)都會導(dǎo)致大規(guī)模回歸時,大規(guī)?;貧w測試是必要的。問題“我們是否修復(fù)了這個缺陷?”成為一個次要問題。我們想知道每次更改后的整體行為。我們想知道與其他版本相比,系統(tǒng)的整體性能如何。在整體評估中,我們需要考慮AI的輸出:計(jì)算結(jié)果既不是真也不是假。每個結(jié)果都是一個等級。因此,最終結(jié)果應(yīng)該進(jìn)行全面比較、權(quán)衡和合并,以便我們可以決定一個版本是否優(yōu)于另一個版本,是否應(yīng)該使用它。結(jié)果將是基于預(yù)期和它們相對重要性的輸出價值的度量。

3. AI風(fēng)險

我們將在這里討論最重要的風(fēng)險。這些風(fēng)險是人工智能的典型風(fēng)險,可能會對人工智能的質(zhì)量、客戶、用戶、人們甚至世界產(chǎn)生嚴(yán)重影響。在開始測試之前,應(yīng)該考慮這些風(fēng)險,為測試人員提供重點(diǎn)提示。在分析測試結(jié)果時,應(yīng)該考慮這些風(fēng)險。

作為對意外結(jié)果的因果分析,這可以為優(yōu)化系統(tǒng)提供線索。例如:欠擬合的系統(tǒng)最需要更多樣化的訓(xùn)練數(shù)據(jù),過擬合的系統(tǒng)需要簡化標(biāo)簽。

3.1. 偏差

人工智能的主要風(fēng)險是“偏差”的類型。在人類智能中,我們稱之為偏差。由于訓(xùn)練數(shù)據(jù)和概念的限制,我們看待事物過于簡單(簡化)或存在(偏差)。概念的高粒度可能意味著系統(tǒng)無法充分概括,導(dǎo)致結(jié)果毫無用處。

3.1.1. 選擇偏差

如果訓(xùn)練數(shù)據(jù)選擇遺漏了現(xiàn)實(shí)世界中的重要元素,這可能會導(dǎo)致選擇偏差。與實(shí)際結(jié)果相比,上次歐洲選舉的民意調(diào)查預(yù)測,荷蘭的歐洲懷疑黨將獲得比實(shí)際選舉高得多的勝利。民意調(diào)查沒有過濾人們是否真的會投票。歐洲懷疑論者被證明比其他選民更有可能不投票。

3.1.2. 固定偏差

急于驗(yàn)證一個高度相信或投入的假設(shè)可能會導(dǎo)致選擇或過度重視證實(shí)該論點(diǎn)的數(shù)據(jù),而忽視可能存在的缺陷??茖W(xué)家、政客和產(chǎn)品開發(fā)者可能容易受到這種偏差的影響,即使他們有最好的意圖。一個醫(yī)療援助組織為了籌集更多資金,夸大了可能的糧食危機(jī),顯示死亡人數(shù)上升,但沒有顯示與饑荒和總?cè)丝跀?shù)無關(guān)的死亡人數(shù)。

3.1.3. 欠擬合

缺乏多樣性的訓(xùn)練數(shù)據(jù)會導(dǎo)致欠擬合。學(xué)習(xí)過程將無法確定關(guān)鍵的判別標(biāo)準(zhǔn)。訓(xùn)練軟件識別狼和狗,將哈士奇識別為狼,因?yàn)樗鼪]有學(xué)到狗也可以在雪中看到。如果我們只在荷蘭獲得與毒品相關(guān)的新聞信息,會發(fā)生什么?

3.1.4. 過擬合

當(dāng)標(biāo)簽對于人工智能系統(tǒng)的目的來說過于多樣化和多樣化時,就會出現(xiàn)過度擬合。過擬合(Overfitting)指的是模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)得過于優(yōu)秀,但在未見數(shù)據(jù)上表現(xiàn)較差。過擬合可以比喻為一個學(xué)生死記硬背了一本題庫的所有答案,但當(dāng)遇到新的題目時無法正確回答。這種情況下,模型對于訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)過于敏感,導(dǎo)致了過度擬合的現(xiàn)象。

3.1.5. 異常值

異常值是極端的例子,對算法有太大的影響。如果你的1歲大的孩子看到的第一只貓是無毛貓,這將對他對貓的概念產(chǎn)生重大影響,需要用多個正常貓的例子來糾正。

3.1.6. 混淆變量

模式識別和分析通常需要結(jié)合數(shù)據(jù),特別是當(dāng)尋找因果關(guān)系時。當(dāng)不同數(shù)據(jù)模式因數(shù)據(jù)分析目的而相關(guān)聯(lián)而沒有實(shí)際因果關(guān)系時,混淆變量就會出現(xiàn)。人們通常認(rèn)為,喝紅葡萄酒會引起偏頭痛發(fā)作,因?yàn)閾?jù)報道,喝紅葡萄酒和偏頭痛是相繼發(fā)生的。新研究表明,偏頭痛發(fā)作是由食欲變化引起的,如對紅葡萄酒的渴望。喝紅葡萄酒是一種副作用,而不是偏頭痛的原因!

3.2. 可追溯性

對于非人工智能系統(tǒng),算法就是代碼。對于人工智能系統(tǒng),情況并非如此,因此我們不知道人工智能系統(tǒng)做出決策的確切標(biāo)準(zhǔn)。此外,很難監(jiān)督訓(xùn)練數(shù)據(jù)的總體情況,因此很難很好地了解人工智能系統(tǒng)將如何表現(xiàn)。因此,當(dāng)結(jié)果明顯不正確時,很難確定原因并糾正。是訓(xùn)練數(shù)據(jù)、參數(shù)、神經(jīng)網(wǎng)絡(luò)還是標(biāo)簽?可追溯性的缺乏導(dǎo)致過度自信和信心不足,并導(dǎo)致責(zé)任的不確定性(是軟件、數(shù)據(jù)、標(biāo)簽還是上下文造成的?)以及缺乏可維護(hù)性。

4. 測試AI

減輕人工智能風(fēng)險的關(guān)鍵是透明度。在偏差方面,我們需要了解訓(xùn)練數(shù)據(jù)和標(biāo)簽的代表性,但最重要的是,我們需要了解期望和結(jié)果對所有相關(guān)方的重要性如何反映在結(jié)果中。建立適當(dāng)程度的信心和可追溯性也需要透明度。通過照亮代碼,將無法實(shí)現(xiàn)透明度。即使這是可能的,通過顯示代碼的熱圖,表明當(dāng)分析對象的特定部分或產(chǎn)生層中的計(jì)算時,神經(jīng)網(wǎng)絡(luò)的哪個部分是活躍的,這意味著幾乎什么都沒有。觀察大腦內(nèi)部將永遠(yuǎn)不會顯示思想或決定。它可以顯示哪個部分被激活,但所有的心理過程都涉及多個大腦部分,最重要的是過去的經(jīng)驗(yàn)。人工智能系統(tǒng)是黑盒子,因此我們應(yīng)該像在黑盒測試中一樣測試它們:從外部,開發(fā)基于現(xiàn)實(shí)輸入的測試用例。從那里確定對輸出的期望。聽起來很傳統(tǒng),很熟悉,不是嗎?測試人工智能的基本邏輯可能很熟悉,具體的任務(wù)和元素卻大不相同。

傳統(tǒng)上,需求和規(guī)格是預(yù)先確定的,測試人員在開始時就可以使用它們。在人工智能中,需求和規(guī)格是如此多樣化和動態(tài),以至于不能期望它們在開始時完全和一次就確定。產(chǎn)品所有者和業(yè)務(wù)顧問應(yīng)該交付需求,但測試人員需要采取主動,以他們需要的形式、粒度和現(xiàn)實(shí)性獲得需求。

4.1. 神經(jīng)網(wǎng)絡(luò)、訓(xùn)練數(shù)據(jù)和標(biāo)簽

靜態(tài)測試可以及早發(fā)現(xiàn)缺陷??梢赃x擇神經(jīng)網(wǎng)絡(luò):有哪些替代方案?對于這項(xiàng)審查,需要對所有可能的神經(jīng)網(wǎng)絡(luò)及其特定質(zhì)量和缺點(diǎn)有廣泛的了解。訓(xùn)練數(shù)據(jù)和標(biāo)簽可以審查和評估風(fēng)險敏感性:

1. 數(shù)據(jù)是否很好地反映了現(xiàn)實(shí)生活中的數(shù)據(jù)來源、用戶、視角和價值觀?是否有被忽視的相關(guān)數(shù)據(jù)來源?研究結(jié)果可能表明選擇偏差、確認(rèn)偏差或不足。

2. 數(shù)據(jù)來源和數(shù)據(jù)類型是否平均分配?不同類型、不同組別的代表性如何?研究結(jié)果可能表明不足、選擇偏差、確認(rèn)偏差或異常值。

3. 標(biāo)簽是否公平地反映了現(xiàn)實(shí)生活中的群體或數(shù)據(jù)類型?標(biāo)簽是否與系統(tǒng)應(yīng)分析的現(xiàn)實(shí)情況或模式相匹配?研究結(jié)果可能表明過度擬合、不足或混淆變量。

4. 數(shù)據(jù)是否足夠?期望的刷新速率是多少?是否匹配?現(xiàn)實(shí)世界中是否有事件在數(shù)據(jù)中沒有得到充分反映?

4.2. 識別用戶

該系統(tǒng)的所有者并不是唯一有價值的視角!像搜索系統(tǒng)這樣的AI系統(tǒng)是其用戶世界的重要組成部分,也是那些被其“貼標(biāo)簽”的人的重要組成部分。AI系統(tǒng)的質(zhì)量可能具有道德、社會和政治方面的意義和影響,因此需要加以考慮。AI的用戶往往是多樣化的,很難知道。他們不是一組固定的訓(xùn)練有素的用戶,他們不會聚集在一個房間里,他們的行為和期望是可以管理的。他們可能是整個世界,就像搜索引擎的情況一樣:一個訪問阿姆斯特丹的美國游客或一個經(jīng)驗(yàn)豐富的藝術(shù)愛好者在搜索“珍珠女孩”時,他們的需求和期望非常不同。

一個博物館的搜索引擎。游客想知道一張?zhí)囟ǖ膱D片是否用于展示,藝術(shù)愛好者也想了解背景信息和草圖。接下來:隨著世界的變化,用戶和他們的期望可能會在一夜之間發(fā)生變化。想想巴黎圣母院的大火對那些搜索“巴黎圣母院”或“巴黎大火”的用戶可能有什么影響。AI在DNA序列中識別病毒應(yīng)該考慮到不斷發(fā)生的可能突變。因此,測試AI首先要確定用戶或系統(tǒng)輸出將被使用的視角。這意味著研究系統(tǒng)使用的數(shù)據(jù)分析,采訪流程所有者或采訪真實(shí)用戶。

4.3. 分析用戶

識別用戶或數(shù)據(jù)組是一回事,確定他們想要什么、期望什么、需要什么、害怕什么或會如何表現(xiàn)是另一回事。測試人員需要的是用戶和視角的簡介:他們的背景是什么,他們想要什么,什么會讓他們反感或不安,他們有什么期望?一種創(chuàng)建簡介的技術(shù)是“Persona”。這種技術(shù)的關(guān)鍵是不要考慮整個用戶組,而是從該組中選擇一個人,并盡可能使其具體化。Persona的好處是,它讓用戶變得栩栩如生。這是一種從內(nèi)到外考慮用戶視角的技術(shù)。例如:美國游客的Persona可以是喬,一個水管工,住在芝加哥,白人,45歲,已婚,有兩個孩子。他讀書不多,但喜歡色彩鮮艷、制作精良的繪畫。他的愛好是釣魚和翻新舊音響設(shè)備。

4.4. 創(chuàng)建測試用例

對于測試人員來說,這部分可能是大部分工作。根據(jù)每個用戶的個人資料,輸入和預(yù)期輸出被確定下來。良好的個人資料將提供一個良好的基礎(chǔ),但可能需要來自研究和訪談的額外信息。識別測試用例永遠(yuǎn)不會是完整的,也不會是決定性的:你不能測試一切,在人工智能領(lǐng)域也是如此。世界和用戶都在變化,因此需要在需求中反映出這一點(diǎn)。它從最重要的案例開始;它將不斷增長,需要永久維護(hù)。

4.5. 測試數(shù)據(jù)

使用哪些測試數(shù)據(jù)以及是否可以創(chuàng)建、發(fā)現(xiàn)或操作這些數(shù)據(jù)取決于上下文和生產(chǎn)數(shù)據(jù)的可用性。數(shù)據(jù)創(chuàng)建或操作(如圖像識別)是很難做到的,有時是無用的,甚至是適得其反的。使用工具來操作或創(chuàng)建圖像會帶來額外的變量,這可能會產(chǎn)生偏差!測試數(shù)據(jù)對現(xiàn)實(shí)世界圖片的代表性如何?如果算法在創(chuàng)建的數(shù)據(jù)中識別出只能在測試數(shù)據(jù)中找到的方面,測試的價值就會受到影響。AI測試人員從真實(shí)數(shù)據(jù)中創(chuàng)建測試數(shù)據(jù)集,并嚴(yán)格地將這些數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分開。由于AI系統(tǒng)是動態(tài)的,它所使用的世界是動態(tài)的,測試數(shù)據(jù)必須定期更新。

4.6. 度量

人工智能的輸出不是布爾值:它們是所有可能結(jié)果(標(biāo)簽)的計(jì)算結(jié)果。要確定系統(tǒng)的性能,僅僅確定哪個標(biāo)簽的得分最高是不夠的。指標(biāo)是必要的。以圖像識別為例:我們想知道一張貓的圖片是否會被識別為貓。在實(shí)踐中,這意味著標(biāo)簽“貓”的得分將高于“狗”。如果貓的得分是0.43,狗的得分是0.41,那么貓就贏了。但得分之間的微小差異可能表明故障概率。在搜索引擎中,我們想知道頂部的結(jié)果是否是用戶期望的前1名,但如果前1名的結(jié)果是列表中的第2名,聽起來就不對,但仍然比第3名要好。我們想知道所有相關(guān)結(jié)果是否都在前10名(這被稱為精確度),或者前10名中沒有冒犯性的結(jié)果。根據(jù)上下文,我們需要用指標(biāo)來處理AI系統(tǒng)的輸出,對其性能進(jìn)行評估。測試人員需要具備確定相關(guān)指標(biāo)并將其納入測試的能力。

4.7. 權(quán)重和契約

對人工智能系統(tǒng)的總體評估還必須納入相對重要性。與任何測試一樣,一些結(jié)果比其他結(jié)果更重要。想想具有高度道德影響的結(jié)果,比如種族偏差。作為設(shè)計(jì)測試用例的一部分,它們對總體評估的權(quán)重應(yīng)根據(jù)風(fēng)險和對用戶的重要性來確定。測試人員需要對這些風(fēng)險敏感,能夠識別它們,將其轉(zhuǎn)化為測試用例和指標(biāo)。他們需要了解系統(tǒng)使用情況和用戶心理的背景。人工智能測試人員需要同理心和世界意識。

在電影《機(jī)械戰(zhàn)警》中,墨菲警官的系統(tǒng)中有一個“首要指令”程序:如果他試圖逮捕他所在公司的董事總經(jīng)理,他的系統(tǒng)就會關(guān)閉。人工智能系統(tǒng)也可以有“首要指令”,或者出現(xiàn)無法接受的結(jié)果,比如冒犯性語言、色情網(wǎng)站或撞倒行人。我們稱之為“契約”:在測試結(jié)果中,這些可能不需要的結(jié)果應(yīng)該被標(biāo)簽為阻止問題,或者至少應(yīng)該被給予很高的權(quán)重。

4.8. 測試自動化

人工智能測試需要大量的自動化。測試用例的數(shù)量要求它這樣做,并且需要對新版本進(jìn)行重復(fù)測試。當(dāng)人工智能系統(tǒng)不斷訓(xùn)練時,測試是必要的,就像搜索引擎的情況一樣,其中存在來自實(shí)際數(shù)據(jù)的反饋回路。但是,即使當(dāng)人工智能系統(tǒng)沒有不斷訓(xùn)練并且系統(tǒng)版本穩(wěn)定時,不斷變化的環(huán)境也需要不斷訓(xùn)練。即使系統(tǒng)沒有改變,世界也會改變。測試自動化包括一個測試框架,測試用例將在人工智能系統(tǒng)上運(yùn)行,并且人工智能系統(tǒng)的輸出將被處理。以下是一個測試框架的基本設(shè)置。

4.9. 整體評估和優(yōu)化輸入

測試的結(jié)果不僅僅是一份需要修復(fù)的缺陷清單。如上文所述,如果沒有嚴(yán)重的回歸,缺陷是無法直接修復(fù)的。人工智能系統(tǒng)必須作為一個整體進(jìn)行評估,因?yàn)殡S著許多測試用例和回歸,沒有哪個版本是完美的。如果一個新版本比舊版本更好,程序員希望知道該采用哪個版本。因此,測試結(jié)果應(yīng)該綜合成一個總結(jié)果:一個量化分?jǐn)?shù)。為了給程序員提供如何調(diào)整(訓(xùn)練數(shù)據(jù)、標(biāo)簽、參數(shù)化)的指導(dǎo),他們需要知道需要改進(jìn)的領(lǐng)域。這是我們可以接近缺陷修復(fù)的地方。我們需要度量、權(quán)衡和契約來實(shí)現(xiàn)有意義的總體評分和優(yōu)化線索。應(yīng)該分析低分測試用例的原因:是過擬合、欠擬合還是其他風(fēng)險領(lǐng)域?

4.10. AI測試示例

167e5be8-905a-11ef-a511-92fbcf53809c.png

從左上到右下,然后從右上到左下:

1. 識別用戶群體

2. 為每個用戶群體創(chuàng)建角色

3. 寫測試用例:根據(jù)每個用戶組輸入的預(yù)期頂級結(jié)果、非預(yù)期結(jié)果、度量和權(quán)重,在AI系統(tǒng)中運(yùn)行測試用例

4. 處理結(jié)果

5. 根據(jù)每個測試用例的總權(quán)重創(chuàng)建測試結(jié)果

6. 將結(jié)果與以前版本的結(jié)果進(jìn)行比較

5. 總結(jié)

人工智能的世界非常動態(tài):算法不等同于代碼,而是訓(xùn)練數(shù)據(jù)和標(biāo)簽的結(jié)果。隨著世界的變化,訓(xùn)練數(shù)據(jù)將不斷更新。人工智能的輸出不是布爾值,而是所有標(biāo)簽的計(jì)算結(jié)果,這些結(jié)果可能都是相關(guān)的。盡管存在低透明度和偏差風(fēng)險,但人工智能正被用于決策,是人們世界的重要組成部分。測試人員必須通過確定用戶群體及其特定期望和需求,并展示系統(tǒng)如何反映這些期望和需求,在創(chuàng)建透明度方面發(fā)揮作用。為此,需要一個自動測試框架來比較人工智能系統(tǒng)的許多版本,不斷監(jiān)測生產(chǎn)質(zhì)量,并為優(yōu)化提供指導(dǎo)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 測試
    +關(guān)注

    關(guān)注

    8

    文章

    5331

    瀏覽量

    126755
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31097

    瀏覽量

    269423

原文標(biāo)題:淺析AI測試

文章出處:【微信號:TestinChina,微信公眾號:Testin云測】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    MLCommons推出AI基準(zhǔn)測試0.5版

    開放式機(jī)器學(xué)習(xí)工程聯(lián)盟 MLCommons 在美國加州當(dāng)?shù)貢r間公布推出適用于消費(fèi)類 PC 的 AI 性能的 MLPerf Client 基準(zhǔn)測試的 0.5 版,這是該測試的第一個公開版本
    的頭像 發(fā)表于 12-12 16:47 ?343次閱讀

    智慧交通AI監(jiān)控視頻分析應(yīng)用方案

    隨著社會的進(jìn)步和科技的不斷發(fā)展,互聯(lián)網(wǎng)技術(shù)和AI視覺分析技術(shù)日益成熟,為傳統(tǒng)交通監(jiān)控領(lǐng)域帶來了新的發(fā)展機(jī)遇。AI視覺分析技術(shù)的引入,不僅提升了交通監(jiān)控的智能化和自動化水平,還顯著減輕了
    的頭像 發(fā)表于 11-29 14:12 ?206次閱讀
    智慧交通<b class='flag-5'>AI</b>監(jiān)控視頻<b class='flag-5'>分析</b>應(yīng)用方案

    云端AI開發(fā)環(huán)境分析

    當(dāng)今,云端AI開發(fā)環(huán)境作為支撐AI技術(shù)快速迭代與應(yīng)用部署的關(guān)鍵基礎(chǔ)設(shè)施,扮演著至關(guān)重要的角色。下面,AI部落小編為您分析云端AI開發(fā)環(huán)境。
    的頭像 發(fā)表于 11-25 10:27 ?167次閱讀

    AI模型托管原理分析

    AI模型托管是指將訓(xùn)練好的AI模型部署在云端或邊緣服務(wù)器上,由第三方平臺提供模型運(yùn)行、管理和優(yōu)化等服務(wù)。以下,AI部落小編將對AI模型托管的原理進(jìn)行詳細(xì)
    的頭像 發(fā)表于 11-07 09:33 ?205次閱讀

    AI模型市場分析

    隨著人工智能技術(shù)的快速發(fā)展,AI模型已成為全球科技競爭的新高地、未來產(chǎn)業(yè)的新賽道以及經(jīng)濟(jì)發(fā)展的新引擎。下面,AI部落小編分析了當(dāng)前AI模型市場。
    的頭像 發(fā)表于 11-01 09:51 ?173次閱讀

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧涉及多個方面,以下是一些關(guān)鍵的步驟和注意事項(xiàng): 一、明確任務(wù)目標(biāo)和需求 在使用AI大模型之前,首先要明確數(shù)據(jù)分析的任務(wù)目標(biāo),這將直接影響模型的選擇、數(shù)據(jù)
    的頭像 發(fā)表于 10-23 15:14 ?864次閱讀

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    人工智能在科學(xué)研究中的核心技術(shù),包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。這些技術(shù)構(gòu)成了AI for Science的基石,使得AI能夠處理和分析復(fù)雜的數(shù)據(jù)集,從而發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和規(guī)律。 2. 高性能
    發(fā)表于 10-14 09:16

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析 想問下哪些比較容易學(xué) 不過好像都是要學(xué)的
    發(fā)表于 09-26 15:24

    摩爾線程與師者AI攜手完成70億參數(shù)教育AI大模型訓(xùn)練測試

    近日,國內(nèi)知名的GPU制造商摩爾線程與全學(xué)科教育AI大模型“師者AI”聯(lián)合宣布,雙方已成功完成了一項(xiàng)重要的大模型訓(xùn)練測試。此次測試依托摩爾線程夸娥(KUAE)千卡智算集群,充分展現(xiàn)了其
    的頭像 發(fā)表于 06-14 16:31 ?599次閱讀

    STM CUBE AI錯誤導(dǎo)入onnx模型報錯的原因?

    使用cube-AI分析模型時報錯,該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.ai
    發(fā)表于 05-27 07:15

    為什么用CubeIDE導(dǎo)入AI模型進(jìn)行分析會報錯?

    python已經(jīng)安裝好了,但是在用CubeAI的時候,導(dǎo)入模型進(jìn)行分析會報錯,無法分析。有知道為什么會報[AI:persondetection][12152] Failed to execute
    發(fā)表于 05-22 06:38

    UL Procyon AI 發(fā)布圖像生成基準(zhǔn)測試,基于Stable Diffusion

    UL去年發(fā)布的首個Windows版Procyon AI推理基準(zhǔn)測試,以計(jì)算機(jī)視覺工作負(fù)載評估AI推理性能。新推出的圖像生成測試將提供統(tǒng)一、精確且易于理解的工作負(fù)載,用以保證各支持硬件間
    的頭像 發(fā)表于 03-25 16:16 ?905次閱讀

    使用cube-AI分析模型時報錯的原因有哪些?

    使用cube-AI分析模型時報錯,該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.ai
    發(fā)表于 03-14 07:09

    NanoEdge AI的技術(shù)原理、應(yīng)用場景及優(yōu)勢

    NanoEdge AI 是一種基于邊緣計(jì)算的人工智能技術(shù),旨在將人工智能算法應(yīng)用于物聯(lián)網(wǎng)(IoT)設(shè)備和傳感器。這種技術(shù)的核心思想是將數(shù)據(jù)處理和分析從云端轉(zhuǎn)移到設(shè)備本身,從而減少數(shù)據(jù)傳輸延遲、降低
    發(fā)表于 03-12 08:09

    是德科技推出AI數(shù)據(jù)中心測試平臺

    是德科技近期宣布,針對蓬勃發(fā)展的AI和ML基礎(chǔ)設(shè)施生態(tài)系統(tǒng),隆重推出了全新的AI數(shù)據(jù)中心測試平臺。該平臺專為加速AI/ML網(wǎng)絡(luò)驗(yàn)證與優(yōu)化而設(shè)計(jì),極大地提升了
    的頭像 發(fā)表于 03-08 10:17 ?741次閱讀