(文章來源:網(wǎng)絡(luò)整理)
機器學習涉及到很多的學科和門類,在我看來,它更像是各個學科的集合體,因此想要學好機器學習,你需要具備很多方面的知識,不過也并不是所有人會用到機器學習的每個細節(jié),因此可以根據(jù)自己的專長有針對性的學習。
我目前也在學習相關(guān)的技術(shù)資料,再加上之前也接觸過這方面的工作,所以對于機器學習方面還是有一定的了解,在我看來無論是什么樣的機器學習模型、分類、算法都是依托于原始數(shù)據(jù)的,原始數(shù)據(jù)的分析和處理是前提也是很重要的部分。
通常我身邊的工程師在進行相關(guān)設(shè)計的時候有一個慣性的思維,先采集一大堆的數(shù)據(jù)然后用工具分析特征和生成模型,之后通過大量的數(shù)據(jù)采集來實現(xiàn)模型的修正和完善,這種方式應該也是很多設(shè)計人員通常的思路,而且一般的情況下要求硬件采集設(shè)備盡可能的提供多種參數(shù),這樣可以豐富算法模型的輸入?yún)?shù),理論上可以更好地接近實際的結(jié)果,在純技術(shù)的角度上這個是可行的,而且隨著樣本量的增加,采用機器學習的思路,最終的模型和算法會越來越精確。
這樣的設(shè)計方法對于已有理想樣本或是可以很容易獲取樣本數(shù)據(jù)的前提下是非常高效的,但是如果已有樣本不是很理想,存在大量干擾成分,樣本數(shù)據(jù)受人為因素或者必須由人工采集獲取數(shù)據(jù)時,傳統(tǒng)的方法就沒有太大優(yōu)勢了。這個時候需要對數(shù)據(jù)進行預處理和必要的分析,需要確定幾個問題:
一、預先確定幾個需要研究的參數(shù),選擇參數(shù)時需要有一定的依據(jù)和相關(guān)性,拿紅外信號輸出信號分析舉例,可以從公開的資料中知道紅外傳感器會受到溫度和光譜范圍的影響導致輸出曲線的變化,那么溫度和光譜范圍就是需要研究的參數(shù)。
二、確定了參數(shù)之后,先不要對所有參數(shù)進行樣本數(shù)據(jù)采樣,而是針對單一參數(shù)進行數(shù)據(jù)采樣,徹底明確單一參數(shù)對于最終結(jié)果的影響程度,也就是權(quán)重,用函數(shù)關(guān)系表示即:Y = F(X), Y為結(jié)果,X為樣本數(shù)據(jù)參數(shù),數(shù)據(jù)處理過程包括平滑、篩選、剔除、插入等基本操作,也就是預處理過程,之后可以生成基本的函數(shù)關(guān)系或?qū)φ毡?,為后續(xù)的大模型的建立提供數(shù)據(jù)支持。
三、將每種數(shù)據(jù)參數(shù)的影響程度量化之后,我們就獲取了所有的參數(shù)對照表和函數(shù)對應關(guān)系,利用這些已有的結(jié)果建立整個算法模型和框架結(jié)構(gòu),在模型中將每種數(shù)據(jù)的權(quán)重設(shè)計好,最終形成一個初步的機器學習模式。
四、在實現(xiàn)了以上三步之后,我們最終可以通過大數(shù)據(jù)樣本的采集來實現(xiàn)整個機器學習模型的完善,最終實現(xiàn)之前制定的目標。
(責任編輯:fqj)
-
機器學習
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132905 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1460瀏覽量
34109
發(fā)布評論請先 登錄
相關(guān)推薦
評論