加勒比东京热不卡一区二区,老妇炕上偷老汉视频露脸,艾草精品视频一区二区

在上一篇文章中，我們介紹了機器學習的關鍵概念術語。在本文中，我們會介紹傳統(tǒng)機器學習的基礎知識和多種算法特征，供各位老師選擇。

傳統(tǒng)機器學習

傳統(tǒng)機器學習，一般指不基于神經(jīng)網(wǎng)絡的算法，適合用于開發(fā)生物學數(shù)據(jù)的機器學習方法。盡管深度學習（一般指神經(jīng)網(wǎng)絡算法）是一個強大的工具，目前也非常流行，但它的應用領域仍然有限。與深度學習相比，傳統(tǒng)方法在給定問題上的開發(fā)和測試速度更快。開發(fā)深度神經(jīng)網(wǎng)絡的架構并進行訓練是一項耗時且計算成本高昂的任務，而傳統(tǒng)的支持向量機（SVM）和隨機森林等模型則相對簡單。此外，在深度神經(jīng)網(wǎng)絡中估計特征重要性（即每個特征對預測的貢獻程度）或模型預測的置信度仍然不是一件容易的事。即使使用深度學習模型，通常仍應訓練一個傳統(tǒng)方法，與基于神經(jīng)網(wǎng)絡的模型進行比較。

傳統(tǒng)方法通常期望數(shù)據(jù)集中的每個樣本具有相同數(shù)量的特征，但是生物學檢測數(shù)據(jù)很難滿足這個需求。舉例說明，當使用蛋白質(zhì)、RNA的表達水平矩陣時，每個樣本表達的蛋白質(zhì)、RNA數(shù)量不同。為了使用傳統(tǒng)方法處理這些數(shù)據(jù)，可以通過簡單的技術（如填充和窗口化）將數(shù)據(jù)調(diào)整為相同的大小。“填充”意味著將每個樣本添加額外的零值，直到它與數(shù)據(jù)集中最大的樣本大小相同。相比之下，窗口化將每個樣本縮短到給定的大小（例如，使用在所有樣品中均表達的蛋白質(zhì)、RNA）。

表1. 傳統(tǒng)機器學習方法比較

回歸模型

對于回歸問題，嶺回歸（帶有正則化項的線性回歸）通常是開發(fā)模型的良好起點。因為它可以為給定任務提供快速且易于理解的基準。當希望減少模型依賴的特征數(shù)時，比如篩選生物標志物研究時，其他線性回歸變體如LASSO回歸和彈性網(wǎng)絡回歸也是值得考慮的。數(shù)據(jù)中特征之間的關系通常是非線性的，因此在這種情況下使用如支持向量機（SVM）的模型通常是更合適的選擇。SVM是一種強大的回歸和分類模型，它使用核函數(shù)將不可分的問題轉(zhuǎn)換為更容易解決的可分問題。根據(jù)使用的核函數(shù)，SVM可以用于線性回歸和非線性回歸。一個開發(fā)模型的好方法是訓練一個線性SVM和一個帶有徑向基函數(shù)核的SVM（一種通用的非線性SVM），以量化非線性模型是否能帶來任何增益。非線性方法可以提供更強大的模型，但代價是難以解釋哪些特征在影響模型。

分類模型

許多常用的回歸模型也用于分類。對于分類任務，訓練一個線性SVM和一個帶有徑向基函數(shù)核的SVM也是一個好的默認起點。另一種可以嘗試的方法是k近鄰分類（KNN）。作為最簡單的分類方法之一，KNN提供了與其他更復雜的模型（如SVM）進行比較的有用基線性能指標。另一類強大的非線性方法是基于集成的模型，如隨機森林和XGBoost。這兩種方法都是強大的非線性模型，具有提供特征重要性估計和通常需要最少超參數(shù)調(diào)優(yōu)的優(yōu)點。由于特征重要性值的分配和決策樹結構，這些模型可分析哪些特征對預測貢獻最大，這對于生物學理解至關重要。

無論是分類還是回歸，許多可用的模型都有令人眼花繚亂的變體。試圖預測特定方法是否適合特定問題可能會有誤導性，因此采取經(jīng)驗性的試錯方法來找到最佳模型是明智的選擇。選擇最佳方法的一個好策略是訓練和優(yōu)化上述多種方法，并選擇在驗證集上表現(xiàn)最好的模型，最后再在獨立的測試集上比較它們的性能。

聚類模型和降維

聚類算法在生物學中廣泛應用。k-means是一種強大的通用聚類方法，像許多其他聚類算法一樣，需要將聚類的數(shù)量設置為超參數(shù)。DBSCAN是一種替代方法，不需要預先定義聚類的數(shù)量，但需要設置其他超參數(shù)。在聚類之前進行降維也可以提高具有大量特征的數(shù)據(jù)集的性能。

降維技術用于將具有大量屬性（或維度）的數(shù)據(jù)轉(zhuǎn)換為低維形式，同時盡可能保留數(shù)據(jù)點之間的不同關系。例如，相似的數(shù)據(jù)點（如兩個同源蛋白序列）在低維形式中也應保持相似，而不相似的數(shù)據(jù)點（如不相關的蛋白序列）應保持不相似。通常選擇兩維或三維，以便在坐標軸上可視化數(shù)據(jù)，盡管在機器學習中使用更多維度也有其用途。這些技術包括數(shù)據(jù)的線性和非線性變換。生物學中常見的例子包括主成分分析（PCA）、均勻流形逼近和投影（UMAP）以及t分布隨機鄰域嵌入（t-SNE）。

圖1. 各種傳統(tǒng)機器學習模型

本文詳細介紹了傳統(tǒng)機器學習方法和應用指導，下一篇文章將介紹深度神經(jīng)網(wǎng)絡算法模型，敬請期待。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡

+關注

關注
42

文章
4793

瀏覽量
101997
機器學習

機器學習

+關注

關注
66

文章
8471

瀏覽量
133718

原文標題：生物學家的機器學習指南（三）

文章出處：【微信號：SBCNECB，微信公眾號：上海生物芯片】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

一種無刷直流電機霍耳信號與定子繞組關系自學習方法

的關系。提出了一種無刷直流電機霍耳信號與定子繞組關系自學習方法，該方法通過不同的繞組通電組合將電機轉(zhuǎn)子依次轉(zhuǎn)到6個不同的位置并記錄對應的霍耳信號，然后得出霍耳信號與定子繞組的對應關系。所提出的方法快速

發(fā)表于 03-25 15:15

DeepSeek與Kimi揭示o1秘密，思維鏈學習方法顯成效

據(jù)消息，OpenAI近日發(fā)布了一項重要研究報告。報告指出，DeepSeek和Kimi兩家機構通過獨立研究，成功利用思維鏈學習方法，在數(shù)學解題與編程挑戰(zhàn)中顯著提升了模型的綜合表現(xiàn)。 Kimi的研究員

發(fā)表于 02-18 15:13 ?305次閱讀

什么是機器學習？通過機器學習方法能解決哪些問題？

來源：Master編程樹“機器學習”最初的研究動機是讓計算機系統(tǒng)具有人的學習能力以便實現(xiàn)人工智能。因為沒有學習能力的系統(tǒng)很難被認為是具有智能的。目前被廣泛采用的

發(fā)表于 11-16 01:07 ?685次閱讀

什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>？通過<b class='flag-5'>機器</b><b class='flag-5'>學習方法</b>能解決哪些問題？

NPU與機器學習算法的關系

緊密。 NPU的起源與特點 NPU的概念最早由谷歌在其TPU（Tensor Processing Unit）項目中提出，旨在為TensorFlow框架提供專用的硬件加速。NPU的設計目標是提高機器學習算法的運行效率，特別是在處理大規(guī)模數(shù)據(jù)集和復雜神經(jīng)網(wǎng)絡模型時。與

發(fā)表于 11-15 09:19 ?933次閱讀

LLM和傳統(tǒng)機器學習的區(qū)別

在人工智能領域，LLM（Large Language Models，大型語言模型）和傳統(tǒng)機器學習是兩種不同的技術路徑，它們在處理數(shù)據(jù)、模型結構、應用場景等方面有著顯著的差異。 1. 模型結構

發(fā)表于 11-08 09:25 ?1478次閱讀

如何使用 PyTorch 進行強化學習

強化學習（Reinforcement Learning, RL）是一種機器學習方法，它通過與環(huán)境的交互來學習如何做出決策，以最大化累積獎勵。PyTorch 是一個流行的開源

發(fā)表于 11-05 17:34 ?709次閱讀

麻省理工學院推出新型機器人訓練模型

近日，據(jù)TechCrunch報道，麻省理工學院的研究團隊展示了一種創(chuàng)新的機器人訓練模型，該模型突破了傳統(tǒng)模仿學習方法的局限，不再依賴標準數(shù)據(jù)集，而是借鑒了大型語言模型（LLM）如GPT-4等所使用的大規(guī)模信息處理方式，為

發(fā)表于 11-04 14:56 ?729次閱讀

AI大模型與傳統(tǒng)機器學習的區(qū)別

AI大模型與傳統(tǒng)機器學習在多個方面存在顯著的區(qū)別。以下是對這些區(qū)別的介紹：一、模型規(guī)模與復雜度 AI大模型：通常包含數(shù)十億甚至數(shù)萬億的參數(shù)，模型大小可以達到數(shù)百GB甚至更大。這些模型結構復雜，由

發(fā)表于 10-23 15:01 ?2057次閱讀

【《時間序列與機器學習》閱讀體驗】+ 了解時間序列

學習方法對該序列數(shù)據(jù)進行分析，可以得到結論或預測估計，因此時間序列分析的用途是非常多的，比如：可以反映社會經(jīng)濟現(xiàn)象的發(fā)展變化過程，描述現(xiàn)象的發(fā)展狀態(tài)和結果。可以研究社會經(jīng)濟現(xiàn)象的發(fā)展趨勢和發(fā)展速度

發(fā)表于 08-11 17:55

機器學習中的數(shù)據(jù)分割方法

在機器學習中，數(shù)據(jù)分割是一項至關重要的任務，它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習中數(shù)據(jù)分割的方法

發(fā)表于 07-10 16:10 ?2639次閱讀

深度學習中的無監(jiān)督學習方法綜述

應用中往往難以實現(xiàn)。因此，無監(jiān)督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的無監(jiān)督學習方法，包括自編碼器、生成對抗網(wǎng)絡、聚類算法等，并分析它們的原理、應用場景以及優(yōu)

發(fā)表于 07-09 10:50 ?1277次閱讀

人工神經(jīng)網(wǎng)絡與傳統(tǒng)機器學習模型的區(qū)別

人工神經(jīng)網(wǎng)絡（ANN）與傳統(tǒng)機器學習模型之間的不同，包括其原理、數(shù)據(jù)處理能力、學習方法、適用場景及未來發(fā)展趨勢等方面，以期為讀者提供一個全面的視角。

發(fā)表于 07-04 14:08 ?2082次閱讀

深度學習的基本原理與核心算法

隨著大數(shù)據(jù)時代的到來，傳統(tǒng)機器學習方法在處理復雜模式上的局限性日益凸顯。深度學習（Deep Learning）作為一種新興的人工智能技術，以其強大的非線性表達能力和自

發(fā)表于 07-04 11:44 ?2999次閱讀

機器人視覺技術中圖像分割方法有哪些

和分析。本文將詳細介紹圖像分割的各種方法，包括傳統(tǒng)的圖像處理方法和基于深度學習的方法。閾值分割法閾值分割法是一種基于像素的圖像分割

發(fā)表于 07-04 11:34 ?1363次閱讀

深度學習與傳統(tǒng)機器學習的對比

在人工智能的浪潮中，機器學習和深度學習無疑是兩大核心驅(qū)動力。它們各自以其獨特的方式推動著技術的進步，為眾多領域帶來了革命性的變化。然而，盡管它們都屬于機器

發(fā)表于 07-01 11:40 ?1910次閱讀

搜索歷史

傳統(tǒng)機器學習方法和應用指導

評論

一種無刷直流電機霍耳信號與定子繞組關系自學習方法

DeepSeek與Kimi揭示o1秘密，思維鏈學習方法顯成效

什么是機器學習？通過機器學習方法能解決哪些問題？

NPU與機器學習算法的關系

LLM和傳統(tǒng)機器學習的區(qū)別

如何使用 PyTorch 進行強化學習

麻省理工學院推出新型機器人訓練模型

AI大模型與傳統(tǒng)機器學習的區(qū)別

【《時間序列與機器學習》閱讀體驗】+ 了解時間序列

機器學習中的數(shù)據(jù)分割方法

深度學習中的無監(jiān)督學習方法綜述

人工神經(jīng)網(wǎng)絡與傳統(tǒng)機器學習模型的區(qū)別

深度學習的基本原理與核心算法

機器人視覺技術中圖像分割方法有哪些

深度學習與傳統(tǒng)機器學習的對比

電子發(fā)燒友