0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)這四個(gè)東西你知道幾個(gè)?

倩倩 ? 來(lái)源:潤(rùn)森知識(shí) ? 2020-04-15 15:44 ? 次閱讀

分類變量特征提取

分類數(shù)據(jù)的獨(dú)熱編碼方法,分類變量特征提?。∣ne-of-K or One-Hot Encoding):通過(guò)二進(jìn)制數(shù)來(lái)表示每個(gè)解釋變量的特征

from sklearn.feature_extraction import DictVectorizer

onhot_encoder = DictVectorizer()

instances=[{‘city’:‘New York’},{‘city’:‘San Francisco’},{‘city’:‘Chapel Hill’}]

print (onhot_encoder.fit_transform(instances).toarray())

[[0. 1. 0.]

[0. 0. 1.]

[1. 0. 0.]]

文字特征提取-詞庫(kù)模型

文字模型化最常用方法,可以看成是獨(dú)熱編碼的一種擴(kuò)展,它為每個(gè)單詞設(shè)值一個(gè)特征值。依據(jù)是用類似單詞的文章意思也差不多??梢酝ㄟ^(guò)有限的編碼信息實(shí)現(xiàn)有效的文檔分類和檢索。

CountVectorizer 類會(huì)將文檔全部轉(zhuǎn)換成小寫,然后將文檔詞塊化(tokenize)。文檔詞塊化是把句子分割成詞塊(token)或有意義的字母序列的過(guò)程。詞塊大多是單詞,但是他們也可能是一些短語(yǔ),如標(biāo)點(diǎn)符號(hào)和詞綴。

CountVectorizer類通過(guò)正則表達(dá)式用空格分割句子,然后抽取長(zhǎng)度大于等于2的字母序列。

from sklearn.feature_extraction.text import CountVectorizer

corpus = [

‘UNC played Duke in basketball’,

‘Duke lost the basketball game’,

‘I ate a sandwich’

vectorizer = CountVectorizer()

print (vectorizer.fit_transform(corpus).todense())

print (vectorizer.vocabulary_)

[[0 1 1 0 1 0 1 0 0 1]

[0 1 1 1 0 1 0 0 1 0]

[1 0 0 0 0 0 0 1 0 0]]

{‘unc’: 9, ‘played’: 6, ‘duke’: 2, ‘in’: 4, ‘basketball’: 1, ‘lost’: 5, ‘the’: 8, ‘game’: 3, ‘a(chǎn)te’: 0, ‘sandwich’: 7}

對(duì)比文檔的特征向量

對(duì)比文檔的特征向量,會(huì)發(fā)現(xiàn)前兩個(gè)文檔相比第三個(gè)文檔更相似。如果用歐氏距離(Euclidean distance)計(jì)算它們的特征向量會(huì)比其與第三個(gè)文檔距離更接近。

兩向量的歐氏距離就是兩個(gè)向量歐氏范數(shù)(Euclidean norm)或L2范數(shù)差的絕對(duì)值:d=||x0-x1||向量的歐氏范數(shù)是其元素平方和的平方根:scikit-learn里面的euclidean_distances函數(shù)可以計(jì)算若干向量的距離,表示兩個(gè)語(yǔ)義最相似的文檔其向量在空間中也是最接近的。

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.metrics.pairwise import euclidean_distances

vectorizer = CountVectorizer()

corpus = [

‘UNC played Duke in basketball’,

‘Duke lost the basketball game’,

‘I ate a sandwich’

counts = vectorizer.fit_transform(corpus).todense()

for x,y in [[0,1],[0,2],[1,2]]:

dist = euclidean_distances(counts[x],counts[y])

print(‘文檔{}與文檔{}的距離{}’.format(x,y,dist))

文檔0與文檔1的距離[[2.44948974]]

文檔0與文檔2的距離[[2.64575131]]

文檔1與文檔2的距離[[2.64575131]]

圖片特征的提取

數(shù)字圖像通常是一張光柵圖或像素圖,將顏色映射到網(wǎng)格坐標(biāo)里。一張圖片可以看成是一個(gè)每個(gè)元素都是顏色值的矩陣。表示圖像基本特征就是將矩陣每行連起來(lái)變成一個(gè)行向量。光學(xué)文字識(shí)別(Optical character recognition,OCR)是機(jī)器學(xué)習(xí)的經(jīng)典問(wèn)題。

scikit-learn的digits數(shù)字集包括至少1700種0-9的手寫數(shù)字圖像。每個(gè)圖像都有8x8像像素構(gòu)成。每個(gè)像素的值是0-16,白色是0,黑色是16。

# 通過(guò)像素提取特征值

from sklearn import datasets

import matplotlib.pyplot as plt

digits = datasets.load_digits()

print(‘Digit:’,digits.target[0])

print (digits.images[0])

plt.figure()

plt.axis(‘off’)

plt.imshow(digits.images[0], cmap=plt.cm.gray_r, interpolation=‘nearest’)

plt.show()

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 二進(jìn)制
    +關(guān)注

    關(guān)注

    2

    文章

    795

    瀏覽量

    41653
  • 數(shù)字圖像
    +關(guān)注

    關(guān)注

    2

    文章

    119

    瀏覽量

    18762
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    942

    瀏覽量

    54831
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    智譜推出四個(gè)全新端側(cè)模型 攜英特爾按下AI普及加速鍵

    ,GLM-Edge-4B-chat、GLM-Edge-1.5B-chat為端側(cè)大語(yǔ)言模型,GLM-Edge-V-5B、GLM-Edge-V-2B為端側(cè)多模態(tài)模型,這四個(gè)模型分別具有4.3B/1.5B
    的頭像 發(fā)表于 12-02 17:13 ?210次閱讀
    智譜推出<b class='flag-5'>四個(gè)</b>全新端側(cè)模型 攜英特爾按下AI普及加速鍵

    有兩組I2S信號(hào)送入到CS48540(DSP)中處理,在這四個(gè)IC中是依據(jù)什么來(lái)設(shè)置主從關(guān)系的呢?

    如上圖所示,有兩組I2S 信號(hào)(CS8416與PCM1808)送入到CS48540(DSP)中處理,在這四個(gè)IC中是依據(jù)什么來(lái)設(shè)置主從關(guān)系的呢?謝謝!
    發(fā)表于 11-04 06:47

    用PPS編譯生成了一個(gè).h文件,文件里頭的接口段代碼{44,28,0,0}這四個(gè)數(shù)字分別代表什么意思???

    VOLUME_control_names[] = { \"Volume_1\" }; 我想問(wèn)的是{44,28,0,0}這四個(gè)數(shù)字分別代表什么意思???還請(qǐng)大家指教,不勝感激~!
    發(fā)表于 10-30 06:37

    使用OPA180運(yùn)放構(gòu)建差分放大器,如何確定四個(gè)電阻的大小?

    我目前打算使用OPA180運(yùn)放構(gòu)建差分放大器。如下圖所示 如果我的放大倍數(shù)取0.4,那么取R1=R2=300K,RF=RG=120K,和R1=R2=30K,RF=RG=12K這兩個(gè)選取哪一組比較好。或者有什么方法可以用來(lái)確定這四個(gè)電阻的大小。謝謝!
    發(fā)表于 08-16 12:36

    IGBT的四個(gè)主要參數(shù)

    IGBT的四個(gè)主要參數(shù)對(duì)于選擇合適的IGBT器件至關(guān)重要。本文將介紹IGBT的四個(gè)主要參數(shù):電壓等級(jí)、電流等級(jí)、開(kāi)關(guān)頻率和熱性能。 1. 電壓等級(jí) 電壓等級(jí)是IGBT的一個(gè)重要參數(shù),它決定了IGBT能夠承受的最大電壓。電壓等級(jí)的
    的頭像 發(fā)表于 07-25 11:05 ?3527次閱讀

    四個(gè)2輸入異或門數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《四個(gè)2輸入異或門數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 05-22 09:58 ?0次下載
    <b class='flag-5'>四個(gè)</b>2輸入異或門數(shù)據(jù)表

    四個(gè)2輸入正極和柵極數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《四個(gè)2輸入正極和柵極數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 05-17 10:28 ?0次下載
    <b class='flag-5'>四個(gè)</b>2輸入正極和柵極數(shù)據(jù)表

    四個(gè)2輸入正極和柵極數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《四個(gè)2輸入正極和柵極數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 05-16 10:22 ?0次下載
    <b class='flag-5'>四個(gè)</b>2輸入正極和柵極數(shù)據(jù)表

    四個(gè)2輸入異或門數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《四個(gè)2輸入異或門數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 05-13 11:04 ?0次下載
    <b class='flag-5'>四個(gè)</b>2輸入異或門數(shù)據(jù)表

    四個(gè)2輸入正極和柵極數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《四個(gè)2輸入正極和柵極數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 05-10 10:10 ?0次下載
    <b class='flag-5'>四個(gè)</b>2輸入正極和柵極數(shù)據(jù)表

    為什么UM0424的FS-USB的庫(kù)文件里面丟失了幾個(gè)文件?

    在V3.3的版本里面有以下幾個(gè)文件: otgd_fs_cal.c otgd_fs_dev.c otgd_fs_pcd.c otgd_fs_int.c 以及對(duì)應(yīng)的.h文件。 但是升級(jí)到V4.0.0的版本后,這四個(gè)文件以及對(duì)應(yīng)的.h文件都去掉了。
    發(fā)表于 05-07 07:55

    半導(dǎo)體發(fā)展的四個(gè)時(shí)代

    臺(tái)積電的 Suk Lee 發(fā)表了題為“摩爾定律和半導(dǎo)體行業(yè)的第四個(gè)時(shí)代”的主題演講。Suk Lee表示,任何試圖從半導(dǎo)體行業(yè)傳奇而動(dòng)蕩的歷史中發(fā)掘出一些意義的事情都會(huì)引起我的注意。正如臺(tái)積電所解釋
    發(fā)表于 03-27 16:17

    半導(dǎo)體發(fā)展的四個(gè)時(shí)代

    臺(tái)積電的 Suk Lee 發(fā)表了題為“摩爾定律和半導(dǎo)體行業(yè)的第四個(gè)時(shí)代”的主題演講。Suk Lee表示,任何試圖從半導(dǎo)體行業(yè)傳奇而動(dòng)蕩的歷史中發(fā)掘出一些意義的事情都會(huì)引起我的注意。正如臺(tái)積電所解釋
    發(fā)表于 03-13 16:52

    電容6大特性參數(shù),知道幾個(gè)?

    硬件設(shè)計(jì)好不好,電容參數(shù)知多少? 原文整理自書籍《硬件設(shè)計(jì)指南》 電容是我們電子電路設(shè)計(jì)中最常用的元件之一,除了基本的電容容值之外,電容還有其他6大參數(shù),知道幾個(gè)呢?本文章介紹MLCC陶瓷電容6
    的頭像 發(fā)表于 02-21 15:10 ?1084次閱讀
    電容6大特性參數(shù),<b class='flag-5'>你</b><b class='flag-5'>知道</b><b class='flag-5'>幾個(gè)</b>?

    四個(gè)引腳無(wú)源晶振的接線方法

    無(wú)源晶振是一種常用的被動(dòng)元件,用于產(chǎn)生穩(wěn)定的時(shí)鐘信號(hào)。它通常有四個(gè)引腳,分別是VCC、GND、OUT和NC。
    的頭像 發(fā)表于 01-23 18:15 ?6627次閱讀