以下有部分公式,如果無(wú)法顯示,請(qǐng)?jiān)L問原文鏈接
從本文開始,之后的三四篇我們都將沐浴在數(shù)學(xué)的海洋里,拼命地?fù)潋v,這個(gè)系列我會(huì)盡力以通俗易懂的方式來講述這些數(shù)學(xué)知識(shí)。
1 函數(shù)
1.1 一次函數(shù)
在數(shù)學(xué)函數(shù)中最基本、最重要的就是一次函數(shù)
。也就是函數(shù)之基礎(chǔ)、根本。它在神經(jīng)網(wǎng)絡(luò)的世界里也同樣重要。
1.1.1 一元一次函數(shù)
這個(gè)函數(shù)可以用下面的式表示。$a$被稱為斜率
(用來控制直線的方向),$b$被稱為截距
(用來控制直線和原點(diǎn)的偏移)
$$y=ax+b(a、b為常數(shù),a/neq 0)$$
當(dāng)x、y兩個(gè)變量滿足上述公式時(shí),就稱為變量y和變量x是一次函數(shù)關(guān)系
。
有兩個(gè)變量$x$和$y$,如果對(duì)每個(gè)$x$都有唯一確定的$y$與它對(duì)應(yīng),則稱$y$是$x$的函數(shù),用 $y=f(x)$ 表示。此時(shí),稱$x$為自變量,$y$為因變量。
一次函數(shù)的圖像是直線,如下圖的直線所示。
示例:一次函數(shù)$y=2x+1$的圖像如下圖所示,截距為 1,斜率為 2。
1.1.2 多元一次函數(shù)
上面我們說的$y=ax+b$中有一個(gè)變量x,我們稱為一元,如果有多個(gè)變量,我們就稱為是多元的,比如下面的式子。(有幾個(gè)變量就是幾元的,也可以理解為維度)
$$y=ax_1+bx_2+...+c(a、b、c為常數(shù),a/neq 0,b/neq 0)$$
當(dāng)多個(gè)變量滿足上述公式時(shí),也稱為變量y與變量是一次函數(shù)關(guān)系
。
就像我們之前說的神經(jīng)元的加權(quán)輸入
$z$就可以表示為一次函數(shù)關(guān)系。如果把作為參數(shù)的權(quán)重$w_1、w_2、...、w_n$與偏置$b$看作常數(shù),那么加權(quán)輸入$z$h和$w_1、w_2、...、w_n$就是一次函數(shù)關(guān)系。
$$z=w_1x_1+w_2x_2+...+w_nx_n+b$$
1.2 二次函數(shù)
1.2.1 一元二次函數(shù)
剛剛我們接觸了一次函數(shù),下面說說二次函數(shù)。二次函數(shù)很重要,像我們經(jīng)常使用的代價(jià)函數(shù)
平方誤差就是二次函數(shù)。二次函數(shù)由下面的式表示。
$$y=ax^2+bx+c(a、b、c為常數(shù),a/neq 0)$$
二次函數(shù)的圖像是拋物線,如下圖所示。我們會(huì)發(fā)現(xiàn)拋物線的凹凸(開口朝向)是通過上方式子中$a$的正負(fù)來決定的。
- 當(dāng)$a>0$時(shí),拋物線向上開口,向下凸起
- 當(dāng)$a<0$時(shí),拋物線向下開口,向上凸起。
所以當(dāng)$a>0$時(shí)該函數(shù)的$y$存在最小值。(該性質(zhì)是后面講的最小二乘法的
基礎(chǔ))
示例:二次函數(shù)$y=(x-1)^2+2$的圖像如右圖所示。從圖像中可以看到,當(dāng)$x=1$時(shí),函數(shù)取得最小值$y=2$。
1.2.2 多元二次函數(shù)
在我們實(shí)際的神經(jīng)網(wǎng)絡(luò)中需要處理更多變量的二次函數(shù),這些二次函數(shù)統(tǒng)稱多元二次函數(shù)
,學(xué)會(huì)了一元二次函數(shù),那么多元二次函數(shù)就不會(huì)太難了,下面我們以一個(gè)二元二次函數(shù)進(jìn)行舉例。
就像我們使用的代價(jià)函數(shù)平方誤差c就是多元二次函數(shù):
$$C=(x_1-t_1)^2$$
1.3 單位階躍函數(shù)
之前,我們已經(jīng)接觸過它了,還記得嗎,作為生物界神經(jīng)元的激活函數(shù)。下面我們?cè)僬f一遍吧。
單位階躍函數(shù),在原點(diǎn)處不連續(xù)
,也就是在原點(diǎn)處不可導(dǎo)
,由于這兩個(gè)性質(zhì),所以單位階躍函數(shù)不能成為主要的激活函數(shù)。
$$u(x)=/left//{ /begin{matrix} 0/quad (x<0) //// 1/quad (x/ge 0) /end{matrix} /right//} $$
單位階躍函數(shù)的圖像如下:
1.4 指數(shù)函數(shù)
什么是指數(shù)函數(shù)呢?我們之前講了一次函數(shù)和二次函數(shù),其實(shí)只要把變量放到冪的位置,其實(shí)就是指數(shù)函數(shù)了,具有以下形狀的函數(shù)稱為指數(shù)函數(shù)
,常數(shù)$a$被稱為函數(shù)的底數(shù)
。
$$y=a^x(a為正的常數(shù),a/neq 1)$$
指數(shù)函數(shù)的圖像是類似于撇的一種樣式,如下所示
上面說到底數(shù),就不得不說自然常數(shù)
$e$,又叫納皮爾數(shù)或歐拉數(shù),它和派$/pi$類似,是一個(gè)無(wú)限不循環(huán)小數(shù),它的值如下
$$e/approx 2.71828...$$
1.4.1 sigmoid函數(shù)
上面說到自然常數(shù)e,那么就不得不提到大名鼎鼎的自然指數(shù)函數(shù)$e^x$,它在數(shù)學(xué)界有自己的標(biāo)識(shí)exp
或exp(x)
而我們這里所要講的是包含自然指數(shù)函數(shù)的復(fù)合函數(shù)sigmoid
函數(shù),它是神經(jīng)網(wǎng)絡(luò)中很具有代表性的激活函數(shù)。它的公式如下
$$/sigma (x)=/frac { 1 }{ 1+{ e }^{ -x } } =/frac { 1 }{ 1+exp(-x) } $$
通過下方的圖像,我們可以看到,這個(gè)函數(shù)是光滑的
,這就代表著這個(gè)函數(shù)處處可導(dǎo)
,函數(shù)的取值在(0,1)區(qū)間內(nèi),那么這個(gè)函數(shù)值就可以用概率來解釋
1.5 正態(tài)分布的概率密度函數(shù)
在計(jì)算機(jī)實(shí)際確定神經(jīng)網(wǎng)絡(luò)時(shí),我們需要首先給權(quán)重和偏置設(shè)定初始值,這樣神經(jīng)網(wǎng)絡(luò)才能進(jìn)行計(jì)算。而這個(gè)初始值怎么取呢,這個(gè)時(shí)候我們就會(huì)用到一個(gè)非常有用的工具,叫做正態(tài)分布
,這里就不長(zhǎng)篇大論的解釋啥是正態(tài)分布了,它也沒什么高大上的地方,就是概率分布中的一種分布方式,但是這個(gè)分布方式是及其復(fù)合人類和自然界的,有興趣的朋友可以去深入了解下。在這里只說一下,我們?cè)诮o神經(jīng)網(wǎng)絡(luò)分配權(quán)重和偏置時(shí)分配一個(gè)服從正態(tài)分布的隨機(jī)數(shù),會(huì)比較容易取得好的結(jié)果。
正態(tài)分布是服從下面的概率密度函數(shù)的概率分布。公式如下
$$f/left( x /right) =/frac { 1 }{ /sqrt { 2/pi /sigma } } { e }^{ -/frac { { (x-/mu ) }^{ 2 } }{ 2{ /sigma }^{ 2 } } }$$
- 常數(shù)$/mu$:期望值(平均值)
- $/sigma$:標(biāo)注差
它的圖像如下,由于形狀像教堂的鐘,所以被稱為叫鐘形曲線
示例:試作出期望值$/mu$為0、標(biāo)準(zhǔn)差$/sigma$為1 的正態(tài)分布的概率密度函數(shù)的圖像。
$$f/left( x /right)=/frac { 1 }{ /sqrt { 2/pi } } e^{ -/frac { x^{ 2 } }{ 2 } }$$
2 數(shù)列
2.1 數(shù)列的含義
數(shù)列
就是數(shù)的序列,比如下面就是偶數(shù)列的數(shù)列
$$2,4,6,8,...$$
數(shù)列中的每一個(gè)數(shù)都被稱為項(xiàng)
,排在第一位的項(xiàng)叫做首項(xiàng)
,排在第二位的項(xiàng)叫做第2項(xiàng)
,以此類推,排在第n位的項(xiàng)叫做第n項(xiàng)
(是不是有點(diǎn)廢話),神經(jīng)網(wǎng)絡(luò)中出現(xiàn)的數(shù)列都是有限的數(shù)列,這種數(shù)列叫做有窮數(shù)列
,在有窮數(shù)列中最后一項(xiàng)稱為末項(xiàng)
,數(shù)列中的數(shù)量稱為項(xiàng)數(shù)
,而像上面的偶數(shù)列是無(wú)窮數(shù)列
示例:考察下面的有窮數(shù)列的首項(xiàng),末項(xiàng)以及項(xiàng)數(shù)
$$1,3,5,7,9$$
這個(gè)數(shù)列的首項(xiàng)是1,末項(xiàng)是9,項(xiàng)數(shù)是5
2.2 數(shù)列的通項(xiàng)公式
數(shù)列中排在第$n$項(xiàng)的數(shù)通常用$a_n$表示,這里$a$是數(shù)列的名字,可隨意取。當(dāng)想要表達(dá)整個(gè)數(shù)列時(shí),使用集合的符號(hào)來表示,如$/left//{a_n/right//}$
將數(shù)列的第$n$項(xiàng)用一個(gè)關(guān)于$n$的式子標(biāo)書出來,那么這個(gè)式子被稱為通項(xiàng)公式
,比如偶數(shù)列的通項(xiàng)公式就是下方的式子
$$a_n=2n$$
示例:求以下數(shù)列$/left//{b_n/right//}$的通項(xiàng)公式
$$1,3,5,7,9$$
通項(xiàng)公式為$b_n=2n-1$
在神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元的加權(quán)輸入和輸出可以看成數(shù)列,比如使用下方的展示方式:
- 加權(quán)輸入:第$l$層的第$j$個(gè)神經(jīng)元的加權(quán)輸入用$z_j^l$
- 輸出:第$l$層的第$j$個(gè)神經(jīng)元的輸出用$a_j^l$
2.3 數(shù)列與遞推關(guān)系式
除了通項(xiàng)公式外,數(shù)列還有另外一種表示方式,就是用相鄰的關(guān)系式來表示,這種表示法被稱為數(shù)列的遞歸定義
一般,如果已知首項(xiàng)$a_n$以及相鄰的兩項(xiàng)$a/_n、a/_{n+1}$的關(guān)系式,那么就可以確定這個(gè)序列,這個(gè)關(guān)系式叫遞推關(guān)系式
示例:已知首項(xiàng)$a_1=1$以及關(guān)系式$a/_{n+1}=a/_n+2$,可以確定以下數(shù)列,這個(gè)關(guān)系式就是數(shù)列的遞推關(guān)系式。
$$a/_{1}=1////a/_{2}=a/_{1+1}=a/_{1}+2=1+2=3////a/_{3}=a/_{2+1}=a/_{2}+2=3+2=5////a/_{4}=a/_{3+1}=a/_{3}+2=5+2=7////...////a/_{1}=1,a/_{n+1}=a/_{n}+2$$
2.4 聯(lián)立遞推關(guān)系式
下面我們演示一個(gè)問題,這個(gè)算法就是神經(jīng)網(wǎng)絡(luò)中的誤差反向傳播
中所用到的數(shù)列的解題算法聯(lián)立遞推算法
。
示例:求以下兩個(gè)地推關(guān)系是定義的數(shù)列前3項(xiàng),其中$a_1=b_1=1$
$$/begin{cases} a/_{ n+1 }=a/_{ n }+2b/_{ n }+2 //// b/_{n+1}=2a/_{n}+3b/_{n}+1 /end{cases}$$
解題:
$$/begin{cases} a/_{ 2 }=a/_{ 1 }+2b/_{ 1 }+2=1+2/times 1=5 //// b/_2=2a/_1+3b/_1+1=2/times 1+3/times 1+1=6 /end{cases}$$
$$/begin{cases} a/_{ 3 }=a/_{ 2 }+2b/_{ 2 }+2=5+2/times 6+2=19 //// b/_{ 3 }=2a/_{ 2 }+3b/_{ 2 }+1=2/times 5+3/times 6+1=39 /end{cases}$$
像這樣,將多個(gè)數(shù)列的遞推關(guān)系式聯(lián)合起來組成一組,稱為聯(lián)立遞推關(guān)系式
。在神經(jīng)網(wǎng)絡(luò)的世界中,所有神經(jīng)元的輸入和輸出在數(shù)學(xué)上都可以認(rèn)為是用聯(lián)立遞推式聯(lián)系起來的。例如,我們來看看之前文章中看過的一個(gè)神經(jīng)元的圖片
在箭頭前端標(biāo)記的是權(quán)重,神經(jīng)元的圓圈中標(biāo)記的是神經(jīng)單元的輸出變量。于是,如果以$a(z)$為激活函數(shù),$b_1^3$、$b_2^3$為第3層各個(gè)神經(jīng)元的偏置,那么以下關(guān)系式成立:
$${ a }/_{ 1 }^{ 3 }=a({ w }/_{ 11 }^{ 3 }{ a }/_{ 1 }^{ 2 }+{ w }/_{ 12 }^{ 3 }{ a }/_{ 2 }^{ 2 }+{ w }/_{ 13 }^{ 3 }{ a }/_{ 3 }^{ 2 }+{ b }/_{ 1 }^{ 3 })$$
$${ a }/_{ 2 }^{ 3 }=a({ w }/_{ 21 }^{ 3 }{ a }/_{ 1 }^{ 2 }+{ w }/_{ 22 }^{ 3 }{ a }/_{ 2 }^{ 2 }+{ w }/_{ 23 }^{ 3 }{ a }/_{ 3 }^{ 2 }+{ b }/_{ 2 }^{ 3 })$$
根據(jù)這些關(guān)系式,第3層的輸出$a_1^3$和$a_2^3$由第2層的輸出$a_1^2$、$a_2^2$、$a_3^2$決定。也就是說,第2層的輸出與第3層的輸出由聯(lián)立遞推關(guān)系式聯(lián)系起來。我們之后學(xué)的誤差反向傳播
就是將這種觀點(diǎn)應(yīng)用在神經(jīng)網(wǎng)絡(luò)中。
為什么要將聯(lián)立遞推應(yīng)用在神經(jīng)網(wǎng)絡(luò)中呢?
其實(shí)是因?yàn)閷?duì)比計(jì)算冗長(zhǎng)的偏導(dǎo)關(guān)系式,計(jì)算機(jī)更加擅長(zhǎng)計(jì)算遞推關(guān)系。
評(píng)論請(qǐng)轉(zhuǎn)至原文鏈接
本文來自納蘭小筑,本文不予回復(fù),評(píng)論請(qǐng)追溯原文
審核編輯:符乾江
-
人工智能
+關(guān)注
關(guān)注
1800文章
48094瀏覽量
242227 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5527瀏覽量
121892
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
大模型的數(shù)學(xué)能力或許一直都在關(guān)鍵在于如何喚醒它

數(shù)學(xué)專業(yè)轉(zhuǎn)人工智能方向:考研/就業(yè)前景分析及大學(xué)四年學(xué)習(xí)路徑全揭秘

光電效應(yīng)的數(shù)學(xué)模型及解析
GPU在深度學(xué)習(xí)中的應(yīng)用 GPUs在圖形設(shè)計(jì)中的作用
Kimi發(fā)布新一代數(shù)學(xué)推理模型k0-math
傅里葉變換的數(shù)學(xué)原理
matlab 神經(jīng)網(wǎng)絡(luò) 數(shù)學(xué)建模數(shù)值分析
阿里Qwen2-Math系列震撼發(fā)布,數(shù)學(xué)推理能力領(lǐng)跑全球
神經(jīng)網(wǎng)絡(luò)反向傳播算法的原理、數(shù)學(xué)推導(dǎo)及實(shí)現(xiàn)步驟
數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)有哪些
神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)建模中的應(yīng)用
當(dāng)AI與數(shù)學(xué)同時(shí)走下神壇

工業(yè)控制器的制作與數(shù)學(xué)的關(guān)系
基于深度學(xué)習(xí)的缺陷檢測(cè)方案

三相SVPWM電壓型逆變器的數(shù)學(xué)模型

評(píng)論