總結(jié)兩句話:
1、保障業(yè)務(wù)長(zhǎng)期穩(wěn)定運(yùn)行(如網(wǎng)站服務(wù)器、游戲服務(wù)器等)。
2、保障數(shù)據(jù)安全可靠(如用戶名密碼、游戲數(shù)據(jù)、博客文章、交易數(shù)據(jù)等)。
由這兩句話推演運(yùn)維工程師要學(xué)些什么?
一、保障業(yè)務(wù)長(zhǎng)期穩(wěn)定運(yùn)行
出一點(diǎn)點(diǎn)差錯(cuò),用戶就要投訴了。
1、業(yè)務(wù)跑在什么上面?
網(wǎng)站服務(wù)器一般是apache,nginx,tomcat等。但是真正跑通流程還需要Mysql數(shù)據(jù)庫來存儲(chǔ)用戶密碼及其它。很多程序都要php的解析,所以LNMP、LAMP(即nginx、apache、mysql、php)環(huán)境部署是必須掌握的技能。
2、業(yè)務(wù)出了問題怎么及時(shí)知道?
這就需要監(jiān)控軟件來郵件或短信來通知你,常用的有zabbix,nagios等。報(bào)警發(fā)郵件,也得一個(gè)郵件程序呀,sendmail或postfix。
3、在家里收到報(bào)警,但服務(wù)器是內(nèi)網(wǎng)IP,怎么也得解決問題吧?
在公司搭建openvpn或pptp或openswan,在家里通過VPN撥入內(nèi)網(wǎng),24小時(shí)解決問題…唉,半夜爬起來解決問題也沒工資。
二、保障數(shù)據(jù)安全可靠
出一點(diǎn)點(diǎn)差錯(cuò),領(lǐng)導(dǎo)要找你喝茶了。
1、有時(shí)需要手動(dòng)改數(shù)據(jù)庫內(nèi)容?
所以要會(huì)基本的Mysql數(shù)據(jù)庫增刪查改命令。
2、萬一數(shù)據(jù)庫服務(wù)器硬件壞了怎么辦?
需要有個(gè)備庫以備不時(shí)之需,所以需要Mysql主從復(fù)制。
3、數(shù)據(jù)庫要還原怎么辦?
所以需要在crond中定期全備Mysql數(shù)據(jù),以便還原使用。如果要還原到指定時(shí)間點(diǎn),還要學(xué)會(huì)Mysql增量備份與恢復(fù)。
4、如果是用戶上傳的圖片或文件服務(wù)器壞了怎么辦?
定時(shí)備份可能還不夠,需要使用rsync加inotify來實(shí)時(shí)備份。以便任一時(shí)刻主服務(wù)器壞掉,也能保障所有圖片有備份可以用來恢復(fù)。
5、小心黑客,要增加服務(wù)器安全性?
ssh輕易不能讓外人訪問,那么就設(shè)置只允許公司的IP或跳板機(jī)IP訪問,這些都通過iptables來控制。
三、大性能
1、越來越多的用戶來訪問我們的網(wǎng)站,一臺(tái)web服務(wù)器抗不住了怎么辦?
那就需要多臺(tái)web服務(wù)器來負(fù)擔(dān),但多臺(tái)服務(wù)器之間怎么進(jìn)行負(fù)載均衡呢,這就需要用到nginx反向代理或LVS+keepalived或haproxy+heartbeat了。
2、用戶注冊(cè)發(fā)表的文章與評(píng)論太多,一臺(tái)數(shù)據(jù)庫抗不住了怎么辦?
數(shù)據(jù)庫壓力分為讀和寫,如果寫抗不住,需要進(jìn)行分表分庫到多個(gè)服務(wù)器上。如果是讀壓力不夠了,可以使用mysql-proxy讀寫分離,
來分擔(dān)讀的壓力。更簡(jiǎn)單方便的方法,把數(shù)據(jù)庫里的內(nèi)容放到內(nèi)存上,這就用上memcache或redis了。
3、N多用戶上傳下載文件,磁盤抗不住了怎么辦?
把多塊磁盤做成raid,或者使用分布式存儲(chǔ)文件系統(tǒng)如MFS,GlusterFS來提高磁盤的讀寫能力。
4、網(wǎng)站上好多圖片,總有用戶反應(yīng)網(wǎng)站加載太慢,怎么辦?
這時(shí)可以把網(wǎng)站上的圖片通過squid或varnish緩存到網(wǎng)站前端,盡可能的增加訪問速度,當(dāng)然,最好是購買商業(yè)的CDN加速。
5、運(yùn)營(yíng)商是個(gè)大難題,他們之間的帶寬好像很小,聯(lián)通IP訪問我電信網(wǎng)站怎么就這么慢呢?
這時(shí)可以使用bind自建一個(gè)DNS服務(wù)器,把網(wǎng)站的DNS記錄指向自建DNS服務(wù)器上,配置好解析規(guī)則,以后聯(lián)通IP解析到聯(lián)通網(wǎng)站上,
電信IP解析到電信網(wǎng)站上,體驗(yàn)就會(huì)好很多啦。
四、自動(dòng)化
終極目標(biāo):跑死機(jī)器,閑死人。
1、公司新買100臺(tái)服務(wù)器,公司竟然就1個(gè)移動(dòng)光驅(qū),這裝系統(tǒng)得到什么時(shí)候?
使用kickstart或cobbler來網(wǎng)絡(luò)遠(yuǎn)程自動(dòng)安裝系統(tǒng)吧。
2、每次裝完機(jī)要優(yōu)化很多內(nèi)容,什么文件描述符、端口、軟件安裝啊,手動(dòng)操作不累死去?
趕緊學(xué)會(huì)shell,將解放非常多的工作量。
3、系統(tǒng)裝完后登陸要輸入密碼,這么多臺(tái)???
使用expect吧,自動(dòng)讀取提示來輸入密碼,并執(zhí)行命令。
4、要批量把新代碼發(fā)布到線上服務(wù)器,怎么辦?
使用saltstack或puppet或ansible吧,絕對(duì)爽歪歪。
五、其他
1、搭整套測(cè)試環(huán)境需要5臺(tái)服務(wù)器,但公司窮的只有一臺(tái)空閑服務(wù)器?
學(xué)會(huì)xen或kvm或docker吧,虛擬出多臺(tái)服務(wù)器,就能解決資源問題了。特別是docker,強(qiáng)烈推薦,以后某個(gè)研發(fā)人員讓你部署一套新環(huán)境,分分鐘幫他解決。
2、研發(fā)人員的代碼控制,權(quán)限控制,總要運(yùn)維人員管呀?
svn或git,這個(gè)是肯定要有的。
結(jié)尾:
現(xiàn)在我們?cè)诨剡^頭來思考,運(yùn)維工程師平時(shí)干些啥呢?
1、 隨時(shí)解決報(bào)警故障。
2、 業(yè)務(wù)程序更新。
3、 編寫一些腳本,監(jiān)控或完成其他可自動(dòng)完成功能。
4、 運(yùn)維架構(gòu)完善,部署一些用起來更方便更可靠或性能更好的開源工具以及制定運(yùn)維流程規(guī)范。
5、 打雜,如調(diào)交換機(jī),裝系統(tǒng),部署新環(huán)境等。
-
運(yùn)維工程師
+關(guān)注
關(guān)注
4文章
39瀏覽量
8267
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論