真正的數(shù)據(jù)愛好者有很多需要閱讀的內(nèi)容:大數(shù)據(jù),機(jī)器學(xué)習(xí),數(shù)據(jù)科學(xué),數(shù)據(jù)挖掘等。除了這些技術(shù)領(lǐng)域,還有一些特定的技術(shù)和語言需要你繼續(xù)研究:Hadoop,Spark,Python,和R等等,還有無數(shù)實現(xiàn)自動化的工具等等,這些工具幾乎每天都會用到,這就需要你不斷的學(xué)習(xí)。幸運(yùn)的是,以上提到的這些都不缺關(guān)于它們的書籍。
本文首先幫大家盤點幾本大數(shù)據(jù)相關(guān)的書籍,這些書都是亞馬遜上的暢銷排行榜上的:
關(guān)于大數(shù)據(jù)
1、《Big Data》
在大數(shù)據(jù)的背景下,我很少看到關(guān)于數(shù)據(jù)建模,數(shù)據(jù)層,數(shù)據(jù)處理需求分析以及數(shù)據(jù)架構(gòu)和存儲實現(xiàn)問題。這本書卻提供了令人耳目一新的全面解決方案。
但不可忽略的是,它也引入了大多數(shù)開發(fā)者并不熟悉的、困擾傳統(tǒng)架構(gòu)的復(fù)雜性問題。本書將教你充分利用集群硬件優(yōu)勢的Lambda架構(gòu),以及專門用來捕獲和分析網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的新工具,來創(chuàng)建這些系統(tǒng)。
關(guān)于Apache Hadoop
2、《Hadoop: The Definitive Guide》
本書通過豐富的案例學(xué)習(xí)來解釋Hadoop的幕后機(jī)理,闡述了Hadoop如何解決現(xiàn)實生活中的具體問題。第3版覆蓋Hadoop的最新動態(tài),包括新增的MapReduceAPI,以及MapReduce2及其靈活性更強(qiáng)的執(zhí)行模型(YARN)。
關(guān)于Apache Spark
3、《Learning Spark》
《Spark 快速大數(shù)據(jù)分析》是一本為Spark 初學(xué)者準(zhǔn)備的書,它沒有過多深入實現(xiàn)細(xì)節(jié),而是更多關(guān)注上層用戶的具體用法。不過,本書絕不僅僅限于Spark 的用法,它對Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
關(guān)于數(shù)據(jù)挖掘
4、《數(shù)據(jù)挖掘》
本書是關(guān)于數(shù)據(jù)挖掘領(lǐng)域的綜合概述,我認(rèn)為這本書作為研究生的課程用書是最好的,或者作為參考書。本書前版曾被KDnuggets的讀者評選為最受歡迎的數(shù)據(jù)挖掘?qū)V?,是一本可讀性極佳的教材。
它從數(shù)據(jù)庫角度全面系統(tǒng)地介紹數(shù)據(jù)挖掘的概念、方法和技術(shù)以及技術(shù)研究進(jìn)展,并重點關(guān)注近年來該領(lǐng)域重要和最新的課題——數(shù)據(jù)倉庫和數(shù)據(jù)立方體技術(shù),流數(shù)據(jù)挖掘,社會化網(wǎng)絡(luò)挖掘,空間、多媒體和其他復(fù)雜數(shù)據(jù)挖掘。
5、《Mining of Massive Datasets》
本書是在Anand Rajaraman和Jeff Ullman于斯坦福大學(xué)教授多年的一門季度課程的材料基礎(chǔ)上總結(jié)而成的。簡單來說,本書是關(guān)于數(shù)據(jù)挖掘的。但是,本書主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘,也就是說這些數(shù)據(jù)大到無法在內(nèi)存中存放。
由于重點強(qiáng)調(diào)數(shù)據(jù)的規(guī)模,所以本書的例子大都來自Web本身或者Web上導(dǎo)出的數(shù)據(jù)。另外,本書從算法的角度來看待數(shù)據(jù)挖掘,即數(shù)據(jù)挖掘是將算法應(yīng)用于數(shù)據(jù),而不是使用數(shù)據(jù)來“訓(xùn)練”某種類型的機(jī)器學(xué)習(xí)引擎。
免費電子書
想從事數(shù)據(jù)科學(xué),除了以上提及的那些書籍,還有很多這個領(lǐng)域的入門書籍,但是在你真正開始之前,你更應(yīng)該對這個領(lǐng)域有一個廣泛的了解。
下面我們還精選了5本免費的電子書,可以幫助你更好的理解數(shù)據(jù)科學(xué)的全部內(nèi)容,以及為你后續(xù)學(xué)習(xí)數(shù)據(jù)科學(xué)、大數(shù)據(jù)和數(shù)據(jù)分析做好準(zhǔn)備。
1、《Big Data: The Numbers Game Deciphered》
要想學(xué)習(xí)簡明扼要的關(guān)于大數(shù)據(jù)世界的概述,可以閱讀這本只有11頁的電子書,這本書以數(shù)據(jù)科學(xué)領(lǐng)域的最新發(fā)展為背景,讀完這本書,你將可以了解到:
成為數(shù)據(jù)科學(xué)家應(yīng)該具備的學(xué)歷
數(shù)據(jù)科學(xué)領(lǐng)域需要具備的技術(shù)/非技術(shù)類的技能
2、《Top Programming Languages for a Data Scientist》
編程是數(shù)據(jù)科學(xué)家絕對必須具備的核心技術(shù)技能。通過這本詳細(xì)的指南,了解掌握哪些編程語言可以優(yōu)先考慮入門數(shù)據(jù)科學(xué)。讀完這本書,你可以了解到
數(shù)據(jù)科學(xué)職業(yè)的十大編程語言列表;
這些編程語言的特點;
如何將你掌握的技能應(yīng)用于數(shù)據(jù)科學(xué)家。
3、《8 Essential Concepts of Big Data and Hadoop》
Hadoop可以說是大數(shù)據(jù)家族中最重要的技術(shù),稱得上是大數(shù)據(jù)革命的核心。通過閱讀這本便捷指南,可以了解你需要了解的關(guān)于Hadoop及其生態(tài)系統(tǒng)的所有信息。
4、《Secret to Unlocking Tableau's Hidden Potential》
Tableau使分析變得簡單易行,不僅適用于分析師,也適用于高層管理人員,IT專業(yè)人員以及其他所有人員。如果你正在尋找能夠充分發(fā)揮Tableau功能的技巧,以及有用的黑客技巧,這本電子書將會告訴你需要了解的內(nèi)容。
5、《Top 25 Interview Questions and Answers: Big Data Analysis》
即便你是一位很厲害的數(shù)據(jù)專家,在求職面試中,你依然需要絞盡腦汁讓面試官對你印象深刻,否則你依然很難得到你一直夢寐以求的那個職位,這本書灰機(jī)了大數(shù)據(jù)面試最常問的問題和答案,相信可以助你一臂之力。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8434瀏覽量
132879 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8903瀏覽量
137616 -
亞馬遜
+關(guān)注
關(guān)注
8文章
2675瀏覽量
83495
發(fā)布評論請先 登錄
相關(guān)推薦
評論