我們都知道,最近幾年AI創(chuàng)業(yè)幾乎呈指數(shù)級增長。那么AI領域的投資規(guī)模到底有多少大?這些AI創(chuàng)業(yè)公司的規(guī)模如何?對他們來說最有前途的市場是哪些?
這些問題我們都可以從AngelList公開的數(shù)據(jù)中得到答案。
關于AngelList
AngelList網(wǎng)站建于2010年,是全球最大的天使投資平臺,連接起眾多科技創(chuàng)業(yè)公司、投資人和創(chuàng)業(yè)企業(yè)求職者,目前已經(jīng)有超過400萬公司、800萬投資者和至少100萬求職者在他們的網(wǎng)站上注冊。據(jù)不完全統(tǒng)計,10年間,通過該平臺投資的企業(yè)市值超過2900億美元,涵蓋企業(yè)包括Uber、Airbnb、Twitter、Dropbox等。
數(shù)據(jù)提取及特征確定
首先,我們使用explosion.ai.研發(fā)的SenseToVec工具來確定用于抓取數(shù)據(jù)的關鍵詞語。SenseToVec是一種神經(jīng)網(wǎng)絡模型,用其讀取2015年Reddit上的所有評論,再使用word2vec和spaCy來建立語義地圖。通過搜索一個詞或短語,得到和該詞或短語最相似的單詞(甚至可以使用它來查找同義詞)。比如輸入“機器學習”,匹配提取出了:數(shù)據(jù)科學、NLP、計算機視覺……
對這些關鍵詞語過濾后,我們使用更精確的關鍵詞語在Angel上進行查詢。
接下來使用Selenium和BeautifulSoup制作網(wǎng)絡爬蟲,創(chuàng)建一個驅(qū)動程序訪問URL(https://angel.co/companies),點擊搜索欄并輸入特定的查詢詞。然后滾動列表中的每個公司并存儲其數(shù)據(jù)。
Angel爬蟲
因為網(wǎng)站限制了每次搜索只能獲得400個公司,所以我們使用過濾器并增加查詢數(shù)量,以確保得到幾乎所有相關公司的信息。
刪除重復信息后,獲得CSV文件,其中包含10139組獨立數(shù)據(jù),特征包括:
‘name’→公司名稱
‘joined’→公司加入Angel的時間
‘type’→公司類型(創(chuàng)業(yè)公司,有限責任公司,孵化器…)
‘location’→公司所在城市
‘market’→公司活躍領域(電商,游戲…)
‘pitch’→公司標語
‘raised’→公司投資人的投資數(shù)額
‘tech’→主要使用的編程語言(Python,Javascript…)
數(shù)據(jù)分析
首先進行清洗和預處理,包括格式化日期、正規(guī)化文本,以及將金額相關的字符串轉(zhuǎn)換為浮點數(shù)字。
然后就是對這個包含10139個公司的數(shù)據(jù)集進行各種操作。
1、統(tǒng)計這些創(chuàng)業(yè)公司使用的編程語言
上圖顯示,在機器學習方面,AngelList上的創(chuàng)業(yè)公司更偏愛使用python,python的使用率達到93.5%。其次是javascript,使用率為3.94%。但是,我們只統(tǒng)計了AngelList頭部技術公司,因此這沒有包含其他重要的編程語言。
如果按年份統(tǒng)計數(shù)據(jù),得到2010年-2019年這些編程語言使用情況的變化:
編程語言使用情況變遷
上圖顯示,Python的使用率顯著上升。這也印證了,作為一種驚人的、高水準的通用語言,python擁有范圍廣泛的強大的庫,并在數(shù)據(jù)科學和機器學習領域最為著名。
2、查看這些創(chuàng)業(yè)公司分布在哪些市場領域
10139個創(chuàng)業(yè)公司所在的市場分布
有一些比較常見的行業(yè)(比如b2b和saas)在其他市場大類別中也經(jīng)常出現(xiàn)(如在大數(shù)據(jù)分析和大數(shù)據(jù)中),但還是可以在人工智能相關領域中做一些比較。
3、統(tǒng)計各個行業(yè)的投資額
根據(jù)市場來聚合數(shù)據(jù)并總結(jié)出融資,可以知道各個行業(yè)的投資額總共有多少:
各行業(yè)的總投資額
上圖列出投資額最高的20個行業(yè),其中酒店行業(yè)遙遙領先,達到100億美元以上,排名第二的新聞行業(yè)達到40億美元以上。但這不能說明這些行業(yè)獲得投資的創(chuàng)業(yè)公司的數(shù)量最多。
比如,這其中投資規(guī)模最大的企業(yè)有(以十億美元為單位):
Airbnb→10.3(酒店)
Netscape→4.2(新聞)
Nest→3.3(物聯(lián)網(wǎng))
Palantir→2.1(分析)
Grail→1.7(診斷)
這解釋了為什么酒店行業(yè)的投資量巨大:一兩個規(guī)模巨大的企業(yè)會對總投資量產(chǎn)生重大影響。
如果選取每個行業(yè)的平均投資額則可以獲得不同的結(jié)果:
各行業(yè)的平均投資額
上圖是平均投資額最多的10個行業(yè),并不包含酒店行業(yè)。遙遙領先的是新聞行業(yè),平均投資額達到20億美元,其余的行業(yè)都在5億美元以下。
4、分析不同投資額區(qū)間的企業(yè)分布數(shù)量
首先我們統(tǒng)計下每個行業(yè)的獲投資企業(yè)的數(shù)量,然后對比投資額范圍。例如,有多少移動廣告公司獲得了1到1000萬美元的投資?
將投資范圍分為5個區(qū)間,統(tǒng)計每個區(qū)間內(nèi),獲得相應投資額的企業(yè)數(shù)量:
通過這個相對復雜的分析,投資者和創(chuàng)業(yè)者可以更深入了解與投資規(guī)模相關的市場行為。如果你的公司處在第一個階段(種子輪),在哪個市場更容易獲得融資?又哪些企業(yè)變成了融資數(shù)十億美元的獨角獸?
5、分析投資人對不同市場的興趣變化
使用每個行業(yè)每年的投資額,可以看到2011年以來市場如何變化:
2011年以來的市場變化
6、分析不同階段的創(chuàng)業(yè)企業(yè)的受歡迎程度
按創(chuàng)業(yè)公司所處的發(fā)展階段來查看平均投資額:
上圖顯示,A輪階段的平均投資低于種子輪公司。而企業(yè)發(fā)展越成熟,獲得投資額約大。
7、2010年以來的的總投資(以百萬美元為單位)以及創(chuàng)業(yè)公司數(shù)量
歷年總投資額
可以看到,2012年開始,AngelList上的數(shù)據(jù)爆炸增長,風險投資顯著增長。這也伴隨著越來越多的創(chuàng)業(yè)公司在全球范圍內(nèi)出現(xiàn)。
下圖顯示了每年在AngelList上注冊的創(chuàng)業(yè)公司數(shù)量。
歷年創(chuàng)業(yè)公司數(shù)量
8、全球范圍的創(chuàng)業(yè)公司分布情況
最后,我們使用Geopy定位提取坐標,建立一個分布在世界各地的創(chuàng)業(yè)公司集群地圖??梢垣@得一個交互式的地圖:
創(chuàng)業(yè)公司集群地圖
這個定位地圖包括了10000+個公司的位置。雖然樣本較小,但仍然非常好的顯示了不同國家的科技分布情況。
在這個交互式地圖上,點擊集群可以打開更小的集群,持續(xù)點擊可以看到企業(yè)。點擊單個企業(yè)可以獲得他們的網(wǎng)站鏈接。(交互式地圖獲取方式見文末)
根據(jù)投資額進行加權,得到一個熱力圖。所以人工智能的錢都去哪里了呢?
熱力圖
9、這些創(chuàng)業(yè)公司的標語中最常出現(xiàn)的詞語
根據(jù)創(chuàng)業(yè)公司標語得到的詞云
以上對這個數(shù)據(jù)集的處理還不夠全面。還可以從員工數(shù)量(反應企業(yè)規(guī)模)、企業(yè)年齡、標語(使用NLP進行分析)中獲得更多信息。甚至還可以獲得——創(chuàng)始人、聯(lián)合創(chuàng)始人和投資者的聯(lián)系信息。
網(wǎng)頁抓取加上數(shù)據(jù)分析和機器學習,將變成了一個非常強大的工具!
-
AI
+關注
關注
87文章
31262瀏覽量
269629 -
計算機視覺
+關注
關注
8文章
1699瀏覽量
46050 -
機器學習
+關注
關注
66文章
8428瀏覽量
132837
原文標題:最受投資人熱捧的AI領域是哪些?10000+個AI創(chuàng)業(yè)公司的數(shù)據(jù)分析告訴你
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論