與大多數(shù)人的想象不同,在機(jī)器學(xué)習(xí)領(lǐng)域里,處理數(shù)據(jù)所耗費(fèi)的精力占據(jù)著最多比例。通常情況下,每購(gòu)買 1 美元的數(shù)據(jù),我們需要花費(fèi) 5-7 美元來清理,才能讓它用于機(jī)器學(xué)習(xí)模型的訓(xùn)練與推理。在這個(gè)過程中,數(shù)據(jù)科學(xué)家要耗費(fèi)整個(gè)開發(fā)流程 80-90% 的時(shí)間。
如果可供使用的數(shù)據(jù)標(biāo)準(zhǔn)化且直接可用,成本和效率的提升就會(huì)讓科技公司獲得前所未有的優(yōu)勢(shì)。在這一方面,彭博是業(yè)內(nèi)領(lǐng)先的數(shù)據(jù)服務(wù)提供商。
數(shù)據(jù)服務(wù)并不止于交易數(shù)據(jù),今年 2 月 21 日,彭博宣布推出“另類數(shù)據(jù)”服務(wù),其中包括 20 余種新類型數(shù)據(jù),如基于人工智能和大數(shù)據(jù)處理得到的人流、社交媒體情緒數(shù)據(jù),它們可以幫助投資者在瞬息萬變的市場(chǎng)中帶來先機(jī)。今天,作為人工智能大潮的一部分,數(shù)據(jù)服務(wù)正在邁向全新的階段。
彭博為眾多金融機(jī)構(gòu)提供多種數(shù)據(jù)類別及服務(wù),涵蓋實(shí)時(shí)數(shù)據(jù)、參考數(shù)據(jù)、定價(jià)數(shù)據(jù)和監(jiān)管數(shù)據(jù)等。近日,我們與彭博企業(yè)數(shù)據(jù)全球負(fù)責(zé)人 Gerard Francis 進(jìn)行了一番交流,他向我們介紹了彭博數(shù)據(jù)業(yè)務(wù)的發(fā)展,以及他對(duì)于在投資領(lǐng)域應(yīng)用 AI 的看法。
Gerard Francis
“在金融領(lǐng)域里,我們是全球最大的數(shù)據(jù)供應(yīng)商。”Gerard Francis 表示。彭博現(xiàn)在的數(shù)據(jù)提供平臺(tái)中已擁有實(shí)時(shí)數(shù)據(jù)、參考數(shù)據(jù)、另類數(shù)據(jù)、衍生數(shù)據(jù)等種類的數(shù)據(jù)集,且提供數(shù)據(jù)的方式多種多樣:從 API 到數(shù)據(jù)接入網(wǎng)站皆可以獲齲用戶可以在數(shù)據(jù)的基礎(chǔ)上使用自己的程序進(jìn)行處理。
彭博企業(yè)級(jí)數(shù)據(jù)業(yè)務(wù)始于 1997 年,至今已有 22 年歷史了。目前,全球最大的金融機(jī)構(gòu)都在依賴彭博的數(shù)據(jù)開展自己的業(yè)務(wù)。
彭博最近的方向是提供各種類型的“另類數(shù)據(jù)”:從衛(wèi)星圖像到博客內(nèi)容中收集的情緒信息,再到 APP 的下載趨勢(shì)。在彭博數(shù)據(jù)接入網(wǎng)站 Bloomberg Enterprise Access Point 上,我們可以找到很多不同類型的數(shù)據(jù)。彭博稱,目前該網(wǎng)站可提供 2700 余種參考數(shù)據(jù)集,200 余種估值數(shù)據(jù)集,400 余種另類數(shù)據(jù)集以及近 600 余種監(jiān)管數(shù)據(jù)集等。
比起技術(shù)人員常使用的 GitHub,使用這個(gè)平臺(tái)更像是在瀏覽亞馬遜購(gòu)物網(wǎng)站——你可以在其上瀏覽各種產(chǎn)品,并購(gòu)買其中想要的。
Gerard Francis 以北美股票參考數(shù)據(jù)為例進(jìn)行了演示。數(shù)據(jù)集下載完成后可以看到是 CSV 文件,可用 Excel 直接打開,其中的數(shù)據(jù)非常干凈整潔,無需進(jìn)行任何其他處理就可以直接使用了。對(duì)于彭博的所有數(shù)據(jù)集,人們都可以直接下載使用。
價(jià)格之外的另類數(shù)據(jù)
Bloomberg Enterprise Access Point(BEAP)是彭博企業(yè)數(shù)據(jù)業(yè)務(wù)新近推出的一項(xiàng)服務(wù),于 2018 年 9 月推出。這是一個(gè)在線數(shù)據(jù)平臺(tái),為 Bloomberg Data License 客戶提供標(biāo)準(zhǔn)化的參考、定價(jià)、監(jiān)管,以及另類數(shù)據(jù)集。彭博今年 2 月剛推出的“另類數(shù)據(jù)(Alternative data)”收集了很多前所未有的內(nèi)容,可以幫助投資者在交易中奪取先機(jī)。
另類數(shù)據(jù)是彭博最近提出的新數(shù)據(jù)類型。在這一分類中,我們可以找到來自很多不同類型數(shù)據(jù)公司提供的內(nèi)容。目前,BEAP 擁有 20 多套另類數(shù)據(jù)集,其中包括對(duì)金屬庫(kù)存、股票博客情緒、藥品審批、消費(fèi)者客流量和停車場(chǎng)活動(dòng)、建筑許可、地緣政治風(fēng)險(xiǎn)和應(yīng)用利用率的洞察。彭博計(jì)劃在未來每個(gè)月都會(huì)加入更多的數(shù)據(jù)類型。
“另類數(shù)據(jù)正在變得越來越重要,”Francis 介紹道,“其中主要有兩個(gè)原因。其一是我們的客戶正在尋找提高 Alpha(超額收益)的方法。其二是另類數(shù)據(jù)通常難以使用。它數(shù)量巨大、笨重而難以處理,人們很難找到它的價(jià)值。但這卻是機(jī)器學(xué)習(xí)和 AI 可以發(fā)揮作用的地方,通過應(yīng)用這些技術(shù)幫助我們找到價(jià)值?!?/p>
彭博通過 BEAP 網(wǎng)站提供另類數(shù)據(jù)業(yè)務(wù)可以一站式解決金融行業(yè)數(shù)據(jù)科學(xué)家對(duì)于內(nèi)容的需求,無需面對(duì)多個(gè)合同和供應(yīng)商。另一方面,彭博的數(shù)據(jù)提供使用了標(biāo)準(zhǔn)化的 API,從而節(jié)省了技術(shù)人員的使用步驟。
為了保證另類數(shù)據(jù)的準(zhǔn)確性,彭博的數(shù)據(jù)團(tuán)隊(duì)中有很多技術(shù)人員專注于數(shù)據(jù)處理。這家公司也在使用很多各類先進(jìn)的技術(shù)來處理數(shù)據(jù)。據(jù)介紹,彭博的數(shù)據(jù)部門非常龐大,目前約有包括正式員工和供應(yīng)商在內(nèi) 5000 多人專注于數(shù)據(jù)。
在另類數(shù)據(jù)集中,我們可以找到一些很有意思的內(nèi)容:商場(chǎng)的人流、停車場(chǎng)擁擠情況、手機(jī) APP 的下載量,甚至某個(gè)地區(qū)出現(xiàn)不穩(wěn)定的可能性。“我們的數(shù)據(jù)提供商之一 Apptopia 是個(gè)很有意思的公司,他們提供的數(shù)據(jù)可以告訴你所有 APP 在 Google Play 和 Apple Store 上的下載數(shù)量?!盕rancis 介紹道。
彭博展示的另一個(gè)例子是地緣政治風(fēng)險(xiǎn)數(shù)據(jù),其來自 Predata 公司。數(shù)據(jù)供應(yīng)商會(huì)收集很多預(yù)警和指標(biāo),對(duì)于政治風(fēng)險(xiǎn)、經(jīng)濟(jì)增長(zhǎng)、社會(huì)不穩(wěn)定等進(jìn)行評(píng)分,從而獲得一系列的數(shù)據(jù)。如果一個(gè)人正在做風(fēng)險(xiǎn)管理任務(wù),他們可以在這里獲得有關(guān)國(guó)家潛在風(fēng)險(xiǎn)的提示。
這些數(shù)據(jù)本身來自于公開信息,被各家數(shù)據(jù)公司收集后進(jìn)行處理。對(duì)于分析師來說,這可以幫助理解競(jìng)爭(zhēng)對(duì)手的業(yè)務(wù)情況,也可以在某一次投資前做好背景調(diào)查。
在另類數(shù)據(jù)領(lǐng)域有很多垂直領(lǐng)域的公司,但彭博擁有一站式的數(shù)據(jù)服務(wù)平臺(tái)將大量另類數(shù)據(jù)整合在這一平臺(tái)上?!皩?duì)于一些數(shù)據(jù)提供商來說,他們可能會(huì)面臨缺乏客戶的問題?!盕rancis 表示,“但是加入彭博平臺(tái)以后,他們的數(shù)據(jù)可以被更多投資者發(fā)現(xiàn),也許很快會(huì)變成熱門產(chǎn)品了?!?/p>
情緒數(shù)據(jù),一秒總結(jié)全文
彭博最為大眾所知的或許還是新聞報(bào)道,其提供的權(quán)威性新聞評(píng)論及觀點(diǎn)常常會(huì)成為市場(chǎng)的風(fēng)向標(biāo)。很多短線投資者會(huì)在新聞爆出后的數(shù)秒內(nèi)進(jìn)行判斷并發(fā)出交易指令。如果讓 AI 來直接判定一條新聞是否“值得交易”,或許可以為交易員爭(zhēng)奪一些寶貴時(shí)間。
彭博已經(jīng)使用自然語(yǔ)言處理技術(shù)讀取自家新聞社記者們撰寫的新聞內(nèi)容,隨后使用數(shù)學(xué)算法來計(jì)算情緒數(shù)據(jù)。另外,來自推特等社交媒體的信息也“盡在掌控中”。該數(shù)據(jù)產(chǎn)品稱為“Event Driven Feed”(事件驅(qū)動(dòng)數(shù)據(jù)流)。
在這方面機(jī)器確實(shí)比人要快。彭博采用了機(jī)器學(xué)習(xí)算法,每當(dāng)新聞寫好之后,我們就立即能夠獲得這個(gè)故事的評(píng)分。隨后,彭博終端就會(huì)發(fā)出推送,實(shí)時(shí)告知客戶。從記者寫好一篇文章再到客戶獲得評(píng)分,在這期間耗費(fèi)的時(shí)間不到一秒鐘。
情緒數(shù)據(jù)是一種經(jīng)過深度學(xué)習(xí)處理過的數(shù)據(jù),如何解決“黑箱”問題呢?彭博認(rèn)為可以通過使用數(shù)據(jù)樣本進(jìn)行回溯測(cè)試等方式,從數(shù)學(xué)上獲得穩(wěn)定的結(jié)果,解決人們的疑慮。
客戶們對(duì)于這種新鮮事物還在探索和適應(yīng)的過程中?!耙恍┤藢?duì)這種分析的可靠性表示滿意——通過回溯測(cè)試以及不斷訓(xùn)練新的數(shù)據(jù)進(jìn)行投資;”Francis 表示,“有些時(shí)候客戶對(duì)此不會(huì)滿意,這取決于客戶的類型和他們的投資方式。我們發(fā)現(xiàn)很多中國(guó)客戶非常樂于嘗試機(jī)器學(xué)習(xí)這樣的新方法,以求獲得更好的回報(bào)。而另外一些國(guó)家的投資者會(huì)相對(duì)保守,或許對(duì)沖基金會(huì)接受,但基金經(jīng)理不會(huì)接受?!?/p>
有關(guān)英偉達(dá)的推特消息發(fā)出后,股價(jià)的波動(dòng)情況。市場(chǎng)會(huì)在短時(shí)間內(nèi)作出反應(yīng)。(圖片來自 Bloomberg)
在這其中最重要的是不同的交易策略,一些人走短線,一些人走長(zhǎng)線。他們都可以通過數(shù)據(jù)獲得自己所需的信息。對(duì)于那些交易速度非常快的人,比如一些對(duì)沖基金,當(dāng)他們獲得新聞報(bào)道的標(biāo)題時(shí),會(huì)很快將其轉(zhuǎn)換為交易動(dòng)作。有時(shí)在看到標(biāo)題的一秒鐘內(nèi),他們就會(huì)進(jìn)行交易。
“目前全球 有 50 多家機(jī)構(gòu)在使用 Event Driven Feed 產(chǎn)品,其中至少有五個(gè)客戶正在使用中文推送流,”Francis 介紹道,“其中一些是中國(guó)公司。這是一個(gè)新的趨勢(shì),我們的業(yè)務(wù)重點(diǎn)正在從紐約和歐洲轉(zhuǎn)向亞洲?!?/p>
新數(shù)據(jù)帶來的收益
隨著彭博新數(shù)據(jù)服務(wù)的發(fā)展,越來越多的金融機(jī)構(gòu)開始將目光轉(zhuǎn)向于數(shù)據(jù)平臺(tái)?!昂芏嗫蛻魰?huì)下載數(shù)據(jù)后進(jìn)行測(cè)試,當(dāng)找到信號(hào)之后將其轉(zhuǎn)化為收益,如果行之有效,他們就會(huì)購(gòu)買數(shù)據(jù)集。已經(jīng)有一些客戶開始購(gòu)買這些數(shù)據(jù)了。”Francis 表示。
對(duì)于量化投資而言,使用最先進(jìn)的技術(shù)才能帶來最大收益。很多彭博數(shù)據(jù)的客戶都在使用機(jī)器學(xué)習(xí)和人工智能技術(shù)來處理金融數(shù)據(jù),以形成他們的投資策略。Gerard Francis 認(rèn)為在彭博數(shù)據(jù)業(yè)務(wù)的客戶中已有 80% 正在使用 AI 算法,而 20% 仍在使用傳統(tǒng)的投資模型。
除了帶來更多預(yù)期收益之外,人工智能和機(jī)器學(xué)習(xí)對(duì)于金融市場(chǎng)的影響方式有很多種。在風(fēng)險(xiǎn)投資領(lǐng)域有很多人正在使用 AI 算法進(jìn)行風(fēng)險(xiǎn)回測(cè),尋找壓力區(qū)域。也有人在使用 AI 識(shí)別交易員的風(fēng)險(xiǎn)操作。人工智能會(huì)在金融領(lǐng)域里或許還有很多新類型的應(yīng)用。
盡管機(jī)構(gòu)不會(huì)直接披露通過技術(shù)獲得的收益數(shù)據(jù),但我們已可以看到人工智能進(jìn)入金融行業(yè)的趨勢(shì)了。在 20 年以前,很少有投資機(jī)構(gòu)會(huì)去研究 AI,但隨著深度學(xué)習(xí)的發(fā)展,今天我們可以看到大量金融公司正在研究人工智能。
Citadel 首席人工智能官
鄧力
。一些對(duì)沖基金為了技術(shù)甚至招攬了著名 AI 科學(xué)家,2017 年 5 月,前微軟首席人工智能科學(xué)家鄧力宣布加盟對(duì)沖基金巨頭 Citadel。2018 年 8 月,《終極算法》一書的作者,華盛頓大學(xué)教授 Pedro Domingos 也被 DE Shaw 簽下。
如果去看看一些科技基金的回報(bào)率,如 Bridgewater 和 Renaissance Capital,你會(huì)發(fā)現(xiàn)它們擁有驚人的回報(bào)率,這正是量化技術(shù)的功勞。
在金融數(shù)據(jù)業(yè)務(wù)的賽道上,目前最大的公司是彭博和 Refinitiv(后者是 Blackstone 和湯森路透旗下金融品牌)。隨著金融機(jī)構(gòu)對(duì)數(shù)據(jù)數(shù)量、質(zhì)量需求的提升和成本壓力的增加,越來越多的機(jī)構(gòu)傾向于減少數(shù)據(jù)供應(yīng)商的數(shù)量,“他們期待從一家供應(yīng)商那里獲得盡可能豐富的數(shù)據(jù)和服務(wù),這樣可以幫助他們提高運(yùn)營(yíng)的效率,并且更經(jīng)濟(jì)。而彭博正是他們很好的選擇?!盕rancis 對(duì)于彭博企業(yè)數(shù)據(jù)業(yè)務(wù)的未來充滿信心。
彭博來到中國(guó)已有一段時(shí)間,這家公司與各類金融機(jī)構(gòu)和監(jiān)管部門都保持了密切的聯(lián)系,從而獲得豐富的金融數(shù)據(jù),覆蓋各資產(chǎn)類別和市常隨著中國(guó)市場(chǎng)的國(guó)際化,國(guó)內(nèi)的金融機(jī)構(gòu)正在逐漸開始使用新技術(shù),而彭博也樂于將其全球經(jīng)驗(yàn)分享給中國(guó)客戶。
未來,人工智能將隨著數(shù)據(jù)服務(wù)的發(fā)展而變革?!拔覀兊氖澜鐚⒆兊酶叨茸詣?dòng)化?!盙erard Francis 表示,“我認(rèn)為人們會(huì)通過大量數(shù)據(jù) API 和數(shù)據(jù)交換互相連接——所有數(shù)據(jù)中心都在云端。云服務(wù)將承載應(yīng)用程序,人們?cè)谠贫酥苯酉M(fèi)并傳遞數(shù)據(jù)?!?/p>
評(píng)論
查看更多