本文作者 Sanyam Bhutani (https://hackernoon.com/@init_27) 是一名機器學習和計算機視覺的自由職業(yè)者、數(shù)據(jù)科學家。自 2018 年以來,他對自己心目中的一些 AI 領域「英雄」進行了采訪,如Ian Goodfellow、Richard Socher 等。本文的采訪對象是在 Kaggle 排行榜上排名第 29 位的 GrandMaster Autue Kuzin。在本次采訪中,他就如何組隊、如何取得好成績等問題給出了自己的建議。
Autue Kuzin(Kaggle ID: @drn01z3)來自 ods.ai 社區(qū),擁有物理和應用數(shù)學的碩士學位背景,目前在 X5 零售集團(俄羅斯最大的多業(yè)態(tài)零售商)擔任計算機視覺主管。在供職于 X5 集團之前,他在 Dbrain(Dbrain.io)擔任首席數(shù)據(jù)科學家,也曾在 Avito(全球第二大分類信息網(wǎng)站,隸屬于 OLX 集團)擔任數(shù)據(jù)科學家。
以下為采訪內(nèi)容:
Sanyam Bhutani:您好!Artur 大師,感謝您百忙之中接受我的采訪?,F(xiàn)在,您是一名 Kaggle 競賽大師,也是 Kaggle 的討論專家及 Kernels 論壇專家。實際上,您擁有物理學和應用數(shù)學的學術背景。那么,您當初是如何對機器學習和 Kaggle 產(chǎn)生興趣的呢?
Artur Kuzin:當我還是一名學生的時候,我在實驗室工作的同時嘗試參與了許多不同的活動。當時,我的幾個朋友被拉去一家陌生的初創(chuàng)公司工作,從事人工智能的開發(fā)。時至今日,我仍然想不通我當時是如何被說服的,因為在那個時候,這樣的工作與我原本的生活相去甚遠。這些任務大多與計算機視覺有關。
這家初創(chuàng)公司很有趣,也很多元化。但現(xiàn)在看來,我覺得那時我的成長速度還是太慢了。當我開始參加 Avito 組織的機器學習競賽時,我感覺自己才得到了真正的提升。在我第一次參與的關于汽車分類的比賽中,我獲得了第三名。為此,我感到很激動,也充滿了動力。在接下來的 Avito 組織的比賽中,我獲得了第一名。正因為如此,我被他們錄用了。
Sanyam Bhutani:您目前在 X5 零售集團擔任計算機視覺主管,過去幾年一直在數(shù)據(jù)科學領域工作。Kaggle 在您的職業(yè)生涯中的意義何在呢?這和您的其他項目有關嗎?
Artur Kuzin:在 Avito 比賽中獲勝后,我意識到這些機器學習比賽是一項非常酷的活動,有著獨特的氛圍。從那以后,我一直努力參與有趣的比賽。在這段時間里,我一直有一份全職工作,而 kaggle 看起來就像是第二份沒有報酬的工作(是的,實際上一些 kaggle 比賽會設置一定的獎勵,但它們很難稱得上是穩(wěn)定的工作)。
在 Kaggle Dstl 衛(wèi)星圖像特征檢測大賽發(fā)布后,Vladmir Iglovikov(Kaggle: @iglovikov)鼓勵我和其他許多頂級團隊的參賽者參與到這項賽事中,我十分感謝他!這是一場艱苦卓絕但又妙趣橫生、令人激動的比賽。從那時起,我意識到自己已經(jīng)對 Kaggle 比賽上癮了!時至今日,比賽本身并沒有促使我開展自己的項目。但是,我經(jīng)常接觸到一些向我提供有趣的工作機會的人。
Sanyam Bhutani:您能介紹一下您在當前的工作中所扮演的角色嗎?您現(xiàn)在在做什么項目,您在其中的角色是什么?
Artur Kuzin:X5 零售集團最近成立了視頻分析部門。該部門的任務是使用計算機視覺技術開發(fā)和實現(xiàn)解決方案,任務包括對貨架上的商品是否可以獲得進行分析、隊列控制、客戶分析、員工分析等。我領導著一個由 10 名工程師和研究人員組成的團隊。團隊的任務包括機器學習和計算機視覺領域的研發(fā),以及封裝從塑造硬件架構到與數(shù)據(jù)倉庫集成的整套解決方案。
Sanyam Bhutani:您在許多比賽中都取得了驚人的戰(zhàn)績。能告訴我您最喜歡的挑戰(zhàn)賽是什么嗎?
Artur Kuzin:對我來說,最重要、最有意義的比賽經(jīng)歷莫過于在第二屆 Kaggle IEEE camera 大賽中獲得第二名。在職業(yè)生涯的那個階段,我曾經(jīng)考慮過擔負起一個團隊領袖的角色,但是我并不確定自己是否能夠勝任。于是,我決定在 kaggle 比賽中試著扮演該角色。通常,團隊中的每個人都會從頭到尾開發(fā)自己的解決方案。然后有人負責將這些方案整合起來或建立二級模型。我們卻選擇了另一條道路。Arthur Fattakhov 負責收集數(shù)據(jù),Ilya Kibardin 負責訓練模型。而我只是給他們提供硬件、想法和建議。我自己動手完成的唯一的部分就是過濾數(shù)據(jù)、并在截止日期前 5 分鐘將最終用于提交的結果混合起來。結果是,我們從 public leaderboard 上的第六名進步到了 private leaderboard 上的第二名。這讓我有了堅定的信心領導團隊。
你可以查看下面的兩個資源鏈接,獲取該競賽解決方案的相關信息:
一個帶有英文字幕的視頻(https://youtu.be/ETh8bJ_xKGA)
一篇博文(https://hackernoon.com/ieees-camera-identification-challenge-different-approach-to-teaming-up-28da44dfe635)
我們最后也決心在排行榜上獲得較高的排名。我們與 Vladimir Iglovikov 以及他的研究生合作撰寫了一篇論文,并在 2018 IEEE 國際大數(shù)據(jù)會議上展示了相關工作(摘要鏈接:https://ieeexplore.ieee.org/abstract/document/8622031)
Sanyam Bhutani:您在單人比賽和團隊比賽中都取得了驕人的成績。對于 kaggler 新人,您在組建團隊方面有何建議?
Artur Kuzin:如果你是第一次參賽,我強烈推薦你參加一個團隊。此外,你十分需要找到一個有經(jīng)驗的參與者(至少在 Master 水平)。他不會犯愚蠢的錯誤,也不會太緊張。同時,對于團隊來說,最好有一個熟悉開發(fā)實踐的人,并且能夠調(diào)整開發(fā)進度,將其拆分為常見的數(shù)據(jù)折疊、git、交換數(shù)據(jù)的位置和討論的位置。
事實上,即使是對于經(jīng)驗豐富的參賽者來說,加入一個團隊也會更好。我認為組建一個擁有不同水平技能的團隊很有價值。年輕人和沒有經(jīng)驗的人通常會極具熱情,所以如果你正確地激勵他們,你可以讓他們甘愿做一些「無聊」的事情,比如清理數(shù)據(jù)和測試重要的假設。Middles / kaggle 大師可以在高級團隊成員的督促下編寫出良好的代碼。Senior/ Kaggle 特級大師可以成為解決方案架構師,并將工作完全委托給其他人。
Sanyam Bhutani:您現(xiàn)在期待什么樣的挑戰(zhàn)?如何才能讓您決定參與一項新的競賽?
Artur Kuzin:現(xiàn)在,我面臨的主要挑戰(zhàn)是在 X5 零售集團推出一個大型項目,我全身心專注于此。然而,我仍然認為參加競賽是很有價值的(特別是如果他們與工作相關)。例如,目前有一個關于鯨魚的競賽,該任務非常類似于定義貨架上的商品。
Sanyam Bhutani:如果給他足夠的時間,您認為 Kaggle 能夠給參賽新人帶來什么樣的機會?
Artur Kuzin:Kaggle 讓你能夠非??焖俚靥嵘恍┨囟ǖ募寄堋Mㄟ^正確的方法,這些技能可以轉化為工作所需的特質。此外,這些競賽讓你可以嘗試很多不同的任務,大大擴展你的知識面。最后,如果你能找到一個像 ODS.ai 這樣友好的技術社區(qū),那將會非常有趣。
如果我們談論的對象是更有經(jīng)驗的大師或特級大師級別的參賽者,那么對他們來說,這是一個試著成為團隊領導者的機會。在工作中,僅僅因為你想成為一個團隊領導者,你就能成功地做到這一點的情況是非常罕見的。但如果能夠在這種競賽中有很成功的領導表現(xiàn),那么通往領導生涯的道路就會容易一些。
就我個人而言,我用 kaggle 來尋找有智慧的人。例如,我與 Ilya Kibardin 和 Miras Amir 一起參加了多項比賽。所以他們是我在 X5 零售集團團隊的候選人名單上的首選。
最后需要強調(diào)的一點是,Ilya 和 Miras 在 kaggle 上的成就是讓他們獲得高薪的原因之一(盡管他們還是學生)。
Sanyam Bhutani:對于想在深度學習比賽中取得好成績的初學者,你有什么好的建議(他們自己往往沒有強大的 GPU 集群系統(tǒng))?他們怎樣才能戰(zhàn)勝數(shù)不勝數(shù)的對手呢?
Artur Kuzin:我認為可以采取下列策略:
1. 尋找計算資源。這些計算資源可以是 Kaggle GPU kernels,也可以是谷歌云的積分,或者是學術用的 AWS。
2. 盡早開始參與。計算資源的缺乏可以通過時間和嘗試次數(shù)來彌補。
3. 當你得到一個不錯的結果時,你可以與具有計算資源的更有經(jīng)驗的參賽者合作。
4. 奮戰(zhàn)到底。
Valery Babushkin 親自實現(xiàn)了這樣的策略。他根本沒有任何顯卡,然而他卻能夠在 Kaggle Carvana 競賽中取得不錯的結果。因此,我與他組隊并最終得到了金牌。
Sanyam Bhutani:當你開始從事一項新的比賽時,你要做的第一步技術準備是什么?
Artur Kuzin:下面給出的套路很典型:
1. 我會閱讀任務描述,逛逛論壇。如果沒有發(fā)現(xiàn)數(shù)據(jù)泄露,那么你可以決定參與其中。
2. 探索性數(shù)據(jù)分析
3. 將數(shù)據(jù)折疊,并考慮一些局部驗證方案
4. 準備對比基線
5. 接下來的步驟取決于具體競賽
Sanyam Bhutani :對于讀者們以及像我這樣想成為更優(yōu)秀的 Kaggler 的新人來說,您對我們有什么好的建議嗎?
Artur Kuzin:也許我的觀點有些獨特。但我堅信,最重要的是有能力去渴望和癡迷于某件事。這是一種對事物感興趣的能力,不要半途而廢,要堅持到底,奮戰(zhàn)到最后一秒。如果你有這種愿景,那么你就會明白如何做到最好。
Sanyam Bhutani:如今機器學習技術飛速發(fā)展,請問您如何才能緊跟該領域最新的進展?
Artur Kuzin:機器學習領域幾乎所有最近發(fā)生的事件和結果都在 ODS.ai 中有所討論。但我對學術上的發(fā)現(xiàn)并不感興趣,我感興趣的是實用的技術,這些技術可以讓我訓練出一種準確、輕量級的模型用于生產(chǎn)。在這方面,你可以關注在比賽結束后給出的解決方案的概述。一些參與者甚至會將源代碼和他們的解決方案一起分享給大家,這是非常值得尊敬的。
Sanyam Bhutani:您認為該領域最激動人心的發(fā)展是什么?
Artur Kuzin:我仍然對 AlphaStar 印象深刻。我們生活在一個非常有趣的時代。我認為這是將很快改變我們生活方式的重大發(fā)現(xiàn)的開始。
Sanyam Bhutani:你對機器學習這一領域有什么看法,會不會認為它被過度炒作了?
Artur Kuzin:我認為機器學習肯定是被炒作過頭了。但這并非無緣無故。在我看來,這個領域的成功并不是虛假的,因為現(xiàn)在很多公司都在大量不同的應用程序中使用機器學習。勞動力市場似乎也仍然不穩(wěn)定。但是隨著時間的推移,機器學習的能力水平將會提高,并且一切都將得到平衡,就像在通常的軟件開發(fā)中發(fā)生的那樣。
Sanyam Bhutani:在采訪結束前,你對于那些渴望有一天像你一樣成功,但卻對如何開始比賽感到不知所措的新手有什么建議嗎?
Artur Kuzin:現(xiàn)在就開始吧!想做就做!事在人為。我不認為自己有什么非凡的才能,也不認為自己有多聰明或精明。我有一群朋友,他們在各方面都比我好。但我確信,勤能補拙!
-
人工智能
+關注
關注
1792文章
47497瀏覽量
239214 -
計算機視覺
+關注
關注
8文章
1699瀏覽量
46050 -
機器學習
+關注
關注
66文章
8428瀏覽量
132837
原文標題:想在Kaggle中脫穎而出?先聽聽這位GrandMaster怎么說
文章出處:【微信號:aicapital,微信公眾號:全球人工智能】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論