數據科學50年,數據科學家是否依然是21世紀最性感的職業(yè)?
在如今的數據智能時代,幾乎所有人都相信“數據的真實價值就像漂浮在海洋中的冰山,第一眼你只能看到冰山一角,而絕大部分則隱藏在表面之下。”當數據的價值依然在冰山之下隱藏,外面的世界便彌漫著對數據的渴望。
一些新的職業(yè)成為數據海洋里的新星,“數據科學家”無疑是最亮的之一,它被譽為21世紀最性感的職業(yè),但是近年來隨著平民數據科學家的發(fā)展,有人指出數據科學家將要消失,也有國外相關人士建議不要去選數據科學家這個職業(yè),數據科學家還是21世紀最性感的職業(yè)嗎?
數據科學五十年仍是少年
數據科學家泛指數據科學的從業(yè)者,追溯數據科學家的源頭可以到數據科學誕生的1966年,當時Peter Naur提出"數據科學"(“DataScience”起初叫"datalogy "),用來代替"計算機科學"。1996年,International Federation of Classification Societies (IFCS)國際會議召開。數據科學一詞首次出現在會議(Data Science, classification, and related methods)標題里。
在2000年代中期數據科學家職位開始出現,2009年Natahn Yau指出數據科學家是是采用科學方法、運用數據挖掘工具尋找新的數據洞察的工程師,數據科學家集技術專家與數量分析師的角色于一身。
實際上大數據和數據科學在內的整個數據行業(yè)最初都是由Google、Facebook、Twitter等互聯網巨頭驅動,現在仍然如此?偛课挥跉W洲的JetBrains是國際知名軟件開發(fā)工具提供商,其產品經理Andrey Cheptsov認為互聯網巨頭能夠推動數據行業(yè)的發(fā)展首先有所需求、并有能力進行大規(guī)模有效處理數據,其主要業(yè)務模型從核心上取決于自身處理大規(guī)模數據的效率。
隨著大數據行業(yè)的發(fā)展,數據科學家成為了職場新星,更是被財富雜志譽為21世紀最性感的職業(yè)。但是數據科學家在初期成長也并非一帆風順,根據商業(yè)智能公司SiSense在2012 年左右的一項報告,在接受調查的全球400位數據科學家和數據分析人士中,59%的數據科學家在從業(yè)六年后都另謀高就。盡管該職業(yè)的報酬豐厚,其中超過半數表示對職業(yè)安全性的擔憂。
彼時麥肯錫等咨詢公司力挺數據科學家,堅信數據科學家是當今和未來稀缺的資源。隨著智能手機的普及移動互聯網的發(fā)展,數據價值越發(fā)凸顯,數據科學家水漲船高。LinkedIn 發(fā)布的《2017 年美國新興工作崗位報告》中指出,“自 2012 年以來,數據科學家的職位增長了 650% 以上”且“數百家企業(yè)都在招聘這些職位”。
國內近幾年也有互聯網公司近幾年開始逐步設立獨立的數據科學(DataScience)團隊,推動公司向數據驅動發(fā)展。進入21世紀20年代,數據科學家成為更稀缺的資源,很多人也依然相信它還是21世紀最性感的職業(yè)。
不過榮譽傍身的新星也有“暗淡”的一面,2017年有研究指出數據科學家成為離職率最高的職位之一,通常他們每周都會花費一定的時間尋找新工作。日前仍然有數據科學家從業(yè)者勸諫后來者不要入坑,可謂是冰火兩重天,何以至此?
數據科學五十年依舊是少年模樣,就如同“AI”這個名詞在1956年出現到如今60多年才有初步落地,數據科學是一個綜合性的學科,國內外很多從業(yè)者認為數據科學依然是探索性的工作,管理層對 “數據科學” 的含義往往沒有達成共識。
雖然已經經過至少10多年的發(fā)展,現在可能受限于業(yè)務,沒有辦法生搬硬套一個角色框架給數據科學家,企業(yè)也容易將數據科學家和數據工程師混淆。JetBrains產品經理Maria Khalusova認為“數據科學家”和“數據工程師”這兩種職位角色在行業(yè)中還是相當新的,也正因此,通常沒有明確的職責劃分!拔覀兛吹皆谀承┕局杏蓴祿茖W家承擔的職責,在其他公司中這些職責卻由數據工程師承擔。另一個越來越常見的新角色是機器學習工程師,但也是同樣的情況,他們也經常與數據工程師發(fā)生重疊!盡aria Khalusova在接受IT168采訪時指出。
數據科學家VS數據工程師
新的技術融入產業(yè)和社會必然會帶來一場職業(yè)的辭舊迎新,這個過程并沒有那么快速。
“從技術角度來看,數據科學在某些情況下的實踐似乎還不如傳統軟件開發(fā)成熟。企業(yè)可能會面臨以下挑戰(zhàn):建立可重現的機器學習管道,對數據和模型進行版本控制以進行審核,與快速發(fā)展的技術保持同步。”Maria Khalusova指出。
數據科學家和數據工程師的角色兩者有許多共同的特點和共技能。這些重疊的技能包括處理和操作大數據集、應用數據的編程技能、數據分析技能以及對系統操作的總體熟練程度。不過兩者還是有很大的不同。在筆者之前翻譯的文章中也強調了數據科學家和數據工程師不可能合二為一,為了從數據中獲得價值,大多數企業(yè)組織都需要數據科學和數據工程,由于相關技能有很大差異,二者合體也不太現實。企業(yè)組織可能需要多個數據科學家和數據工程師,但兩者之間的比例很少是1:1。對于大多數企業(yè)組織來說,擁有更多的數據工程師比數據科學家更有意義。因為數據科學家已經學會處理大量的干凈數據,但是從許多不同系統獲得大量的干凈數據更難也更具挑戰(zhàn)。與抽象數據模型和對數據集運行分析相比,移動和清理數據的工作量更大。
從技能需求方面也有很大的差異,Maria Khalusova認為,廣義上來講,數據工程師通常必須熟悉那些為分布式數據處理而設計的工具,例如Apache Spark、Apache Hadoop、Apache Ignite等。他們要具備數據倉庫和數據湖方面的經驗,因為他們需要能夠熟練地使用Java、Scala和Kotlin等JVM語言,并且必須能夠創(chuàng)建和維護大多數數據基礎架構。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術峰會
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業(yè)大會
-
精彩回顧立即查看>> 【限時福利】TE 2025國際物聯網展·深圳站