在中國,打開直聘,搜索數(shù)據(jù)科學(xué)家職位,你會看到月薪范圍為2萬至9萬,每年14至16薪,按此計算,最低年薪為28萬,最高為144萬。高級/資深軟件開發(fā)工程師的月薪范圍為2-6萬,每年12-15薪,按此計算,最低年薪為24萬,最高為90萬。兩者的差距還是很大的。你會發(fā)現(xiàn):數(shù)據(jù)科學(xué)專業(yè)畢業(yè)后的薪資水平高于大部分計算機專業(yè)的畢業(yè)生(以上數(shù)據(jù)源于2021年9月份直聘網(wǎng))。
除了薪資高,職位需求也是快速增長的,據(jù)領(lǐng)英發(fā)布的《2021年新興職位趨勢報告》對2020年3月1日至2021年2月28日與上一年同期進行了對比,數(shù)據(jù)科學(xué)是增長最快的職位。
在美國,綜合年薪、工作滿意度以及在Glassdoor開放的崗位數(shù)目,數(shù)據(jù)科學(xué)家在美國最大的求職網(wǎng)站之一Glassdoor美國最佳工作(Best jobs in America)排名,連續(xù)四年穩(wěn)居第一,平均年薪維持在10萬美元之上,成為美國最為炙手可熱的職業(yè)之一。
Ⅰ 專業(yè)介紹
數(shù)據(jù)科學(xué)(Data Science)是近幾年被獨立分割出的新興專業(yè),是一門交叉學(xué)科,涉及很多的領(lǐng)域,包括統(tǒng)計學(xué)、數(shù)學(xué)、計算機、人工智能、機器學(xué)習、數(shù)據(jù)庫、模式識別、可視化技術(shù)等多學(xué)科的知識。大數(shù)據(jù)時代的到來為各個科學(xué)領(lǐng)域帶新的改革。
大家概念中的“數(shù)據(jù)分析”或者“數(shù)據(jù)科學(xué)",通常指的就是定量的定義問題,并基于歷史觀測數(shù)據(jù)(而不是實驗數(shù)據(jù))和定量方法解決問題,讓數(shù)據(jù)自己講故事,而不是通過經(jīng)驗或者實驗講故事。因此,所有可靠的可定量的數(shù)據(jù)問題都可以基于數(shù)據(jù)分析方法解決,而遠不止商業(yè)問題。
去年抗擊新冠疫情的過程中,數(shù)據(jù)科學(xué)也起了非常重要的作用。前有根據(jù)大數(shù)測疫情拐點、利用監(jiān)控網(wǎng)絡(luò)發(fā)現(xiàn)傳染源,后有達摩院醫(yī)療,AI醫(yī)生能在20秒內(nèi)完成新冠肺炎影像的分析,分析結(jié)果準確率達96%。艾倫AI研究所等頂級研究小組發(fā)布了免費的COVID-19開放研究數(shù)據(jù)集,涵蓋目前所有的冠狀病毒研究文獻,Kaggle緊跟著發(fā)起CORD-19數(shù)據(jù)集文本挖掘競賽,提出 10大難題,召喚AI研員開發(fā)文本數(shù)據(jù)挖掘工具助力醫(yī)學(xué)界。
Ⅱ 數(shù)據(jù)科學(xué)就業(yè)方向
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)學(xué)生畢業(yè)生能在政府機構(gòu)、企業(yè)、公司等從事大數(shù)據(jù)管理、研究、應(yīng)用開發(fā)等方面的工作。主要有以下三類職業(yè)方向:
一、機器學(xué)習工程師 Machine Learning Engineer
代表了技術(shù)含量較高的方向。工作內(nèi)容主要是開發(fā)機器學(xué)習系統(tǒng)和用這些系統(tǒng)解決實際問題,一般需要 ship production code ,做出來的是數(shù)據(jù)產(chǎn)品。
二、數(shù)據(jù)分析員 Data Analyst
工作內(nèi)容俗稱 analytics(product analytics or business analytics ),從數(shù)據(jù)中提取 insight ,估計投資回報比,為產(chǎn)品方向提建議。 在美國,Data Analyst 的基本工資中值為58777美元。能夠影響薪資的技能包括數(shù)據(jù)分析、 Microsoft Excel 、SQL、數(shù)據(jù)庫管理與報告、Microsoft Office、數(shù)據(jù)挖掘/數(shù)據(jù)倉庫、統(tǒng)計分析、數(shù)據(jù)建模、數(shù)據(jù)錄入、 Microsoft SQL Server、 Microsoft Access、R、SAS等。
三、數(shù)據(jù)科學(xué)家 Data Scientist
1、IT 數(shù)據(jù)科學(xué)家
工作內(nèi)容以高級建模為主,會針對復(fù)雜的問題來設(shè)計技術(shù)方案。它的任務(wù)是為建模、數(shù)據(jù)挖掘、生產(chǎn)目的設(shè)計、構(gòu)建新的數(shù)據(jù)集流程,確定改進數(shù)據(jù)和搜索質(zhì)量以及預(yù)測能力的新方法。執(zhí)行和解釋關(guān)于新數(shù)據(jù)源或現(xiàn)有數(shù)據(jù)源的新用途的數(shù)據(jù)研究和產(chǎn)品實驗。開發(fā)原型、概念證明、算法、預(yù)測模型和分析。
2、營銷數(shù)據(jù)科學(xué)家
負責構(gòu)建和調(diào)整轉(zhuǎn)換算法和數(shù)據(jù)挖掘策略,以利用消費者數(shù)據(jù),通過數(shù)據(jù)來給出營銷方面的戰(zhàn)略建議,以確保在線營銷策略與公司更廣泛的營銷計劃相結(jié)合,并使用例如 Adobe Analytics /Google Analytics 這類分析工具,及時向公司管理層和客戶提供報告.
Ⅲ本科的哪些專業(yè)可以申請、本科期間必須學(xué)習的課程
一、本科哪些專業(yè)可以申請
早前,Data Science一直被默默無聞地嵌入BI(Business Inteligence)或Business Analytics、Computer Science。但是,隨著大數(shù)據(jù)無限膨脹,人們越認識到如何處理大數(shù)據(jù)將成為一門非常有用且高深的學(xué)問,于是它漸漸Business School(商學(xué)院)和 CS(計算機)大院中剝離出來。
然而,其交叉學(xué)科的性質(zhì)和未來廣闊的不同專業(yè)的就業(yè)面,使得眾多本科專業(yè)背景的同學(xué)都可以參與到這個專業(yè)的研究生學(xué)習當中,有如下三個類別的本科專業(yè)可以申請數(shù)據(jù)科學(xué)專業(yè)的研究生:
1、數(shù)學(xué)
本科背景是統(tǒng)計、數(shù)學(xué)或應(yīng)用數(shù)學(xué),且有一定編程基礎(chǔ)的同學(xué)很適合申請。
數(shù)據(jù)科學(xué)專業(yè)無法避免的就是算法,而算法的基礎(chǔ)就是數(shù)學(xué)。因而數(shù)學(xué)系的同學(xué)如果申請數(shù)據(jù)科學(xué)研究生的話是非常有競爭力的,雖然你可能沒有計算機基礎(chǔ),但是你的邏輯思維直接導(dǎo)致了你有很好的處理大數(shù)據(jù)的能力。
2、計算機相關(guān)專業(yè)
本科為計算機相關(guān)專業(yè)的同學(xué),申請數(shù)據(jù)科學(xué)研究生自然是最具競爭力的。因為大多數(shù)數(shù)據(jù)工作都是通過編程和數(shù)據(jù)庫的相關(guān)手段進行的,并要求學(xué)過統(tǒng)計、微積分、高級語言。
3、經(jīng)濟學(xué)相關(guān)專業(yè)
在大數(shù)據(jù)環(huán)境下,你有經(jīng)濟學(xué)基礎(chǔ),那么恭喜你,你一定比其他專業(yè)的同學(xué)們更懂得什么數(shù)據(jù)才是有利于預(yù)估經(jīng)濟發(fā)展行情的。因而,如果你有很好的邏輯能力的話,你完全可以學(xué)習一些基礎(chǔ)的計算機知識和編程,這不但是適應(yīng)社會發(fā)展的知識,也是能讓你在今后就業(yè)方面如魚得水的專業(yè)。
二、本科期間必須學(xué)習的課程
以上三類專業(yè),都可以申請數(shù)據(jù)科學(xué)研究生,實際上,美國大學(xué)對于申請這個專業(yè)的研究生在本科階段的學(xué)習中的一些課程是有要求的,這些課程在你大學(xué)的前三年要修完,這些課程,行業(yè)內(nèi)人員稱之為前置課程。我們看哈佛大學(xué)對申請者的課程要求:
哈佛大學(xué)對于MSDS(Master of Science in Data Science)的本科要求是:希望有微積分、線性代數(shù),概率和統(tǒng)計等相關(guān)課程,能使用至少1種編程語言,例如Python或R,了解計算機科學(xué)概念。
基于以上情況,總結(jié)一下學(xué)生在本科期間應(yīng)該學(xué)習以下課程:
1、數(shù)學(xué)課程
盡管每所學(xué)校都要求不盡相同, 但一般會要求學(xué)生修過線性代數(shù),概率論,數(shù)理統(tǒng)計,微積分等這些基礎(chǔ)課程;或者高級物理學(xué),工程學(xué)或有大量數(shù)學(xué)內(nèi)容的計量經(jīng)濟學(xué)課程作為數(shù)理能力的補充。
2、計算機課程
計算機科學(xué)入門(或等效的“ CS-101”編程課程),如果有其他計算機基礎(chǔ)課程如算法,數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)庫概率,數(shù)據(jù)挖掘,機器學(xué)習等更佳。
3、軟件編程
計算機語言沒有特定的要求,但是成功的申請者通常至少需要掌握一門編程語言,編程語言(Python/R/Java/C++),一般最看重Python和R。
Ⅳ研究生數(shù)據(jù)科學(xué)專業(yè)開設(shè)情況與數(shù)據(jù)科學(xué)研究生所學(xué)課程
美國大學(xué)開設(shè)了200多個與數(shù)據(jù)科學(xué)有關(guān)的碩士專業(yè),到2013年后,開設(shè)數(shù)據(jù)科學(xué)碩士項目的美國大學(xué)保持持續(xù)增長。目前在TOP50院校中開設(shè)數(shù)據(jù)科學(xué)碩士專業(yè)的學(xué)校達21所。
美國的數(shù)據(jù)科學(xué)碩士專業(yè)一般開設(shè)在計算機學(xué)院、工程學(xué)院、數(shù)學(xué)、統(tǒng)計學(xué)院或者系下。設(shè)立在多個學(xué)院是因為這個專業(yè)本身屬于交叉學(xué)科,包含了計算機,統(tǒng)計,數(shù)學(xué),和應(yīng)用領(lǐng)域的學(xué)科。
例如卡耐基梅隆大學(xué)的數(shù)據(jù)科學(xué)專業(yè)開設(shè)在計算機學(xué)院下,紐約大學(xué)的數(shù)據(jù)科學(xué)碩士就是設(shè)立在紐約大學(xué)數(shù)據(jù)科學(xué)中心下(The Center for Data Science ,簡稱CDS),CDS附屬在著名的庫郎數(shù)學(xué)科學(xué)研究所 。
Ⅴ軟背景要求
除了硬件背景,GPA, GRE, 托福等,軟背景是更重要的申請條件,經(jīng)驗包括實習經(jīng)驗、科研經(jīng)驗、競賽。
一、科研
一般需要1-2段。
對口的科研有數(shù)據(jù)挖掘中的算法和應(yīng)用,亦或者計算機軟件、數(shù)據(jù)庫相關(guān)的項目。
二、實習
一般需要2-3段。
實習最優(yōu)選擇應(yīng)該是知名數(shù)據(jù)公司的數(shù)據(jù)崗,比如數(shù)據(jù)科學(xué)家,數(shù)據(jù)分析師,機器學(xué)習工程師,研究分析師等,然而現(xiàn)實是這些崗位由于太過重要,實習的機會較少。所以建議找一些統(tǒng)計、量化相關(guān)的或者計算機相關(guān)的實習,比如統(tǒng)計師,產(chǎn)品分析師,生物統(tǒng)計師,分析師助理,大數(shù)據(jù)處理助理。
但是,這些崗位對公司來講一般都太過重要,一般不招實習生,所以建議找一些統(tǒng)計量化相關(guān)的或者計算機相關(guān)的實習。
三、競賽
競賽的平臺較多,比較火的有Kaggle,還有就是阿里的天池、SODA、WID、數(shù)據(jù)嗨克等。
谷歌旗下的Kaggle是一個數(shù)據(jù)建模和數(shù)據(jù)分析競賽平臺,是當下最流行的數(shù)據(jù)科研賽事平臺,其組織的賽事受到全球數(shù)據(jù)科學(xué)愛好者的追捧。如果你能在這個比賽獲得較好名次,不僅可以體現(xiàn)你在數(shù)據(jù)科學(xué)、人工智能學(xué)科上的強烈興趣,還能在研究生申請和未來工作中,增加你在編程和算法上的競爭力!