專業(yè)簡介

數(shù)據(jù)科學(xué)是一門涉及到統(tǒng)計,數(shù)據(jù)分析及其相關(guān)方法的科學(xué),借用數(shù)據(jù)去理解和分析實際現(xiàn)象”。數(shù)據(jù)科學(xué)使用到數(shù)學(xué)、統(tǒng)計、信息科學(xué)和計算機(jī)科學(xué)等各個學(xué)科的技術(shù)和理論,特別是以下分支:機(jī)器學(xué)習(xí), 分類, 聚類分析,數(shù)據(jù)挖掘,數(shù)據(jù)庫和可視化。大多數(shù)院校的Data Science屬于STEM學(xué)科。

數(shù)據(jù)科學(xué)可以應(yīng)用在哪些領(lǐng)域?--以哥大的數(shù)據(jù)科學(xué)所的研究領(lǐng)域為例:

Ÿ Financial and Business Analytics 金融與商業(yè)分析(例如數(shù)據(jù)科學(xué)幫助解決詐騙郵件的問題;數(shù)據(jù)科學(xué)幫助解決量化交易收益最 大化的問題;數(shù)據(jù)科學(xué)在大規(guī)模商業(yè)銀行中的應(yīng)用)
Ÿ Health Analytics 健康分析(哥倫比亞大學(xué)數(shù)據(jù)健康分析中心的研究員和教授來自醫(yī)學(xué)、生物、公共衛(wèi)生、生物信息、計算機(jī)、應(yīng)用數(shù)學(xué)與統(tǒng)計專業(yè)。目標(biāo)是通過數(shù)據(jù)驅(qū)動的方和對健康過程的理解來改善個人健康和醫(yī)療系統(tǒng)。案例: Real-time Monitoring and Data Visualization for the Management of Intracranial Hypertension in the Intensive Care Unit 重癥監(jiān)護(hù)病房顱內(nèi)高壓管理的實時監(jiān)測和數(shù)據(jù)可視化)
Ÿ Smart Cities 智慧城市(哥大智慧城市研究中心的研究涵蓋面很廣,例如檢測和消除城市基礎(chǔ)設(shè)施老化的問題,提高智能電網(wǎng)技術(shù),計算和溝通交通擁擠時的最 佳交通路線等)
Ÿ Computational Social Science 計算社會科學(xué)(哥倫比亞大學(xué)計算社會科學(xué)研究中心,幫助缺少編程和技術(shù)背景的研究人員,解決社會科學(xué)的問題。例如利用移動電話和衛(wèi)星數(shù)據(jù)繪制貧困地圖,解決貧困問題(孟加拉地區(qū)))
Ÿ Cybersecurity 網(wǎng)絡(luò)安全(我們致力于開發(fā)在整個生命周期內(nèi)保持?jǐn)?shù)據(jù)安全和私有性的能力。該中心與計算機(jī)科學(xué)和電氣工程系,以及商學(xué)院合作研究。)
1.2 項目設(shè)置
數(shù)據(jù)科學(xué)項目主要是面向職業(yè)培訓(xùn)、側(cè)重工業(yè)界需求,所以設(shè)置博士學(xué)位的學(xué)校比較少。為了符合工業(yè)界需求,專門的數(shù)據(jù)科學(xué)項目課程都很實際,側(cè)重培養(yǎng)學(xué)生分析數(shù)據(jù)、解決問題的實際動手能力,課程一般不涉及理論知識。
如果要讀博士,申請統(tǒng)計和生物統(tǒng)計專業(yè)最對口,其次是計算機(jī)或者電子工程做機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘這些相關(guān)方向的。另外數(shù)學(xué)、IEOR、經(jīng)濟(jì)等專業(yè)也有少數(shù)博士生做的方向可以轉(zhuǎn)到數(shù)據(jù)科學(xué)上。
1.3 課程設(shè)置
核心課程有 (以哥倫比亞大學(xué)數(shù)據(jù)科學(xué)項目為例):
統(tǒng)計和計算機(jī)課程
l Introduction to Data Science
l Computer Systems for Data Science
l Machine Learning for Data Science
l Algorithms for Data Science
l Probability Theory
l Probability Theory
l Exploratory Data Analysis & Visualization
l Statistical Inference & Modeling
選修課
可選范圍比較廣泛,包括
l Translational Bioinformatics
l Topics in Computer Science: Applied Machine Learning
l Topics in Computer Science: Causal Inference for Data Science
l Topics in Computer Science: Elements of Data Science: A First Course
l NLP: Computational Models of Social Meaning
l Topics in Computer Science: Projects in Data Science: A First Course
l Topics in Information Processing: Big Data Analytics