大數據

大數據

巨量資料(Big data),又稱為大數據。

巨量資料也可以定義為來自各種來源的大量非結構化或結構化數據。

巨量資料通常包含的數據大小超出傳統軟體在可接受的時間內處理的能力。由於近期的技術進步,發布新數據的便捷性以及全球大多數政府對高透明度的要求,巨量資料分析在現代研究中越來越突出。

什麼是大數據。

大數據的5V (數量、時效性、多樣性、正確性、價值)

數量 (Volume) : 系統會收集大量的資料
例如:全世界有60億人,而美國有四億人,四億人的糖尿病資料

時效性 (Velocity) : 資料收集和取樣速度飛快
例如:血糖機每天量血糖的資料,有糖尿病的病患,一天24小時,一小時60分鐘,都要量測血糖的濃度.不同時間有不同的血糖濃度,有時效性.時間序列分析為現代研究的重點.

多樣性 (Variety) : 系統收集的資料和有待分析的資料具有不同的結構和格式,包含文字、影音、網頁、串流等等結構性、非結構性的資料
將量測的資料作儲存並且計算與分析

正確性(Veracity):當資料的來源變得更多元時,這些資料本身的可靠度、品質是否足夠,若資料本身就是有問題的,那分析後的結果也不會是正確的
驗證所測量的血糖資料,並且分析其正確性.去除因正常資料變異或外在因素產生錯誤的資料.

價值(Value) : 分析資料後即可取得重要價值
所做的分析決策,可以了解或避免得到糖尿病,而產生價值

大數據的分析步驟

1.常用的大數據程式語言:Java、Python、MATLAB和R。

2.取得大數據資料
工業物聯網IOT取得大數據的資料.世界上最大量的連網裝置就是手機,每個人將自己的資料作儲存,並且傳到電信公司,作通話與資料的儲存收費.
3.儲存
將資料儲存在雲端硬碟或大數據儲存中心.也可以將資料儲存在資料庫像是SQL Server或MySQL資料庫.

4.人工智慧大數據的運算
可以使用機器學習或深度學習人工智慧演算法做資料的運算分析.Weka軟體.
Hadoop為大數據分散式運算軟體使用Java撰寫,Hadoop儲存使用HDFS儲存格式,而運算使用MapReduce來作分算式平行運算.
Spark則為快速計算的開放源軟體,架構在Hadoop之上.

5.將資料視覺化
可以使用Excel,Matplotlib,powerBI或Tableau等視覺化軟體,將大數據的統計分析資料視覺化

資料採礦

Weka解決方案.Weka是Java撰寫的大數據分析軟體.

1.資料採礦過程
2.安裝Weka
3.糖尿病預測分析

糖尿病並不可怕我們可以用機器學習和深度學習來預測糖尿病
根據美國疾病控制預防中心的數據,現在美國1/7的成年人患有糖尿病。
但是到2050年,這個比例將會快速增長至高達1/3。

我們在UCL機器學習資料庫里一個糖尿病數據集,希望可以通過這一數據集,了解如何利用機器學習來幫助我們預測糖尿病!

1.資料採礦過程

商業智慧
了解資料
資料前處理
模型
評估與分析
佈置

ARFF資料格式

字串與日期屬性

ARFF data format 字串屬性:

@attribute  description string

Similar to nominal attributes but list of values is not pre-specified

date日期屬性

@attribute today date

數值屬性

糖尿病大數據

糖尿病和下列有關特徵(懷孕次數,血糖,血壓,皮脂厚度,胰島素,BMI身體質量指數,糖尿病遺傳函數,年齡,結果)

Kaggle大數據介紹

https://www.kaggle.com/uciml/pima-indians-diabetes-database

糖尿病特徵因子及資料統計

糖尿病的大數據資料.

2.安裝Weka

 

3.糖尿病預測分析

1.糖尿病屬性分析
2.決策樹預測
3.支援萬用向量機

巨量資料的出現提升了對資訊管理專家的需求,Software AG、Oracle、IBM、微軟、SAP、易安信、惠普和戴爾已在多間資料管理分析專門公司上花費超過150億美元。在2010年,資料管理分析產業市值超過1,000億美元,並以每年將近10%的速度成長,是整個軟體產業成長速度的兩倍。

經濟的開發成長促進了密集資料科技的使用。全世界共有約46億的行動電話用戶,並有10至20億人連結網際網路。自1990年起至2005年間,全世界有超過10億人進入中產階級,收入的增加造成了識字率的提升,更進而帶動資訊量的成長。