財訊快報 發行日期:2013-10-11 刊號:201304
分享| 分享至新浪微博 分享至facebook 分享至PLURK 分享至twitter

海量資料飆速成長

【文/鄭威宏】

隨著時代的改變,現代化作戰的武器不可能再拿刀拿槍,取而代之當然是高科技武器,同樣的道理,放在商業模式勢必也會出現大轉變;雖然台灣社會普遍對於海量資料(Big Data)處理還不熟知,但海量資料處理不僅能在網路上了解客戶的消費經驗,捕捉行為科學,讓企業深入地了解客戶的樣貌,不論是蘋果、臉書,或是總統大選都已大量應用海量資料處理來分析,在美國社會掀起滔天巨浪。

高品質檔案傳輸環境成熟

事實上,海量資料已與大家的生活息息相關。近年來隨著3G智慧型手機的普及(4G隨侍在後)、APP應用、電子商務的盛行、社群網路的大行其道、雲端伺服器應用增加等因素使然,不僅增加消費者對於網路世界的黏著度,同時也提高消費者對於資料傳輸的使用頻率,加上高品質檔案傳輸環境成熟,大幅提高網路上的資料傳輸量,這些都是海量資料的主要來源。

因此,研究機構IDC指出,2012年全球數據流量約5EB(約10億GB),但預估到了2017年,將成長300%至21EB,而且,到2020年前數據流量的平均年複合成長達1020%。

不過,以谷歌(Google)為例,每天處理資料量高達24PB(1024 Trillionbyte),但在沒有海量資料處理能力之前,根本無法達到處理這種資料的本事,最終大批的資料庫變成苦無用武之地,加上儲存成本上的壓力,只好選擇割捨。

不過,谷歌身為全球搜尋引擎龍頭,當然有它的道理。20032004年間,由谷歌發表了兩篇論文「The Google File System、MapReduce : Simplified Data Processing on Large Cluster」開始,敘述谷歌如何利用MapReduce演算法來計算查詢索引,讓使用者能在最短時間從網際網路上取得自己查詢的資料,也讓海量資料處理開始浮上檯面,是海量資料最早的應用之一。

不過,後續學者開始大力著墨,Doug Cutting(又被稱為Hadoop之父)參考上述谷歌二篇論文為藍圖,演變成一套如何儲存、處理、分析TB至PB等級的資料處理方法-Hadoop,而Hadoop又是一個免費且開放原始碼的分散式檔案系統,可以用於各種不同電腦之間,總和成為單一電腦系統進行平行運算,不僅全球最快的運算系統,也是當今海量資料處理最主要的基礎架構,就如同一般消費者筆電中的Windows作業系統。

而且,Hadoop更可怕的不只是能處理1TB以上的海量型資料;過去的資料處理領域多為局限在結構化資料(指資料經過分析後可分解成多個互相關聯的組成部分,各組成部分間有明確的層次結構),但Hadoop還能加入非結構化資料的分析能力,像是log紀錄檔、日誌、照片、聲音、通訊紀錄或電子郵件等,過去不易且昂貴的儲存、處理、分析的資料,現在都得到解決方法。

1 2 3