close

好書推薦-圖解統計與大數據

     這幾年「大數據」名詞在生活中經常聽到,不論是新聞媒體、科學期刊或是網路文章,很常被引用,尤其又與「工業4.0」連結在一起而成為焦點。而「大數據」因應而生的「資料科學家」(Data Scientiest)更成為CarreCast 雜誌 2016 調查美國最佳職業排行榜第一名(第二、三名依次為 統計學家、資安系統分析師,完整排行榜請參考網址http://www.careercast.com/jobs-rated/jobs-rated-report-2016-ranking-200-jobs) ,短短幾年的時間成為最熱門的職業,不過目前在台灣,資料科學家尚未成為一個固定職稱,一般民眾也不甚瞭解。

       由於這幾年本人固定在大學進修(修學分課程,隨班附讀)每學期二至三門課,這學期發現學校資訊管理系有開設「大數據系統建置與管理」課程,一方面趕上潮流,一方面也是好奇,我便選修了這門課,從課程大綱發現內容著重在利用應用套裝軟體(R、Python、Spark)來分析大數據資料,電腦實作教學佔大部份時間比重;但我個人覺得真正的「資料科學家」應該不止是具備「資訊實作能力」(一般來說,熟能生巧,即使非相關科系也能學習軟體操作),反而數學、統計、電腦科學這些「數理推理能力」應該更重要,因此便上網買了介紹「大數據」理論的書籍來輔助實作課程。

       本書「圖解統計與大數據」,2016年6月初版,作者 吳作樂(數理統計博士,頗具知名度),開宗明義將網路時代「大數據分析」定義為「傳統統計」與「工程統計」的工具結合起來的「商業用統計分析」。因此書中由簡至繁介紹了「傳統統計」、「基礎機率」、「工程統計」、「生物統計」以至於「大數據分析」等章節,每個主題小節篇幅約二頁,皆以簡單明瞭的方式配合彩色圖表來敘述統計的理論,有別於一般統計學的書籍(冗長、公式繁複),我認為只要高中職以上程度都能理解大部份內容。

       本書相當適合各種背景的人閱讀,完整閱讀內容,大概需三、四天時間,詳讀後除了讓我對各種數理、統計理論有更深的的瞭解外,同時對於「大數據系統」課程所採用的分析工具,其背後運作的理論模型也有初步的認識,相信學習上可發揮加乘效果。在此推薦給各位需要了解或學習「大數據」的人閱讀。

後記:本書幫我糾正了一個觀念,即利用平均值來描述統計並非最佳方式,例如政府主計單位經常用平均值來統計民眾月薪資,例如2016年國人正職月薪為5萬1千元(新聞連結 http://n.yam.com/cardu/fn/20170225/20170225099276.html) 乃採平均值計算,但因為薪資分布屬M型化,根本無法反應真正的情況,難怪一般民眾很無感(試問你週遭的人有多少月薪在此平均值?),比較適當的方式是採中位數表示才對。

arrow
arrow

    pc散客 發表在 痞客邦 留言(0) 人氣()