資料科學是什麼?--2014臺灣資料科學愛好者年會

作者/黃貞祥(中研院生物多樣性研究中心博士後研究員)

近年,國外媒體開始注意到一個現象,就是企業對一種新興科學越來越感興趣,大學也開始出現新的學程以因應人才市場的需求,就是所謂的「資料科學」(Data science)這個跨領域的學門,綜合資訊科學、統計學、行銷學等等領域的知識和應用。

資料科學的應用,在知名的國外企業早已有許多知名的例子,例如亞馬遜網站透過顧客下單的資料分析,推薦顧客其他他們可能也感興趣的商品、美國目標百貨向會員寄送量身訂做的折價卷、優比速公司(UPS)利用數據分析指引送貨路線避開左轉等待的時間省下一大筆燃油費順便節能滅碳。線上租片公司NETFLIX利用大數據分析顧客品味,不僅用於推薦影片,甚至更進一步地以分析出的黃金組合開拍叫好又叫座的兩季影集《紙牌屋》(House of Cards)。

對大數據的分析與應用,是一群有識之士綜合各種觀察與想像腦力激盪的成果,就像烹飪一樣,一模一樣的食材,經過不同大廚的處理、調理,就成了不同菜色,如果加上創意和巧思,熟悉得不得了的食材也能讓人驚喜。玩資料科學就像是在玩廚藝一樣吧,食材和構思能組合成就不同的成果。

今年八月底的盛夏末,在南港中央研究院人文社會科學館就聚集了一群愛好資料科學的同好們,參加由中央研究院資訊科學研究所副研究員陳昇瑋和熱心朋友共同舉辦的「2014臺灣資料科學愛好者年會」,學習資料科學的認知、技術及應用。這是臺灣首次舉辦資料科學的年會,可是從報名者的踴躍程度來看,臺灣各界對資料科學的學習渴望,已經是如饑似渴了!在開放報名才一個小時半,750張早鳥票就被一掃而空!我有許多朋友才晚了一點,就只能望報名網站興嘆!

(照片提供: 2014資料科學愛好者年會)

這個資料學家界在臺灣的首度盛會,議題包含了資料科學的各個層面,例如數理統計、資料視覺化、資料處理及計算、資料儲存以及各領域裡的資料分析應用等等,內容包羅萬象,這個年會希望透過演講、課程及心得分享等各種形式,探索資料科學的潛力,並激發大眾的熱情。參加年會的聽眾,除了有近兩成來自業界,六成來自IT(information technology)產業,其他的來自各界。

在兩天緊湊的活動中,臺灣資料科學愛好者年會議程三軌並行,在演講議程方面,邀請了來自四方八方的資料科學家,與聽眾分享第一手的資料分析經驗,試圖告訴聽眾資料分析已經協助講者解決哪些問題以及創造多少價值;還有整整兩天的資料分析上手課程,帶領未入門者以R語言(主要用於統計分析、繪圖、資料探勘的程式語言)進入資料科學的領域;以及g0v零時政府黑客松,促進資料科學與開放資料(Open Data)的交流及結合。

在首日開場的全體活動中,臺大資訊工程學系特聘教授林智仁向大家分享大資料分析的挑戰與機會,比較了資料探勘與大數據的差異,以及講解機器學習遇見大數據技術所產生的困境。林智仁比較了資料探勘(Data Mining)和大數據(Big Data),而其差異在於資料量。機器學習專家林智仁先吐槽大數據,指出大數據給予資料科學家的挑戰是:分析大數據的方法還未臻成熟,更不用說要有整合性的工具,而且還得要再一個分散式的系統上去應用資料探勘或是機器學習的技術。他提醒我們,數據分析只是整個大數據應用的一小部分。最後他指出,開源的發展對大數據分析是很重要的,大數據的好處並非是唾手可得的。

接著,由躺在醫院時也不忘寫程式的g0v.tw臺灣零時政府共同創辦人高嘉良,來介紹資料、社群、大協作——零時政府的數位革命,闡述開放政府開源社群的理念,並且如何利用社群協作的方式,來彙整政府本來就該公開的資料,以去中心化的方式來監督政府,落實公民精神;御言堂總經理劉嘉凱接力討論如何讓資訊科學Z>B(利大於弊),介紹了他們在資料科學教育部分從Code for Tomorrow推出資料科學計畫(Data Science Program, DSP),透過實作及工作坊的方式,規畫出「資料科學團訓班」,並以實例引導學員發掘資料的價值;中央研究院統計科學研究所研究員兼副所長陳君厚分享他的跨領域合作經驗,並介紹如何在探索式資料分析(Exploratory data analysis)中使用他的團隊所開發的矩陣視覺化方法(Generalized association plots),讓多維度資料視覺化變得可能;Vpon行動數據科技數據科學家趙國仁,談了整合性資料分析與探索性研究來解決即時行動廣告的最佳化推播及定價,解說了建造行動廣告大數據平台的高技術挑戰。

在享用完下午茶後,我們進入公共衛生和生命科學的領域,臺灣醫學資訊學會祕書長潘美連分享如何利用臺灣獨步全球的健保資料庫來進行健康照護資料處理與分析,她以疝氣為例,解說她如何從上百萬筆資料的分析中,科學地探討民眾和醫師對疝氣的認識是否正確,接著她探討臺灣安寧緩和醫療政策的成效,除了發現安寧緩和醫療政策的成效確實不理想,她也能夠進一步瞭解到醫院等級、地區、病患年紀、政府政策等等,是否為安寧緩和醫療落實不彰的因素。但是健保資料並非完美的,她也說明健保資料庫在取得及使用上的方法及限制。

接下來,華聯生物科技股份有限公司研發部副理劉家宏為大家介紹資料科學於預防醫學之應用,分享了生物資訊演算法及資料處理在偵測程式中扮演的重要角色,解說了染色體晶片的設計以及如何使用染色體晶片來實踐預防醫學,降低罕見疾病的發生機率;特有生物研究保育中心助理研究員林大利,探討了野生動物與棲地關係。他參與並領導了臺灣最大的公民科學計畫,例如路殺社建構出路殺熱點,用於淺山保育方法的制定。還有蒐集大量文獻加上大尺度資料,發現影響鳥類遷徙變因的氣候變遷因素。更有趣的是,他為大家解說利用公民科學收集到的資料,分析出魔神仔等等民間傳說的可能起源。

第二天早上,是Gogolook(走著瞧)公司創辦人兼執行長郭建甫和該公司公司資料科學家高義銘,來分享資料科學在WhosCall這個大受好評的APP產品體系中的角色。郭建甫暢談WhosCall如何從一開始的創業發想,到成為現在大家所看到的模樣,呈現WhosCall的整個發展過程,高義銘也分享了數據處理時所使用的概念與統計方法。WhosCall在草創初期先利用工人智慧抓取全球所有的垃圾電話網站之資料,接著標記那些電話號碼,再利用累積到足夠多的活躍使用者之回報來建立資料庫。Gogolook這家不到十人的公司在2013年更被LINE的母公司Naver以高達6億新臺幣收購。他們的成功,成為典範讓大家認識到,資料分析在臺灣不再是空頭支票,而是手邊可用來解決問題及創造價值的工具。

接下來兩場演講探討利用大數據來預測兩件很具有挑戰性的事--天氣和金融市場。在全臺第一間民間氣象公司「天氣風險管理開發股份有限公司」擔任總經理的彭啟明,為大家介紹天氣∕氣候大數據的應用與展望,談天氣預測、天氣風險管理的挑戰及經驗,除此之外他也談了和政府溝通開放資料的遭遇;東吳大學數學系助理教授吳牧恩,介紹從預測市場看金融交易,分享他如何從失敗中悟出資產控制的重要性,然後才能巧賭一番。

下午的演講,先著重在社群網路的大數據。資訊工業策進會創新應用服務研究所研究顧問呂俊宏,從2013年社群網絡活動探討臺灣社會發展趨勢,解說如何從社群網絡媒體活動的收集及分析,來進行社會觀察,以及在民生產業上的可能應用;臺灣部落格界元老、「部落格觀察」站長、臺灣數位文化協會顧問洪進吉(食夢黑貘,Gene Hong),則探討從社群資料來看工人(群眾)智慧與人工智慧的結合,討論「林克傳說」這個尋找臉書熱門議題的計劃之初衷、功能及遠景。

資料科學在商業上的應用,最顯著的就是針對顧客的行為和購買記錄量身訂做推薦商品,Yahoo!Taiwan的兩位資料工程師黃孝文和林于聖,不藏私地介紹他們如何利用串流資料實做出即時分類器和即時推薦系統;除了商業應用,資料科學對公益活動有什麼樣的幫助呢?臺灣公益責信協會發起人兼理事長余孟勲,在好奇心驅使之下分析了臺灣前600大基金會,發現高達9成沒有發佈財務報表,僅不到5%的基金會提供完整的財報。他也用數據來解說,非營利組織的後勤行政成本超過一成是常態,要求非營利組織的行政成本為0%是相當不合理的。他希望這些資料能引起大家對於捐款流向及非營利組織財務責信的重視。

在閉幕式前,g0v黑客松的參加隊伍進行了他們的成果展示,展現各團隊對公開政府資料的各種應用和分析。兩天下來,我們接觸到大數據、資料視覺化、醫療、生態、天氣、廣告、社群、來電分析、公益活動、政府開放資料等等議題,但還有意猶未盡的感覺。洋洋灑灑的兩天演講簡略介紹,希望能讓大家認識到資料科學可以觸及的層面,以及可以發揮的潛力,還有能夠創造的價值。陳昇瑋博士承諾明年也將會一場盛會,明年的主題將會涵蓋MOOCs教育平台資料分析、飛機引擎錯誤測試、惡意網頁即時偵測、漫畫美學分析、心電訊號分析、網路安全分析、音樂情緒分析、房地產價格∕地點分析等等有趣又實用的議題。

在臨走時,臺灣資料科學愛好者年會送了參加者一個驚喜的紀念品《大數據》(Big Data: A Revolution That Will Transform How We Live, Work, and Think),由牛津大學網路研究所教授麥爾荀伯格(Viktor Mayer-Schonberger)和《經濟學人》(The Economist)雜誌資料編輯庫基耶(Kenneth Cukier)所著,告訴你什麼是大數據,大數據有什麼意義,還有大數據將如何改變我們的生活,對經濟、社會和科學會帶來什麼影響,我們又能如何趕搭上這波新潮流,如何懂得保護自己,避免個人資料和隱私受到侵害。《大數據》就用以上提到的實例,深入淺出地解說大數據之發掘和應用。

最重要的是,這個大受好評又叫座的資料科學年會,讓我們認識到「跨界」思考的重要性,從大數據中發掘出新的價值,取決於不同領域知識之間的碰撞和激盪,也展現出人類知識這個無形財富之分享,不僅不會像有形的財富那樣減損,還能夠激發出更多無形及有形的財富!

沒有留言:

張貼留言