2015/12/11-12/15 在中研院舉辦的國際統計年會,今年的主題是高維度數據分析,也是目前最熱門的議題。隨著大數據時代的來臨,我們的資料越來越多變數,也就是高維度,而且資料量越來越大,不管是統計上或是計算上都是新的挑戰,就算有全部的資料,但是因為資料太龐大不該全部拿來計算使用。舉個例子來說,我想要知道全世界人的身高平均,就算給我全世界人的身高資料,也不該直接拿來計算,因為我們的計算會產生"計算誤差",所以如果我們拿全部資料去做計算,最後計算誤差會漸漸累積,導致我們算出來的數值有偏誤,就算是電腦計算也只到小數點的有限位數,依然會有誤差,更不要說把計算成本考慮進來。因此怎麼處理big data就變成一個很重要的問題。

這次的研討會有很多重量級的華人學術人物都到場,演講的主題也環繞在各個統計子領域怎去處理高維度數據的問題。生物統計領域面對大量DNA的資料要怎麼處理,在經濟財務領域,資料是時間序列要如何去處理多變量的時間序列,或是統計理論的突破,利用高維度資料一些幾何的特性,去做理論上的突破。

高維度資料處理,目前大家比較討論的近代方法,一個是lasso regression,一個是random projection,這兩個領域都有講者分別再去做相關的研究。李克昭院士有特別提到,support vector machine在single index model會有偏誤,是一個很大的震撼彈。蔡瑞胸院士也提到他對高維度時間序列的看法,認為應該把資料的想像,轉成想像functional data上,都是很獨到的看法。兩位院士也一致認為古典的技術factor analysis會再度成為焦點。

這次研討會,其實是開放給全民免費報名,但到場的幾乎都是教授....其實有很多技術和觀念可以學習,我在這場研討會上學到很多,不只是技術上的,還有心態上的。大師最常的問題都是:這可以解決實務上的什麼問題? 完全合乎個人心中的理想,做事就是要解決問題。這次的感覺很像剛上NBA的菜鳥,即將面對的對手就是那些成名已久的super star,要一面偷學他們的技術,又要跟他們競爭,實在五味雜陳。
這次的收穫巨大,除了心態上的調適外,也讓我漸漸可以獨立做研究,擁有了看問題的獨立性,和知道現在研究的最前線。累積的事物和努力漸漸看到成效,雖然是很微小的進步,但是的確比過去又往前一步了。
沒有留言:
張貼留言