看了這些書,可以成為大數據高手嗎
首要聲明一點,千萬不要認為看了這篇文章就能變成大數據高手了,否則就不會用“修煉”這個詞了,要修煉成大數據高手決不是件簡單的事,可以說是十分難的一件事。要不也不會連大數據發源地——美國也不超出10自己(或許就5、6個)能到達這個層次,在我國……算了,就不說了。
這篇文章實際是給你指一條過程異常艱辛,但前途異常光明的路。沒有毅力的人,看看就好了,千萬別認真。(說實在的,就算要看明白這篇文章,也都不是件容易的事。)
言歸正傳。要想成為大數據高手,首先要從理念上徹底轉變,徹底理解大數據思維,并滲透到血液和骨髓中,否則是不可能成為高手的。換句話說,你的世界觀要徹底轉變!(我知道,你一定會在心里心:有沒有這么嚴重啊?)
而要實現這個轉變,必須經過初級、中級和高級三個階段的學習。
那三個階段要怎么學習呢?下面我就會告訴你每個階段所要用的教材,把這些書讀透,你就會實現上面的轉變了。
初級階段:《大數據時代》
作者:[英]維克托·邁爾-舍恩伯格,[英]肯尼思·庫克耶
翻譯:盛楊燕,周濤
浙江人民出版社
不用說了,肯定是這本書。讀完這本書,要求你形成大數據的概念,即知道這么幾點:
1、絕不是有很多數據就叫大數據;
2、大數據是一種數據分析方式,與傳統數據分析方式有著本質上的不同;
3、大數據的特點是“關注相關性,不關注因果”,這是大數據最核心的東西,一定要真正理解,并牢牢記住,不然你就很容易被別人忽悠;
4、大數據采用的是統計的方法;
5、大數據主要是結合人工智能進行機器的自動數據挖掘;
6、大數據主要是用來作預測的。而不是象一般的數據分析,只是分析出歷史情況和現狀,未來還是要靠人去預測,大數據則是直接告訴你未來的結果。
中級階段:《失控》
作者:凱文·凱利(KEVIN KELLY),很多人都親切地叫他KK
翻譯:東西文庫
新星出版社
為什么是這本書呢?學完初級階段要記住的幾件事還沒忘吧?對,用統計的方法,而不是因果的方法,預測未來。ok,下面我們就來看看這本書說了些啥:
第二十二章 預言機
……
在對預測機制進行剖析的時候,法默最喜歡用這個例子來進行說明:「來,接著!」他說著就朝你扔過來一個棒球。你抓住了球。「你知道你是怎么接住這個球的嗎?」,他問道?!竿ㄟ^預測?!?/p>
法默堅信你的腦子里有一個關于棒球是如何飛行的模型。你可以采用牛頓的經典力學算式f=ma 來預測一個高飛物體的運動軌跡,但是你的大腦本身卻并沒有存儲這樣的基本物理學算式。更確切地說,它直接依照經驗數據建立起一個模型。一個棒球手,成千次觀察球棒擊飛棒球的情景,成千次舉起戴著棒球手套的手,成千次利用戴手套的手調整他的預測。不知怎么的,他的大腦就逐漸編制出一個棒球落點的模型——一個幾乎跟f=ma 不相上下的模型,只不過適用范圍沒有那么廣而已。這個模型完全建立在過去接球過程中產生的一系列手/眼數據的基礎上。在邏輯學領域中,這樣的過程統稱為歸納,它與導出f=ma 的推演過程截然不同。
……
一個棒球外野手基于經驗形成的空中飛行物的「理論」,很像托勒密行星模型的后期階段。如果我們解析外野手的「理論」的話,就會發現它是不連貫的,即興的,復雜的,而且是近似的。但是,它也是可以發展的。這是一個紊亂的理論,但它不僅有效,而且還能提高。如果非要等到每個人都能弄明白f=ma 這個算式(況且,弄明白半個f=ma 還不如什么都不懂)再行動的話,就根本沒有人能接住任何東西。就算你現在了解了這個算式,也沒什么用。「你可以用f=ma 來求解飛行中的棒球問題,但你不能在外場實時解決問題?!狗f。
……
幾乎可以明確地說,「活系統」——獅群、股票市場、進化中的種群、智能——都是不可預測的。它們所具有的那種混亂的、遞歸式的因果關系,各個部分之間互為因果的關系,使得系統中的任何一個部分都難以用常規的線性外推法推斷未來。不過,整個系統卻能夠充當分布式裝置,對未來做近似的推測。
……
而世界上絕大多數的復雜系統——包括所有的市場——都是非線性的。
……
在現實中,影響股票的二維圖形軌跡的因素不是幾個,而是數千個。
……
僅僅100 個變量,就可以創造出一群數量巨大無比的可能性。因為每一個變量行為都和其他99 個行為互相影響,所以如果不同時對這個相互作用的群體整體進行考察的話,你根本無法考察其中的任何一個參數。比如說,哪怕是一個簡單的只有三個變量的氣候模型,也會通過某種奇怪的回路連回到自己身上,從而哺育出某種混沌,讓任何一種線性預測都成為不可能。
——摘自《失控》
用f=ma(公式)來預測,或者說線性預測,就是通過因果推理來進行預測,即根據球的質量、加速度等等因素,找出這個球為什么會從那個地方飛到這個地方的原因;
而“歸納”即是“統計”的意思,或者說是較粗略的統計,歸納是不問原因的,接住這個球就完了,管它是什么原因。
你想成為大數據高手,你想用統計的方法來對某些東西進行預測?(我現在來預測下你心里想的某些東西是什么。股票!噢,別夸我,我只不過是歸納了很多人的想法而已。)
好了,現在你來告訴我,還有什么理由不去好好讀這本書?(當然,好心如我肯定會提醒你:拿這本書一定要拿穩了,砸腳面上可不是好玩的,因為它有一塊磚頭那么厚和重)
高級階段:《復雜性》
作者:[美]尼古拉斯·雷舍爾(NICHOLAS RESCHER)
翻譯:吳彤
學完中級階段,你接觸到了一件事,“復雜性”,知道了事情復雜到一定程度,就不可能用尋找因果的方法去進行預測。
那么到底什么是復雜性,它的本質和原理是什么?想成為大數據高手,你不能對此一無所知,因為你將一輩子與復雜甚至是極其復雜的事情打交道。
如果你讀完了《失控》,可能此時心理在想:尼瑪,《失控》這本書已經夠難讀懂的了(沒錯,要不微信老總張小龍也不會說,能讀完這本書的可以直接去他公司上班。注意他說的是“讀完”,不是“讀懂”),那也才是個中級,這個高級不是要把腦子都燒壞嗎?(你又預測對了,和這本比起來,《失控》只能算本休閑書)那我能不看這本書嗎?它和我想學的東西到底有多大關系?(你這么不聽老師話,你爸媽造嗎?)
為了你這不聽話的學生,老師就透露些內容吧:
不再試圖根據事物如何必須按照理論的一般原理發展去解決問題,而是根據事物如何在通常的情況下按照我們能夠確定的最好情況去解決問題。與其尋求抽象必然性的一般原理,不如以某種經驗主義的精神,在經驗——帶有它的全部特征偶然性和潛在不完備性——中尋求指引。
……
被稱為科學規律的牛頓世界秩序(Newtonian world order)的狂熱愛好者。他們的觀點是牛頓、拉普拉斯(Laplace)和達爾文的相應世界觀,將世界看作自然規律的有序框架??档轮髁x因果關系原理(Kantian principle of causality)是他們思維中的最重要部分,世界——自然世界和人類世界——被視為宇宙,每一個事物都是有序的、規律的、理智的、可解釋的。實在被視為某種有條理的系統,類似于有條理的花園,排列有序且有整齊的邊界。……愛因斯坦、普朗克、薛定諤(Schrodinger)及其同伴破壞了舊物理學秩序??低袪枺–antor)、哥德爾、海?。℉eyting)等人打破了舊的數學秩序。量子力學理論造成了因果關系的崩潰。進化論現在鄭重強調的不是“適者生存”,而是自然選擇不得不在其基礎上發揮作用的全然隨機的平臺。
……
(然而)機會和混沌的宇宙不是不守秩序的(無政府狀態的),而只是復雜的,通過其自然的運轉展現著更高階規律的涌現。而當形式邏輯屈從于它的經典不變性時,一種新的非經典的、多值的(或者“模糊的”)邏輯業已誕生并取而代之。確定性(certainties)也有效地被或然性(probabilities)和似真性(plausibilities)所取代。
……
鑒于在復雜世界中對行動過程做出理智選擇難免是困難的……如果我們是相信統計學結論的學者,用概率統計推斷行為的正確性,那么事情就變得更容易處理。
——摘自《復雜性》
好了,讀還是不讀,你自己看著辦吧。
對了,推薦這本書還有個原因。大家都知道大數據是研究數據的相關性,即找出數據之間的關系。當我經歷了15年統計學人工智能數據相關性的探索和研究,感覺已經研究得差不多了,但又覺得要解決所有的問題還有不小的距離,這時就感到很迷茫,不知下一步的研究該往何方去,有種路越走越窄的感覺,又有一種達到頂峰的幻覺,直到看到這本書中的一句話:
“可以考慮它們的關系,再考慮這些關系中的關系,如此下去?!?/p>
當看到這句話,用醍醐灌頂已不足以形容我當時的感受,簡直就是五雷轟頂。就好象原來我以為世界只有自家的一畝三分地,這句話如一道劃破夜空的明亮閃電,讓我突然看到了無限廣袤的宇宙,為我指明了方向,并開辟出一條金光大道。(原諒我用了這么多的有點亂的形容,每當想起這句話,我就抑制不住激動的心情)現在想起來,自己那達到頂峰的幻覺是多么幼稚可笑啊,可笑還不在于我沒有達到頂峰,而在于這世上本沒有頂峰(挺具有佛性的一句話,不由得讓我想起六祖的話:菩提本無樹,明鏡亦非臺,本來無一物,何處惹塵埃)。
大家千萬不要小看這句話中的“如此下去”幾個字,他指明了一個無窮疊代,即 “關系的關系的……關系”,而智能將在這里涌現,解決復雜性問題預測的關鍵很可能就在這里,這句話打開了一個非常廣闊的前景,將象宇宙一樣沒有窮盡。
看完這句話后,待心情稍稍平復,我立即把它寫成一個函數:
x=f(f(a,b),f(c,d))
然后告訴自己:這就是你后半生要去全力研究的東西!
現在我們接著往下講,還記得我一開始說過要轉變世界觀嗎?讀完這三本書,你已經做好了世界觀轉變的準備,現在就要來最后一擊,完成這個轉變!
也就是說,高級階段你還要讀一本書(尼妹,還要不要人活?我幫你說了)。你已經了解了復雜性的原理,但這個世界到底有多復雜,你可能還沒有感性的認識。你一定覺得自己經歷過很多非常復雜的事,比如你炒過股票、管理過幾百上千人、研究過社會學問題等等,但是和這個世界真正最復雜的事比起來,這些都不過是小兒科。
也許你已經猜到了是什么方面的書,對,量子理論。鑒于這個理論實在太難、太復雜,愛因斯坦致死也沒把它搞明白,科學家們現在也都還沒把它搞明白,我輩就不用費神想去把它真正搞懂了,但由于我們是在探求事物的復雜性,或者也可以說研究事物的本質,那么不可不對此有所了解,因此我給大家的書是這方面的最初級的科普讀物。(實在不忍心再嚇你們了。
高級階段(2):量子物理史話
作者:曹天元(沒錯,中國人)
遼寧教育出版社
你一定有疑問,“這本書就能讓我改變世界觀?”
那么我們就來看看書中說些什么吧:
量子世界的本質是“隨機性”。傳統觀念中的嚴格因果關系在量子世界是不存在的,必須以一種統計性的解釋來取而代之,波函數ψ就是一種統計,它的平方代表了粒子在某處出現的概率。當我們說“電子出現在x處”時,我們并不知道這個事件的“原因”是什么,它是一個完全隨機的過程,沒有因果關系。
……
因果性必須死,因為物理學需要生!停止爭論吧,上帝真的擲骰子!隨機性是世界的基石,當電子出現在這里時,它是一個隨機的過程,并不需要有誰給它加上難以忍受的條條框框?!y計規律則把微觀上的無法無天抹平成為宏觀上的井井有條。
——摘自《量子物理史話》
“統計規律則把微觀上的無法無天抹平成為宏觀上的井井有條”,這句話實際上就是表明,統計方法可以使極其復雜的隨機事件成為可預測。我認為,社會、市場、股票等等與量子世界有著很多相似之處。由于量子理論實際上是從最本質上去研究我們存在于其中的這個世界,因此正如書中的一句話:
“這個世界的本質:它本就是統計性的!
”
如果你用根深蒂固的唯物主義思想(認為唯心主義絕對是錯的)去看量子理論,那么你可能很難理解它,而帶著對唯心主義一定程度的理解(不一定非要完全贊同)去看會非常有幫助。因此,我在這里建議大家也可以了解一些佛學,比如看看凈空法師說的話,這樣會有助于你站在唯心主義的角度去看問題。
不是幡動,也不是風動,而是心動。
佛說:極微細的心動一下,宇宙就出現,森羅萬象都現前,同時我也出現了。心動,分三段,第一它動,一動就變,一轉變就成能見相,有能見立刻就有所見,所見就出現。能見就是意識,意識出現后,立刻就有所見,即物質出現,故物質是幻象,你想它就現相,物質現相即宇宙,故宇宙的現前是頓現,不是進化的。
——摘自《凈空法師說華嚴經》
量子物理學家說:“意識”使得一切從量子疊加態中脫離,成為真正的現實。即第一個有意識的生物的出現才使得從創生起至那一剎那的宇宙瞬間成為現實,“意識”的參與可以在那一刻改變過去,而這個“過去”甚至包含了那個有意識的生物自身的演化歷史。
——摘自《量子物理史話》
感覺到量子理論有多復雜了嗎?如果你對上面兩段很繞的話沒太看明白,我給你個精簡版本:
佛說:心動,宇宙就出現,森羅萬象現前,同時我也出現;
量子物理學家說:意識使一切從量子疊加態中脫離,使宇宙歷史瞬間成現實,其中含有那意識生物自身。
你肯定還是覺得無法理解這些話,沒關系,你只需明白一件事就行了,佛祖在兩千多年前就預言了量子物理學家現在要說的話。
好了,等看完這本書,你的世界觀不改變,你來找我請你吃飯。
另外,還有一本書作為參考書可以讀一讀(別罵我,參考書,不一定非要讀),侯世達(Douglas, R. Hofstardter)的《哥德爾、艾舍爾、巴赫》(比磚頭還厚,《失控》只是和磚頭一樣厚)。
此書的介紹:本書是在英語世界中有極高評價的科普著作。曾獲得普利策文學獎。它通過對哥德爾的數理邏輯,艾舍爾的版畫和巴赫的音樂三者的綜合闡述,引人入勝地介紹了數理邏輯學、可計算理論、人工智能學、語言學、遺傳學、音樂、繪畫的理論等方面,構思精巧、含義深刻、視野廣闊、富于哲學韻味。
數理邏輯學、可計算理論、人工智能學、語言學,這些對你后面要學的東西是有幫助的。
推薦這本書的另外一個原因是,《復雜性》這本書引用了它的內容。
除了《大數據時代》,推薦以上這些書還有一個共同的原因,那就是這些書的作者可以說都是預測的高手(佛祖的功力你剛才已經領教了),讓人實在佩服得五體投地。
《失控》寫于20年前,據說是史上唯一一本歷經20年越來越好賣的書,原因就是人們發現20年前書中說的事,這些年來正在一件件地被實現,人們都在奇怪,KK他是怎么知道的。
《復雜性》也寫于近20年前。
《哥德爾、艾舍爾、巴赫》寫于30年前。
《量子物理史話》雖然是2008年寫的,但是量子理論誕生一百多年了。
《華嚴經》誕生于兩千多年前。
然而它們竟然對今天的大數據有如此的指導意義,我還能說什么?
《復雜性》的作者尼古拉斯·雷舍爾還有一本書(還有?!),別急,這本書你一定會很想看,因為書名干脆就叫《預測未來》。可惜,這本書沒有中文版,英語好的同學可以去國外找來看看,如果你能幫我也弄一本,俺將不勝感激!
現在你已轉變了世界觀,具備了成為一個大數據高手的思想,可以開始學習具體方法了,即學習人工智能。
你一定在想,是不是又要讀一大堆書?理論上說:是的,需要學習人工智能基礎、自然語言處理、機器學習、統計學人工智能等等。不過,看你們被虐了這么久,我也動了惻隱之心,將給你們指一條捷徑,就學習一本書(高興吧?)。
統計自然語言處理基礎
作者:[美]Christopher D. Manning [德]hinrich Schutze
翻譯:苑春法 李慶中 王昀 李偉 曹德芳等
電子工業出版社
你可能有一個疑問,為什么是“語言”,這有兩個原因:
第一,在計算機專業,數據并不僅僅是指數字,文字、圖片、聲音、視頻等都叫數據;
第二,語言比數字難很多,如果你能處理語言,那處理純數字就容易很多。
你可能還有一個疑問,統計自然語言處理與一般的自然語言處理有什么本質不同之處?
給你講一個有趣的事,我的一個侄兒,4歲左右,一次去機場第一次看見自動人行道,就是類似商場那種自動扶梯,只不過是放平的,人站在上面就自動往前走,他脫口就說出“平電梯”。很形象,是不是?他之所以能造出這個詞,就是因為人有智能。
這里就引出一個小問題,他為什么會把“平”字放在“電梯”的前面?如果用人工智能的一般自然語言處理來解決這個問題,就會從詞性、語法、句法等方面著手,中學的時候你一定學過什么偏正結構、主謂結構、動賓結構等等吧?對,經過這一翻分析和處理,找出原因并推導出結果,可能就會知道“平”字應該放在前面;
然而統計自然語言處理的路數不同,經過統計,“平”字大多數時候都是放在前面,比如平均、平等、平臺、平的、平時、平坦、平常、平衡、平移、平板電腦……,好吧,那就把“平”字放在前面吧。嗯,就這么簡單。
當然,這里只是打個比方,實際不會是這么簡單。
但是,這又引出一個問題,我們仔細想想,那個4歲的小孩是怎么處理的,難道他懂什么語法、句法、編正結構嗎?肯定不是,所以他一定是用的歸納統計的方法,無數次聽到大人說到類似詞時都是把平放在前面,所以他就放在前面了,他才不知道是什么原因呢,和接那個棒球是一個道理,他的大腦里并沒有那個物理公式。
因此,統計自然語言處理是更接近自然的自然語言處理方式(繞口令?),也就是說更接近我們人的處理方式,甚至可以說就是人或自然的處理方式,只是人的大腦處理方式更復雜而已,但本質是一樣的。
關于這一點,也有不同看法,我把不同觀點也呈現給你,你可以自己去思考和判斷。著名語言學家喬姆斯基就認為“兒童被假定為天生具有適用于所有人類語言的基本語法結構的知識,這種與生俱來的知識通常被稱作普遍語法理論?!保ㄕ园俣劝倏疲?/p>
自然,我本人是很難茍同這種觀點。這一觀點也遭到相當一部份語言學家的反對,“認為在尚未對所有人類語言進行研究之前就假設所有人類語言有共同的‘底層語法’,這樣做太冒進;而且在應用普遍語法研究未知語言時,不得不假設許多‘空白詞類’,在研究基本語法為‘謂主賓’的語言(如愛爾蘭蓋爾語)時,更不得不假設這些語言的‘底層基本結構’為主謂賓,這種做法本身可能已經違反了描述性原則。也有語言學家(如Michael Evans和Stephan Levinson)主張,普遍語法是基於種族中心主義而得出的假設,而這會對認知科學造成很不良的影響?!?/span>
(摘自百度百科)
讀完了這本書,不代表你就成為大數據高手了,實際上它只是為你打下基礎知識,真正掌握大數據的方法,需要你在這個基礎上去探索或者說悟出來。
至此為止,師父領進門、修行在個人,GOOD LUCK!
我寫這篇文章其實有兩個原因,一個就是為想成為大數據高手的人指一條路;
另一個因素,即是想做一個反擊,對對立大數據、置疑大數據、用小數據當大數據忽悠的人進行反擊。注意,我這兒肯定沒有對立小數據的意思,大數據并不是全能的,傳統數據剖析方法、抽樣數據剖析仍然是非常有用的,或至少在適當長的時間里是如此,我僅僅對立如今很多人把傳統數據剖析方法當作大數據方法來忽悠群眾。如果把這反擊濃縮成一句話,那即是:
這個世界的實質是統!計!的!