“21世紀的競爭是數(shù)據(jù)的競爭朴蛔,誰掌握數(shù)據(jù)礁凡,誰就掌握未來妒牙。”——馬云
不難理解大數(shù)據(jù)在我們生活的重要性吐绵。隨著科技發(fā)展迹淌,網(wǎng)絡無處不在,存儲信息的本質是數(shù)字0和1(至少目前的計算機是如此)己单,因而可以說數(shù)據(jù)無處不在唉窃。
在《大數(shù)據(jù)思維與決策》中耙饰,作者采用大量例子說明近20年來大數(shù)據(jù)對傳統(tǒng)行業(yè)、傳統(tǒng)思維的沖擊纹份,從醫(yī)學到教育領域到金融行業(yè)再到互聯(lián)網(wǎng)卫殷,大數(shù)據(jù)思維的沖擊是史無前例的。
一培幽、回歸方程帶來的沖擊
從前人們的決策幾乎全靠人為經(jīng)驗判斷嗡沈,作者在這個問題里舉了“尋找棒球隊員”的例子,傳統(tǒng)的方式是經(jīng)理人(暫以此名字代表挖掘球員的人)通過觀看無數(shù)場(書中有列出具體數(shù)字)球賽绎编,觀察球員的每一個細致動作蔑串,經(jīng)理人根據(jù)經(jīng)驗判斷該球員是否有潛力成為球星。該方式代價非常大且人為主觀因素會影響決策正確率演穗。大數(shù)據(jù)思維則是分析球員歷史訓練及比賽的記錄數(shù)據(jù)婿残,利用數(shù)理統(tǒng)計的回歸方法(必須掌握)分析數(shù)據(jù),從而預測有潛力值球員烘韩。相對傳統(tǒng)方式襟腹,大數(shù)據(jù)方法成本大大降低,且準確率更高室用。顯然摊哟,新的方式對傳統(tǒng)經(jīng)理人帶來的沖擊是極大的,新的思想總會被質疑添瓷、抗拒梅屉。不過最終由一個胖球員不被看好,數(shù)據(jù)顯示有潛力鳞贷,最終成為球星的例子證明大數(shù)據(jù)引導決策是正確的坯汤。
正如書中所說,數(shù)據(jù)比人客觀搀愧,且現(xiàn)在大規(guī)模數(shù)據(jù)的獲取更加容易惰聂,價格便宜甚至免費≡凵福回歸方法在數(shù)據(jù)處理中還是十分的有用搓幌,必須掌握這一技能。
二迅箩、隨機試驗
作者提到的第二個很有用的方法是隨機試驗溉愁。基本思想是:
隨機抽取樣本饲趋,控制單一變量拐揭,進行試驗,分析試驗數(shù)據(jù)檢驗哪個方式更加具有價值奕塑。
這里采用的例子很多愧陈,其中一個就是某一個網(wǎng)站(具體網(wǎng)站名忘了……暫且稱作Test)利用隨機隨機試驗方法為網(wǎng)站開發(fā)者提供工具檢測怎樣的界面用戶更加喜歡譬椰。例如,某一欄是“收藏”還是“收藏與購買”激撮。 Test利用隨機試驗思想對開發(fā)網(wǎng)站采取控制變量檢測,隨機為用戶展示以上兩種方式的開發(fā)網(wǎng)站(僅“收藏”與“收藏與購買”的差異)惫投,通過統(tǒng)計用戶點擊行為泉惋,則可以評估哪種網(wǎng)頁更被用戶喜歡。
隨機試驗思維在大數(shù)據(jù)下顯得更加有用蹬谁,文中還列舉了巴西(?具體不記得了)“窮人母親產(chǎn)前補助”扔缭、“醫(yī)生洗手對手術患者死亡影響”、“某一政策是否正確”等例子說明大數(shù)據(jù)下隨機試驗的利用癞烈。
隨機試驗思想確實是一個很實用的方法洗馅,在以后遇到數(shù)據(jù)處理、數(shù)據(jù)決策之前應不忘考慮這種方法堕常。
三赌羽、大數(shù)據(jù)決策的弊端
萬物皆有兩面性,大數(shù)據(jù)決策為我們提供很多快捷缤弦、準確的預測领迈。但是,過分依賴數(shù)據(jù)則讓我們在很多時候得出的結果相差很大碍沐。例如狸捅,根據(jù)某人的歷史數(shù)據(jù)分析預測下周五會去看電影,然而周末該人不小心骨折住院累提。盡管數(shù)據(jù)采集到骨折數(shù)據(jù)尘喝,模型不會因此而改變,因為該數(shù)據(jù)歷史影響甚微斋陪,模型會忽略朽褪,仍然會認為該人去看電影。根本原因在于模型不會像人那樣正確考慮到骨折的權值无虚,即使是神經(jīng)網(wǎng)絡模型(我的理解是至少現(xiàn)在的神經(jīng)網(wǎng)絡模型還是沒有人那么聰明)鞍匾,計算機的經(jīng)驗是有限的,盡管他能夠存儲很多內(nèi)容骑科,不代表他有人的智慧橡淑。所以很多情況下,人為的干預是十分重要的账菊。
利用大數(shù)據(jù)進行決策祥喳,人為的經(jīng)驗還是不可或缺的,權值的設定册吹,參數(shù)的調整貌硬,初值的設定等這些都是經(jīng)驗得來的用堤,但是即使是這些經(jīng)驗,也不能太過依賴嚣褐,因為數(shù)據(jù)在變化萌烁,世界在變化,以前正確的下一秒隨時錯誤逸茅∫锢埽總的來說,數(shù)據(jù)與人為經(jīng)驗相結合详不,互為促進蚯氯,至于之間的尺度,估計只能在接觸到該行業(yè)多年后才會有所想法吧妖救,現(xiàn)在還是太年輕……
四橄浓、大數(shù)據(jù)下的隱私
隨著科技發(fā)展,智能設備越來越普及亮航,信息無處不在荸实,數(shù)據(jù)無處不在。谷歌等都倡議數(shù)據(jù)共享缴淋,建立人人都可以利用的數(shù)據(jù)庫泪勒。對于數(shù)據(jù)開發(fā)者、數(shù)據(jù)決策者而言的確是十分有利的宴猾。能夠為客戶創(chuàng)造價值,如機票預測是客戶購買實惠機票很好的工具圆存,這種情況客戶也是樂意見到的。然而仇哆,一些惡意黑客當然也會因此入侵沦辙,獲取用戶數(shù)據(jù),對人們生活帶來很多干擾甚至是安全隱患讹剔。
所以說油讯,大數(shù)據(jù)下仍然很多問題,不過利益在驅動延欠,還是會繼續(xù)發(fā)展陌兑。這些書中提到的應用和隱患大都基于美國現(xiàn)狀的考慮。對于國內(nèi)禽虹,確實還是有很大差距素司。首先應用方面,盡管很多互聯(lián)網(wǎng)企業(yè)開始發(fā)力與大數(shù)據(jù)開發(fā)赌置,但是總體的思維還是比較保守(無可厚非)押逾,許多模式幾乎照搬國外,就類似云計算蓝捌、物聯(lián)網(wǎng)眶洗,大數(shù)據(jù)也很多公司只是在搞概念(純靠猜)蟀披,還有很大的發(fā)展空間,必須好好把握好時機堤网。另外巫碍,安全隱私,就我個人觀察贫肌,國內(nèi)的隱私意識還是不怎么注重(又是靠個人經(jīng)驗判斷的禀舰,可以看出我的思維也還是傳統(tǒng)的,靠數(shù)據(jù)說話啊!!!)上煤,當然我們肯定會比國外稍微慢,但是再接下來十年著淆,風云變幻劫狠,一切就說不準了(又在考慮用數(shù)據(jù)說話啊,統(tǒng)計和預測十年后哪國更強啊永部,預測以后行業(yè)怎么變幻啊独泞,有點入魔了)。
總而言之苔埋,該書舉了許多大數(shù)據(jù)決策與應用懦砂,也確實呈現(xiàn)了大數(shù)據(jù)時代是真的到來了。然而组橄,這對我而言并沒有很大幫助荞膘,這次之前,我就很明確要跟大數(shù)據(jù)打交道了玉工。本書跟我最大的收獲是羽资,清楚地了解到更具體的各種大數(shù)據(jù)應用,了解到不同行業(yè)大數(shù)據(jù)的決策思維遵班,了解到回歸思想以及隨機試驗的重要性魏蜒。當然,本書讓我對大數(shù)據(jù)有了更深的體會有蒲,思維或多或少有些轉變(但是不夠)发凹,盡管技術上沒有什么提升,但是其實大數(shù)據(jù)思維還是很重要的冈柑,讓我對很多方面都有了大數(shù)據(jù)的聯(lián)想衍康。
最后,作為物聯(lián)網(wǎng)專業(yè)衔密,與大數(shù)據(jù)密不可分勃核,也應該有一些更深的體會。其實大數(shù)據(jù)也算是物聯(lián)網(wǎng)下的一個分支苏蒿,物聯(lián)網(wǎng)包括感知層俩孽、網(wǎng)絡層猬听、應用層。感知層的傳感器采集是大數(shù)據(jù)采集(無處不在)患达,網(wǎng)絡層的數(shù)據(jù)處理是大數(shù)據(jù)處理记令,應用層的應用是大數(shù)據(jù)決策。現(xiàn)在互聯(lián)網(wǎng)中的大數(shù)據(jù)比物聯(lián)網(wǎng)中只是缺少傳感器數(shù)據(jù)采集部分而已习劫,所以定位到大數(shù)據(jù)方向還是沒有脫離自己的開始方向咆瘟。當然,大數(shù)據(jù)決策絕對不只是網(wǎng)絡的決策诽里,如果把世界的任意信息用數(shù)據(jù)表示(物聯(lián)網(wǎng))袒餐,其實也可以說是包括了所有方面。下個浪潮無疑是物聯(lián)網(wǎng)谤狡,現(xiàn)在只是開始灸眼,十年后,世界會變得你完全不認識墓懂,如果你沒有具備大數(shù)據(jù)思維的話焰宣,你將被世界淘汰。
至此捕仔,算是對該書的閱讀小結匕积,由于時間匆忙,閱讀難免不夠仔細榜跌,感想也許片面闪唆,至少是我的體會,記錄一下邪胳。其實侧碍,相關類的數(shù)據(jù)書籍,我覺得最好還是有過相關項目或工作經(jīng)歷之后再看或許會有更深入的體會彻芒。故不要停止閱讀赴仪,不要停止思考!