大數據思維的十大原理:當樣本數量足夠大時,你會發現其實每個人都是一模一樣的
大數據思維原理是什麼?筆者概括為10項原理。
一、數據核心原理
從“流程”核心轉變為“數據”核心
大數據時代,計算模式也發生了轉變,從“流程”核心轉變為“數據”核心。Hadoop體系的分佈式計算框架已經是“數據”為核心的範式。非結構化數據及分析需求,將改變IT系統的升級方式:從簡單增量到架構變化。大數據下的新思維——計算模式的轉變。
例如:IBM將使用以數據為中心的設計,目的是降低在超級計算機之間進行大量數據交換的必要性。大數據下,雲計算找到了破繭重生的機會,在存儲和計算上都體現了數據為核心的理念。大數據和雲計算的關係:雲計算為大數據提供了有力的工具和途徑,大數據為雲計算提供了很有價值的用武之地。而大數據比雲計算更為落地,可有效利用已大量建設的雲計算資源,最後加以利用。
科學進步越來越多地由數據來推動,海量數據給數據分析既帶來了機遇,也構成了新的挑戰。大數據往往是利用眾多技術和方法,綜合源自多個渠道、不同時間的信息而獲得的。為了應對大數據帶來的挑戰,我們需要新的統計思路和計算方法。
説明:用數據核心思維方式思考問題,解決問題。以數據為核心,反映了當下IT產業的變革,數據成為人工智能的基礎,也成為智能化的基礎,數據比流程更重要,數據庫、記錄數據庫,都可開發出深層次信息。雲計算機可以從數據庫、記錄數據庫中搜索出你是誰,你需要什麼,從而推薦給你需要的信息。
二、數據價值原理
由功能是價值轉變為數據是價值
大數據真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。
例如:大數據的真正價值在於創造,在於填補無數個還未實現過的空白。有人把數據比喻為藴藏能量的煤礦,煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在“大”,而在於“有用”,價值含量、挖掘成本比數量更為重要。不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。
數據能告訴我們,每一個客户的消費傾向,他們想要什麼,喜歡什麼,每個人的需求有哪些區別,哪些又可以被集合到一起來進行分類。大數據是數據數量上的增加,以至於我們能夠實現從量變到質變的過程。舉例來説,這裏有一張照片,照片裏的人在騎馬,這張照片每一分鐘,每一秒都要拍一張,但隨着處理速度越來越快,從1分鐘一張到1秒鐘1張,突然到1秒鐘10張後,就產生了電影。當數量的增長實現質變時,就從照片變成了一部電影。
美國有一家創新企業Decide.com
它可以幫助人們做購買決策,告訴消費者什麼時候買什麼產品,什麼時候買最便宜,預測產品的價格趨勢,這家公司背後的驅動力就是大數據。他們在全球各大網站上搜集數以十億計的數據,然後幫助數以十萬計的用户省錢,為他們的採購找到最好的時間,降低交易成本,為終端的消費者帶去更多價值。
在這類模式下,儘管一些零售商的利潤會進一步受擠壓,但從商業本質上來講,可以把錢更多地放回到消費者的口袋裏,讓購物變得更理性,這是依靠大數據催生出的一項全新產業。這家為數以十萬計的客户省錢的公司,在幾個星期前,被eBay以高價收購。
再舉一個例子,SWIFT是全球最大的支付平台,在該平台上的每一筆交易都可以進行大數據的分析,他們可以預測一個經濟體的健康性和增長性。比如,該公司現在為全球性客户提供經濟指數,這又是一個大數據服務。,定製化服務的關鍵是數據。《大數據時代》的作者維克托·邁爾·舍恩伯格認為,大量的數據能夠讓傳統行業更好地瞭解客户需求,提供個性化的服務。
説明:用數據價值思維方式思考問題,解決問題。信息總量的變化導致了信息形態的變化,量變引發了質變,最先經歷信息爆炸的學科,如天文學和基因學,創造出了“大數據”這個概念。如今,這個概念幾乎應用到了所有人類致力於發展的領域中。從功能為價值轉變為數據為價值,説明數據和大數據的價值在擴大,數據為“王”的時代出現了。數據被解釋是信息,信息常識化是知識,所以説數據解釋、數據分析能產生價值。
三、全樣本原理
從抽樣轉變為需要全部數據樣本
需要全部數據樣本而不是抽樣,你不知道的事情比你知道的事情更重要,但如果現在數據足夠多,它會讓人能夠看得見、摸得着規律。數據這麼大、這麼多,所以人們覺得有足夠的能力把握未來,對不確定狀態的一種判斷,從而做出自己的決定。這些東西我們聽起來都是非常原始的,但是實際上背後的思維方式,和我們今天所講的大數據是非常像的。
舉例:在大數據時代,無論是商家還是信息的蒐集者,會比我們自己更知道你可能會想幹什麼。現在的數據還沒有被真正挖掘,如果真正挖掘的話,通過信用卡消費的記錄,可以成功預測未來5年內的情況。統計學裏頭最基本的一個概念就是,全部樣本才能找出規律。為什麼能夠找出行為規律?一個更深層的概念是人和人是一樣的,如果是一個人特例出來,可能很有個性,但當人口樣本數量足夠大時,就會發現其實每個人都是一模一樣的。
説明:用全數據樣本思維方式思考問題,解決問題。從抽樣中得到的結論總是有水分的,而全部樣本中得到的結論水分就很少,大數據越大,真實性也就越大,因為大數據包含了全部的信息。
四、關注效率原理
由關注精確度轉變為關注效率
關注效率而不是精確度,大數據標誌着人類在尋求量化和認識世界的道路上前進了一大步,過去不可計量、存儲、分析和共享的很多東西都被數據化了,擁有大量的數據和更多不那麼精確的數據為我們理解世界打開了一扇新的大門。大數據能提高生產效率和銷售效率,原因是大數據能夠讓我們知道市場的需要,人的消費需要。大數據讓企業的決策更科學,由關注精確度轉變為關注效率的提高,大數據分析能提高企業的效率。
例如:在互聯網大數據時代,企業產品迭代的速度在加快。三星、小米手機制造商半年就推出一代新智能手機。利用互聯網、大數據提高企業效率的趨勢下,快速就是效率、預測就是效率、預見就是效率、變革就是效率、創新就是效率、應用就是效率。
競爭是企業的動力,而效率是企業的生命,效率低與效率高是衡量企來成敗的關鍵。一般來講,投入與產出比是效率,追求高效率也就是追求高價值。手工、機器、自動機器、智能機器之間效率是不同的,智能機器效率更高,已能代替人的思維勞動。智能機器核心是大數據制動,而大數據制動的速度更快。在快速變化的市場,快速預測、快速決策、快速創新、快速定製、快速生產、快速上市成為企業行動的準則,也就是説,速度就是價值,效率就是價值,而這一切離不開大數據思維。
説明:用關注效率思維方式思考問題,解決問題。大數據思維有點像混沌思維,確定與不確定交織在一起,過去那種一元思維結果,已被二元思維結果取代。過去尋求精確度,現在尋求高效率;過去尋求因果性,現在尋求相關性;過去尋找確定性,現在尋找概率性,對不精確的數據結果已能容忍。只要大數據分析指出可能性,就會有相應的結果,從而為企業快速決策、快速動作、創佔先機提高了效率。
五、關注相關性原理
由因果關係轉變為關注相關性
關注相關性而不是因果關係,社會需要放棄它對因果關係的渴求,而僅需關注相關關係,也就是説只需要知道是什麼,而不需要知道為什麼。這就推翻了自古以來的慣例,而我們做決定和理解現實的最基本方式也將受到挑戰。
例如:大數據思維一個最突出的特點,就是從傳統的因果思維轉向相關思維,傳統的因果思維是説我一定要找到一個原因,推出一個結果來。而大數據沒有必要找到原因,不需要科學的手段來證明這個事件和那個事件之間有一個必然,先後關聯發生的一個因果規律。它只需要知道,出現這種跡象的時候,我就按照一般的情況,這個數據統計的高概率顯示它會有相應的結果,那麼我只要發現這種跡象的時候,我就可以去做一個決策,我該怎麼做。這是和以前的思維方式很不一樣,老實説,它是一種有點反科學的思維,科學要求實證,要求找到準確的因果關係。
在這個不確定的時代裏面,等我們去找到準確的因果關係,再去辦事的時候,這個事情早已經不值得辦了。所以“大數據”時代的思維有點像迴歸了工業社會的這種機械思維——機械思維就是説我按那個按鈕,一定會出現相應的結果,是這樣狀態。而農業社會往前推,不需要找到中間非常緊密的、明確的因果關係,而只需要找到相關關係,只需要找到跡象就可以了。社會因此放棄了尋找因果關係的傳統偏好,開始挖掘相關關係的好處。
例如:美國人開發一款“個性化分析報告自動可視化程序”軟件從網上挖掘數據信息,這款數據挖掘軟件將自動從各種數據中提取重要信息,然後進行分析,並把此信息與以前的數據關聯起來,分析出有用的信息。
非法在屋內打隔斷的建築物着火的可能性比其他建築物高很多。紐約市每年接到2.5萬宗有關房屋住得過於擁擠的投訴,但市裏只有200名處理投訴的巡視員,市長辦公室一個分析專家小組覺得大數據可以幫助解決這一需求與資源的落差。該小組建立了一個市內全部90萬座建築物的數據庫,並在其中加入市裏19個部門所收集到的數據:欠税扣押記錄、水電使用異常、繳費拖欠、服務切斷、救護車使用、當地犯罪率、鼠患投訴,諸如此類。
接下來,他們將這一數據庫與過去5年中按嚴重程度排列的建築物着火記錄進行比較,希望找出相關性。果然,建築物類型和建造年份是與火災相關的因素。不過,一個沒怎麼預料到的結果是,獲得外磚牆施工許可的建築物與較低的嚴重火災發生率之間存在相關性。利用所有這些數據,該小組建立了一個可以幫助他們確定哪些住房擁擠投訴需要緊急處理的系統。他們所記錄的建築物的各種特徵數據都不是導致火災的原因,但這些數據與火災隱患的增加或降低存在相關性。這種知識被證明是極具價值的:過去房屋巡視員出現場時簽發房屋騰空令的比例只有13%,在採用新辦法之後,這個比例上升到了70%——效率大大提高了。
全世界的商界人士都在高呼大數據時代來臨的優勢:一家超市如何從一個17歲女孩的購物清單中,發現了她已懷孕的事實;或者將啤酒與尿不濕放在一起銷售,神奇地提高了雙方的銷售額。大數據透露出來的信息有時確實會起顛覆。比如,騰訊一項針對社交網絡的統計顯示,愛看家庭劇的男人是女性的兩倍還多;最關心金價的是中國大媽,但緊隨其後的卻是90後。而在過去一年,支付寶中無線支付比例排名前十的竟然全部在青海、西藏和內蒙古地區。
説明:用關注相關性思維方式來思考問題,解決問題。尋找原因是一種現代社會的一神論,大數據推翻了這個論斷。過去尋找原因的信念正在被“更好”的相關性所取代。當世界由探求因果關係變成挖掘相關關係,我們怎樣才能既不損壞建立在因果推理基礎之上的社會繁榮和人類進步的基石,又取得實際的進步呢?這是值得思考的問題。
解釋:轉向相關性,不是不要因果關係,因果關係還是基礎,科學的基石還是要的。只是在高速信息化的時代,為了得到即時信息,實時預測,在快速的大數據分析技術下,尋找到相關性信息,就可預測用户的行為,為企業快速決策提供提前量。
比如預警技術,只有提前幾十秒察覺,防禦系統才能起作用。比如,雷達顯示有個提前量,如果沒有這個預知的提前量,雷達的作用也就沒有了,相關性也是這個原理。比如,相對論與量子論的爭論也能説明問題,一個説上帝不擲骰子,一個説上帝擲骰子,爭論幾十年,最後承認兩個都存在,而且量子論取得更大的發展——一個適用於宇宙尺度,一個適用於原子尺度。