伊人久久大香线蕉综合色狠狠-国产三区二区一区久久-久久se精品一区二区-国产精品免费播放一区二区

中國金屬材料流通協(xié)會,歡迎您!

English服務(wù)熱線:010-59231580

搜索

關(guān)于大數(shù)據(jù)分析方法的系統(tǒng)性思考

     從數(shù)據(jù)中發(fā)現(xiàn)信息和知識,是人們多年來的夢想。隨著大數(shù)據(jù)理論的興起,這個話題變得非常熱門。在有些人看來,大數(shù)據(jù)非常神秘,似乎無所不能。當(dāng)然,現(xiàn)實不會是這樣。我想,研究大數(shù)據(jù),首先要破除迷信:大數(shù)據(jù)需要什么條件、什么問題是大數(shù)據(jù)無法做到的。

1、知識和信息,只能從關(guān)聯(lián)關(guān)系中得到


對象(包括過程,如生產(chǎn)過程、購物過程)及其屬性、同一對象的屬性之間具備關(guān)聯(lián)關(guān)系。例如,“張三身高1.8米”就是對象(張三)與屬性(身高)的關(guān)聯(lián);再如,如果我們知道張三體重75公斤,則“1.8米”和“75公斤”之間就因“張三”建立了關(guān)聯(lián)。

 關(guān)聯(lián)的對象可能并不確定:我們看到一張履歷表,即便隱去名字、不知道這個人是誰,也知道其中的各種信息是與某人關(guān)聯(lián)的。

 

在數(shù)字化的世界里,不和其他的符號(數(shù)字)關(guān)聯(lián)的符號(數(shù)字)是不包含任何信息的。從不包含信息的素材,得不到包含信息的結(jié)論。

 

有人可能反對這個觀點:谷歌曾經(jīng)用“感冒”的搜索量預(yù)報流感啊,這里哪有關(guān)聯(lián)呢?其實,只有搜索“感冒”的數(shù)量是根本無法預(yù)測流感的。谷歌的做法,是把“感冒”的搜索與搜索的地點、時間聯(lián)系起來。

 

這個觀點告訴我們:收集數(shù)據(jù)的時候,要盡可能地把關(guān)聯(lián)關(guān)系建立起來;沒有關(guān)聯(lián)關(guān)系,數(shù)據(jù)很容易成為垃圾。這種情況并不少見:有些實驗室,把針對同一試樣的各項實驗結(jié)果分別保存起來,而沒有建立統(tǒng)一的ID、關(guān)聯(lián)關(guān)系丟失。這樣的數(shù)據(jù),再多也沒有用處。

 

2、人們要挖掘的知識和信息,就是找映射關(guān)系

 

知識(或信息)的發(fā)現(xiàn)與挖掘,其本質(zhì)是尋找映射關(guān)系:通過已知的、對象的一部分屬性,把對象的另外一部分屬性或?qū)ο蟊旧碚页鰜恚ɑ蚩s小范圍)。產(chǎn)生這類問題的原因是:只有一部分屬性已知、容易得到、容易識別、容易表述,而另外一部分未知、不容易得到、不容易識別、不容易描述。

 

例如,我們可以說:張三就是那個穿紅衣服的——這里“穿紅衣服”比其他特征容易識別。從衣服識別出張三,就是從張三的衣著特征(屬性)找到關(guān)聯(lián)對象(張三)的信息;從一個人的身高預(yù)估他的體重,就是從一個根據(jù)一類屬性估計另外一類屬性。

 

我習(xí)慣于把信息挖掘和知識發(fā)現(xiàn)分開。

 

在本文中,信息挖掘指的是預(yù)測某個特定對象的屬性,如上海市的人口是多少;知識發(fā)現(xiàn)是確定一類對象的屬性之間的關(guān)系,如一類人群中身高和體重的關(guān)系。當(dāng)然,這種區(qū)分不是絕對的。

 

3、映射關(guān)系的差別

 

正確的識別,最好的辦法是找到好的素材(數(shù)據(jù))。素材與結(jié)果之間的關(guān)聯(lián)強度是不一樣的:有的比較強,是因果關(guān)系、必然聯(lián)系;有的比較弱,是相關(guān)關(guān)系、偶然聯(lián)系。

 

例如,我們可以根據(jù)DNA、相貌、衣服來識別一個人。但三者相比,DNA的聯(lián)系是強的必然性聯(lián)系、衣服是弱的偶然性聯(lián)系,相貌是介于兩者之間的聯(lián)系。大數(shù)據(jù)的一個著名案例,是網(wǎng)站根據(jù)客戶買的藥判斷她已懷孕、并推送有關(guān)產(chǎn)品:因為這種藥只有孕婦才吃,是很強的關(guān)聯(lián)。

 

從數(shù)據(jù)得到的知識和信息,往往不是絕對正確。一般來說,可靠的結(jié)論基于可靠的數(shù)據(jù)和可靠的分析方法。數(shù)據(jù)量大了以后,濾除干擾的可能性增大,從而可以從原來可靠度低的數(shù)據(jù)中,得到可靠性相對較高的數(shù)據(jù)。

 

所以,盡量找到好的素材,是做好分析的第一步。

 

在很多情況下,我們找不到好的素材。這時,首先要做的盡量提高數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量不僅是精度問題,還包括數(shù)據(jù)來源的可靠性:為此,需要把數(shù)據(jù)來源的相關(guān)過程要搞清楚,否則很可能會誤導(dǎo)人的分析。

 

4、相關(guān)與因果

 

有些相關(guān)性的背后,一般會有因果關(guān)系存在。兩個要素由因果產(chǎn)生關(guān)聯(lián)的機制大概可以分成兩類:1、兩個要素具有因果的關(guān)系:比如剛做父親的青年人常會買尿布;2、共同原因?qū)е碌膬蓚€結(jié)果之間的關(guān)系:比如孩子的父親會常買啤酒,也常買尿布;于是,啤酒和尿布就可能關(guān)聯(lián)起來。

 

有些相關(guān)性,看似沒有因果,但背后往往有某些特殊的規(guī)律或因素其作用(上述第二種情況)。比如,女孩子往往喜歡花衣服,與基因和文化的共性有關(guān)。但這種因果關(guān)系可能相隔太遠(yuǎn),以至于難以考證了。

 

當(dāng)人們需要根據(jù)關(guān)系作出決策時,需要研究因果的邏輯關(guān)系:到底是誰影響了誰。否則,根據(jù)分析結(jié)構(gòu)的盲目行為可能適得其反。 “到底誰影響了誰”為什么會成為問題?大概有兩類原因:

 

第一類原因是:忽視了時間因素。如“統(tǒng)計結(jié)果表明,練太極拳的身體差”?,F(xiàn)實卻是:很多人身體變差(包括衰老)以后,才練太極拳。一般來說,具有因果關(guān)系的兩個要素之間,時間上有前后關(guān)系:原因早前,結(jié)果在后。

第二類原因是:忽視了前導(dǎo)因素。“公雞一叫,天就亮了”。現(xiàn)實卻是,天量之前的跡象被公雞察覺到了。兩者是第二種因果關(guān)系,只是看似“原因在后、結(jié)果在前”了。

 

一般來說,工業(yè)大數(shù)據(jù)分析更重視因果,而商務(wù)大數(shù)據(jù)分析對因果性的要求較弱。

 

5、數(shù)據(jù)分析的先導(dǎo)因素

 

從某種意義上說,數(shù)據(jù)分析的過程,就是尋找強的相關(guān)關(guān)系(必然性、因果性),或?qū)θ醯南嚓P(guān)關(guān)系進行綜合、得到強的相關(guān)關(guān)系。

 

用數(shù)據(jù)發(fā)現(xiàn)信息,需要用到各種知識。例如,把“云南白藥是用于治療外傷的”放入計算機,當(dāng)某人購買白藥的行為判斷他或家人可能受傷,從而可以推薦相關(guān)產(chǎn)品。但注意到:這種類型的知識很可能是被人事先裝入計算機的,而不是靠計算機自動學(xué)習(xí)得到的。

 

所有的學(xué)習(xí)過程,本質(zhì)上都是基于這樣一種假設(shè):A和B的一部分屬性類似,則推測另一部分屬性也應(yīng)該類似。例如,A和B的身高相似,則體重也可能相似。現(xiàn)實中,兩個屬性確實具有強烈的相關(guān)性,但身高相同而體重不同的也大有人在。這時,如果我們還知道他的體型,是瘦弱、偏瘦、正常、偏胖、肥胖型,對體重的估計就可以準(zhǔn)確一些。由此可見,用數(shù)據(jù)發(fā)現(xiàn)知識的過程,本質(zhì)上就是提高相關(guān)性、可靠性的過程。

 

一般來說,人們在做數(shù)據(jù)分析之前,一定會有一定的知識積淀, 但認(rèn)識不清卻是一種常態(tài);人們希望通過對數(shù)據(jù)的分析,來改變這種常態(tài)。而改變認(rèn)識的過程依賴于數(shù)據(jù)的質(zhì)量和分析數(shù)據(jù)的方法。所以,刨除分析方法外,分析過程依賴于兩個先導(dǎo)性因素:1、數(shù)據(jù)質(zhì)量(包含多方面的含義)如何;人們已有的認(rèn)識如何。

 

注意,這段說法有個潛臺詞:強調(diào)了人類可認(rèn)識的知識,而不是機器用復(fù)雜函數(shù)關(guān)系表述的、人類難以用邏輯關(guān)系認(rèn)知的知識(如神經(jīng)元)。的確如此,筆者一直認(rèn)為:這類方法的作用被學(xué)術(shù)界有意識地夸大了。

 

6、數(shù)據(jù)分析的過程

 

與商業(yè)大數(shù)據(jù)相比,工業(yè)大數(shù)據(jù)更重視可靠性和精確性。在很多情況下,猜出一個結(jié)論并不難,難的是論證一個結(jié)論。一般來說,凡是可靠的知識,都應(yīng)該能夠被機理和數(shù)據(jù)雙重認(rèn)證。

 

大數(shù)據(jù)分析的一個重要特征是:傳統(tǒng)概率理論的假設(shè)往往不成立。例如:大數(shù)定理的條件往往不成立、模型的結(jié)構(gòu)往往未知、因果關(guān)系不是天然清晰、自變量的誤差往往不能忽略、數(shù)據(jù)分布往往是沒有規(guī)律的。所以,為了得到可靠的結(jié)果,人們工作的重點很可能是驗證這些條件、構(gòu)造這些條件。從某種意義上說,數(shù)據(jù)分析的過程,主要是排除干擾的過程、特別是排除系統(tǒng)干擾的過程。而且,如果完全依照邏輯、用純粹數(shù)學(xué)的辦法加以論證,則數(shù)據(jù)需求量會遭遇“組合爆炸”,永遠(yuǎn)是不夠的。這時,已有的領(lǐng)域知識就是降低數(shù)據(jù)需求量的一種手段。要記住:求得可靠性是一個過程而不是結(jié)果、可能永遠(yuǎn)沒有終點;分析的過程只是不斷增加證據(jù)而已。這個過程,是修正人的認(rèn)識的過程;所以,錯誤或不恰當(dāng)?shù)恼J(rèn)識常常是分析過程中最大的干擾——這個干擾一旦去除,我們可能就發(fā)現(xiàn)了真正的知識。

 

數(shù)據(jù)量大的直接好處,是排除隨機性干擾。但排除系統(tǒng)性干擾卻不那么容易,數(shù)據(jù)量大是必要條件但不充分,需要深入的方法研究才能解決問題。

 

系統(tǒng)性的干擾往往體現(xiàn)在:對主體進行分組,所體現(xiàn)的規(guī)律是不同的。比如,身高和體重的統(tǒng)計關(guān)系,男女是不同的、不同民族是有差異的、可能與年齡有關(guān)。如果不進行分類研究,統(tǒng)計的結(jié)果就會與樣本的選取有很大關(guān)系。但分類研究也會遇到一個困難:遭遇組合爆炸,數(shù)據(jù)再多都不夠用。這時,“領(lǐng)域知識”就會發(fā)生作用:

 

認(rèn)定一個結(jié)論成立的辦法,是確認(rèn)它的“可重復(fù)性”。在許多情況下,“可重復(fù)性”指的是在各種分組下都成立的結(jié)論:最好能在不同時間分組中也能成立。分組越多、分組的維度越多、結(jié)論的可靠性越高。

 

但具有“可重復(fù)性”的結(jié)論,往往只在一定的范圍內(nèi)成立。在很多情況下,“明確結(jié)論成立的范圍”也是數(shù)據(jù)分析的重要內(nèi)容。

 

如何分組、如何確定范圍、如何構(gòu)筑邏輯鏈條、數(shù)據(jù)結(jié)果的解讀、數(shù)據(jù)結(jié)果與領(lǐng)域知識的融合,都是重要的能力。事實上,根據(jù)領(lǐng)域知識,常常用于構(gòu)造證據(jù)鏈、進行有效的數(shù)據(jù)選取和分組。

 

在精密論證時,我們就會發(fā)現(xiàn):基礎(chǔ)數(shù)據(jù)的質(zhì)量很重要。因為許多干擾就來源于數(shù)據(jù)本身。從某種意義上說,數(shù)據(jù)的采集方法和環(huán)境不同,就是不同的數(shù)據(jù)。

 

7、關(guān)于預(yù)測數(shù)字

 

許多問題分析的目的得到一個數(shù)字:如鋼的強度、用電量、人口數(shù)量、鋼產(chǎn)量。這類問題的特點之一是:最終的結(jié)果是各種影響因素相加得到的。

 

對于這種問題,我的觀點是:要想得到可靠的結(jié)果,一定要拆成若干子問題來分析。其中,各個子問題要盡可能利用規(guī)律性的結(jié)果來分析。我認(rèn)為:把人的認(rèn)識和數(shù)據(jù)用到極致的時候,才能得到最好的結(jié)果。隨便地建立回歸模型是不懂?dāng)?shù)據(jù)的表現(xiàn)。
 錢塘大數(shù)據(jù)

返回列表