聚類分析法

時間 2021-05-04 18:28:47

1樓:中地數媒

聚類分析,亦稱群分析或點分析,是研究多要素事物分類問題的數量方法。其基本原理是,根據樣本自身的屬性,用數學方法按照某些相似性或差異性指標,定量地確定樣本之間的親疏關係,並按親疏關係的程度對樣本進行聚類(徐建華,1994)。

聚類分析方法,應用在地下水中,是在各種指標和質量級別標準約束條件下,通過樣品的各項指標監測值綜合聚類,以判別地下水質量的級別。常見的聚類分析方法有系統聚類法、模糊聚類法和灰色聚類法等。

(一)系統聚類法

系統聚類法的主要步驟有:資料標準化、相似性統計量計算和聚類。

1.資料標準化

在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的準確性和可靠性。在地下水質量研究中,被聚類的物件常常是多個要素構成的。不同要素的資料差異可能很大,這會對分類結果產生影響。

因此當分類要素的物件確定之後,在進行聚類分析之前,首先對聚類要素進行資料標準化處理。

假設把所考慮的水質分析點(g)作為聚類物件(有m個),用i表示(i=1,2,…,m);把影響水質的主要因素作為聚類指標(有n個),用j表示(j=1,2,…,n),它們所對應的要素資料可用表4-3給出。在聚類分析中,聚類要素的資料標準化的方法較多,一般採用標準差法和極差法。

表4-3 聚類物件與要素資料

對於第j個變數進行標準化,就是將xij變換為x′ij。

(1)總和標準化

區域地下水功能可持續性評價理論與方法研究

這種標準化方法所得的新資料x′ij滿足

區域地下水功能可持續性評價理論與方法研究

(2)標準差標準化

區域地下水功能可持續性評價理論與方法研究

式中:; 由這種標準化方法所得的新資料x′ij,各要素的平均值為0,標準差為1,即有

區域地下水功能可持續性評價理論與方法研究

(3)極差標準化

區域地下水功能可持續性評價理論與方法研究

經過這種標準化所得的新資料,各要素的極大值為1,極小值為0,其餘的數值均在[0,1]閉區間內。

上述式中:xij為j變數實測值;xj為j變數的樣本平均值;sj為樣本標準差。

2.相似性統計量

系統聚類法要求給出乙個能反映樣品間相似程度的乙個數字指標,需要找到能量度相似關係的統計量,這是系統聚類法的關鍵。

相似性統計量一般使用距離係數和相似係數進行計算。距離係數是把樣品看成多維空間的點,用點間的距離來表示研究物件的緊密關係,距離越小,表明關係越密切。相似系數值表明樣本和變數間的相似程度。

(1)距離係數

常採用歐幾里得絕對距離,其中i樣品與j樣品距離dij為

區域地下水功能可持續性評價理論與方法研究

dij越小,表示i,j樣品越相似。

(2)相似係數

常見的相似係數有夾角余弦和相關係數,計算公式為

1)夾角余弦

區域地下水功能可持續性評價理論與方法研究

在式(4-20)中:-1≤cosθij≤1。

2)相關係數

區域地下水功能可持續性評價理論與方法研究

式中:dij為i樣品與j樣品的歐幾里得距離;cosθij為i樣品與j樣品的相似係數;rij為i樣品與j樣品的相關係數;xik為i樣品第k個因子的實測值或標準化值;xjk為j樣品第k個因子的實測值或標準化值;

為i樣品第k個因子的均值,

; 為j樣品第k個因子的均值,

;n為樣品的數目;k為因子(變數)數。

3.聚類

在選定相似性統計量之後,根據計算結果構成距離或相似性係數矩陣(n×n),然後通過一定的方法把n個樣品組合成不同等級的分類單位,對類進行並類,即將最相似的樣品歸為一組,然後,把次相似的樣品歸為分類級別較高的組。聚類主要有直接聚類法、距離聚類法(最短距離聚類法、最遠距離聚類法)。

(1)直接聚類法

直接聚類法,是根據距離或相似係數矩陣的結構一次並類得到結果,是一種簡便的聚類方法。它首先把各個分類物件單獨視為一類,然後根據距離最小或相似係數最大的原則,依次選出一對分類物件,並成新類。如果一對分類物件正好屬於已歸的兩類,則把這兩類並為一類。

每一次歸併,都劃去該物件所在的列與列序相同的行。經過n-1次把全部分類物件歸為一類,最後根據歸併的先後順序作出聚類分析譜系圖。

(2)距離聚類法

距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間壓縮性,而最遠距離聚類法具有空間擴張性。這兩種聚類方法關於類之間的距離計算可以用乙個統一的公式表示:

區域地下水功能可持續性評價理論與方法研究

當γ=-0.5時,式(4-22)計算類之間的距離最短;當γ=0.5時,式(4-22)計算類之間的距離最遠。

最短、最遠距離法,是在原來的n×n距離矩陣的非對角元素中找出dpq=min(dij)或dpq=max(dij),把分類物件gp和gq歸併為一新類gr,然後按計算公式:

dpq=min(dpk,dqk)(k≠ p,q) (4-23)

dpq=max(dpk,dqk)(k≠ p,q) (4-24)

計算原來各類與新類之間的距離,這樣就得到乙個新的(n-1)階的距離矩陣;再從新的距離矩陣中選出最小或最大的dij,把gi和gj歸併成新類;再計算各類與新類的距離,直至各分類物件被歸為一類為止。最後綜合整個聚類過程,作出最短距離或最遠距離聚類譜系圖(圖4-1)。

圖4-1 地下水質量評價的聚類譜系圖

(二)模糊聚類法

模糊聚類法是普通聚類方法的一種拓展,它是在聚類方法中引入模糊概念形成的。該方法評價地下水質量的主要步驟,包括資料標準化、標定和聚類3個方面(付雁鵬等,1987)。

1.資料標準化

在進行聚類過程中,由於所研究的各個變數絕對值不一樣,所以直接使用原始資料進行計算就會突出絕對值大的變數,而降低絕對值小的變數作用,特別是在進行模糊聚類分析中,模糊運算要求必須將資料壓縮在[0,1]之間。因此,模糊聚類計算的首要工作是解決資料標準化問題。資料標準化的方法見系統聚類分析法。

2.標定與聚類

所謂標定就是計算出被分類物件間的相似係數rij,從而確定論域集u上的模糊相似關係rij。相似係數的求取,與系統聚類分析法相同。

聚類就是在已建立的模糊關係矩陣rij上,給出不同的置信水平λ(λ∈[0,1])進行擷取,進而得到不同的分類。

聚類方法較多,主要有基於模糊等價關係基礎上的聚類與基於最大樹的聚類。

(1)模糊等價關係方法

所謂模糊等價關係,是指具有自反性(rii=1)、對稱性(rij=rji)與傳遞性(r·r⊆r)的模糊關係。

基於模糊等價關係的模糊聚類分析方法的基本思想是:由於模糊等價關係r是論域集u與自己的直積u×u上的乙個模糊子集,因此可以對r進行分解,當用λ-水平對r作截集時,截得的u×u的普通子集rλ就是u上的乙個普通等價關係,也就是得到了關於u中被分類物件元素的一種。當λ由1下降到0時,所得的分類由細變粗,逐漸歸併,從而形成乙個動態聚類譜系圖(徐建華,1994)。

此類分析方法的具體步驟如下。

第一步:模糊相似關係的建立,即計算各分類物件之間相似性統計量。

第二步:將模糊相似關係r改造為模糊等價關係r′。模糊等價關係要求滿足自反性、對稱性與傳遞性。

一般而言,模糊相似關係滿足自反性和對稱性,但不滿足傳遞性。因此,需要採用傳遞閉合的性質將模糊相似關係改造為模糊等價關係。改造的方法是將相似關係r自乘,即

r2=r·r

r4=r2·r2

︙這樣計算下去,直到:r2k=rk·rk=rk,則r′=rk便是乙個模糊等價關係。

第三步:在不同的截集水平下進行聚類。

(2)最大樹聚類方法

基於最大樹的模糊聚類分析方法的基本思路是:最大樹是乙個不包含迴路的連通圖(圖4-2);選取λ水平對樹枝進行擷取,砍去權重低於λ 的枝,形成幾個孤立的子樹,每一棵子樹就是乙個類的集合。此類分析方法的具體步驟如下。

圖4-2 最大聚類支撐樹圖

第一步:計算分類物件之間的模糊相似性統計量rij,構建最大樹。

以所有被分類的物件為頂點,當兩點間rij不等於0時,兩點間可以用樹幹連線,這種連線是按rij從大到小的順序依次進行的,從而構成最大樹。

第二步:由最大樹進行聚類分析。

選擇某一λ值作截集,將樹中小於λ值的樹幹砍斷,使相連的結點構成一類,即子樹,當λ由1到0時,所得到的分類由細變粗,各結點所代表的分類物件逐漸歸併,從而形成乙個動態聚類譜系圖。

在聚類方法中,模糊聚類法比普通聚類法有較大的突破,簡化了運算過程,使聚類法更易於掌握。

(三)灰色聚類法

灰色聚類是根據不同聚類指標所擁有的白化數,按幾個灰類將聚類物件進行歸納,以判斷該聚類物件屬於哪一類。

灰色聚類應用於地下水水質評價中,是把所考慮的水質分析點作為聚類物件,用i表示(i=1,2,…,n);把影響水質的主要因素作為聚類指標,用j表示(j=1,2,…,m),把水質級別作為聚類灰數(灰類),用k表示(k=1,2,3)即一級、二級、**3個灰類(羅定貴等,1995)。

灰色聚類的主要步驟:確定聚類白化數、確定各灰色白化函式fjk、求標定聚類權重ηjk、求聚類係數和按最大原則確定聚類物件分類。

1.確定聚類白化數

當各灰類白化數在數量上相差懸殊時,為保證各指標間的可比性與等效性,必須進行白化數的無量綱化處理。即給出第i個聚類物件中第j個聚類指標所擁有的白化數,i=1,2,…,n;j=1,2,…,m。

2.確定各灰色白化函式

建立滿足各指標、級別區間為最大白化函式值(等於1),偏離此區間愈遠,白化函式愈小(趨於0)的功效函式fij(x)。根據監測值cki,可在圖上(圖4-3)解析出相應的白化函式值fjk(cik),j=1,2,…,m;k=1,2,3。

3.求標定聚類權重

根據式(4-25),計算得出聚類權重ηjk的矩陣(n×m)。

區域地下水功能可持續性評價理論與方法研究

式中:ηjk為第j個指針對第k個灰類的權重;λjk為白化函式的閾值(根據標準濃度而定)。

圖4-3 白化函式圖

注:圖4-3白化函式f(x)∈[0,1],具有下述特點:①平頂部分,表示該量的最佳程度。

這部分的值為最佳值,即係數(權)為1,f(x)=max=1(峰值),x∈[x2,x3]。②白化函式是單調製化的,左邊部分f(x)=l(x),單調增,x∈(x1,x2],稱為白化的左支函式;右邊部分f(x)=r(x),單調減,x∈[x3,x4),稱為白化的右支函式。③白化函式左右支函式對稱。

④白化函式,為了簡便,一般是直線。⑤白化函式的起點和終點,一般來說是人為憑經驗確定。

4.求聚類係數

σik=∑fjk(dij)ηjk (4-26)

式中:σik為第i個聚類物件屬於第k個灰類的係數,i=1,2,…,n;k=1,2,3。

5.按最大原則確定聚類物件分類

由σik構造聚類向量矩陣,行向量最大者,確定k樣品屬於j級對應的級別。

用灰色聚類方法進行地下水水質評價,能最大限度地避免因人為因素而造成的「失真、失效」現象。

聚類方法計算相對複雜,但是計算結果與地下水質量標準級別對應性明顯,能夠較全面反映地下水質量狀況,也是較高層次定量研究地下水質量的重要方法。

用層次分析法分析下列短語,用層次分析法分析下列短語

瑞春楓 1 建立層次結構模型 將決策的目標 考慮的因素 決策準則 和決策物件按它們之間的相互關係分為最高層 中間層和最低層,繪出層次結構圖。最高層是指決策的目的 要解決的問題。最低層是指決策時的備選方案。中間層是指考慮的因素 決策的準則。對於相鄰的兩層,稱高層為目標層,低層為因素層。2 構造判斷 成...

什麼是swot分析法,什麼是SWOT分析法

所謂swot分析,即基於內外部競爭環境和競爭條件下的態勢分析,就是將與研究物件密切相關的各種主要內部優勢 劣勢和外部的機會和威脅等。通過調查列舉出來,並依照矩陣形式排列,然後用系統分析的思想,把各種因素相互匹配起來加以分析,從中得出一系列相應的結論,而結論通常帶有一定的決策性。特點 著名的競爭戰略專...

什麼是層次分析法,ahp層次分析法是什麼

所謂層次分析法 the analytic hierarchy process 簡稱ahp,在20世紀70年代中期由美國運籌學家托馬斯 塞蒂 t.l.saaty 正式提出。它是一種定性和定量相結合的 系統化 層次化的分析方法。由於它在處理複雜的決策問題上的實用性和有效性,很快在世界範圍得到重視。它的應...