Differences

This shows you the differences between two versions of the page.

--- johnson_s_hierarchical_clustering [2016/11/21 08:21] – created hkimscil
+++ johnson_s_hierarchical_clustering [2016/11/21 12:15] (current) – [E.g. 1] hkimscil
@@ Line 1: / Line 1: @@
-^ Cities  ^ Boston  ^ Chicago  ^ Denver  ^ LosAngeles  ^ New York  ^ San Francisco  ^ Seattle  ^ Washington  ^
+|	| BOS  | NY  | DC  | MIA  | CHI  | SEA  | SF  | LA  | DEN  |
-| Boston, Mass.  | -  | 851  | 1769  | 2596  | 188  | 2699  | 2493  | 393  |
+| BOS  | 0  | 206  | 429  | 1504  | 963  | 2976  | 3095  | 2979  | 1949  |
-| Chicago, Ill.  | 851  | -  | 920  | 1745  | 713  | 1858  | 1737  | 597  |
+| NY  | 206  | 0  | 233  | 1308  | 802  | 2815  | 2934  | 2786  | 1771  |
-| Denver, Colo.  | 1769  | 920  | -  | 831  | 1631  | 949  | 1021  | 1494  |
+| DC  | 429  | 233  | 0  | 1075  | 671  | 2684  | 2799  | 2631  | 1616  |
-| Los Angeles, Calif.  | 2596  | 1745  | 831  | -  | 2451  | 347  | 959  | 2300  |
+| MIA  | 1504  | 1308  | 1075  | 0  | 1329  | 3273  | 3053  | 2687  | 2037  |
-| New York, N.Y.  | 188  | 713  | 1631  | 2451  | -  | 2571  | 2408  | 205  |
+| CHI  | 963  | 802  | 671  | 1329  | 0  | 2013  | 2142  | 2054  | 996  |
-| San Francisco, Calif.  | 2699  | 1858  | 949  | 347  | 2571  | -  | 678  | 2442  |
+| SEA  | 2976  | 2815  | 2684  | 3273  | 2013  | 0  | 808  | 1131  | 1307  |
-| Seattle, Wash.  | 2493  | 1737  | 1021  | 959  | 2408  | 678  | -  | 2329  |
+| SF  | 3095  | 2934  | 2799  | 3053  | 2142  | 808  | 0  | 379  | 1235  |
-| Washington, D.C.  | 393  | 597  | 1494  | 2300  | 205  | 2442  | 2329  | -  |
+| LA  | 2979  | 2786  | 2631  | 2687  | 2054  | 1131  | 379  | 0  | 1059  |
+| DEN  | 1949  | 1771  | 1616  | 2037  | 996  | 1307  | 1235  | 1059  | 0  |
-{{ :Cities_distance.jpg |}}
   - Start by assigning each item to its own cluster, so that if you have N items, you now have N clusters, each containing just one item. Let the distances (similarities) between the clusters equal the distances (similarities) between the items they contain.
@@ Line 21: / Line 20: @@
   * **complete-link clustering** (also called the diameter or maximum method) = the longest distance from any member of one cluster to any member of the other cluster.
   * **average-link clustering** = the average distance from any member of one cluster to any member of the other cluster.
 |	| BOS  | NY  | DC  | MIA  | CHI  | SEA  | SF  | LA  | DEN  |
-| BOS  | 0  | 206  | 429  | 1504  | 963  | 2976  | 3095  | 2979  | 1949  |
+| BOS  | 0  | **206**  | 429  | 1504  | 963  | 2976  | 3095  | 2979  | 1949  |
 | NY  | 206  | 0  | 233  | 1308  | 802  | 2815  | 2934  | 2786  | 1771  |
 | DC  | 429  | 233  | 0  | 1075  | 671  | 2684  | 2799  | 2631  | 1616  |
@@ Line 34: / Line 32: @@
 | DEN  | 1949  | 1771  | 1616  | 2037  | 996  | 1307  | 1235  | 1059  | 0  |
+  - 가장 가까운 거리의 도시: BOS 와 NY, 206
+  - 두 도시를 합하여 BOS/NY로 하고 다시 이를 포함한 도시들 간의 거리를 구함
+  - single link 방법을 사용한다면 BOS/NY와 DC간의 거리는 223이 됨 (가장 가까운 거리를 클러스터와의 거리로 환산하는 방법이 single link method). 마찬가지로 DEN까지의 거리는 1771이 됨
-^   ^ BOS/NY  ^ DC  ^ MIA  ^ CHI  ^ SEA  ^ SF  ^ LA  ^ DEN  ^
+|   | BOS/NY  | DC  | MIA  | CHI  | SEA  | SF  | LA  | DEN  |
 | BOS/NY  | 0  | 223  | 1308  | 802  | 2815  | 2934  | 2786  | 1771  |
 | DC  | 223  | 0  | 1075  | 671  | 2684  | 2799  | 2631  | 1616  |
@@ Line 45: / Line 46: @@
 | DEN  | 1771  | 1616  | 2037  | 996  | 1307  | 1235  | 1059  | 0  |
+  - BOS/NY와 가장 가까운 거리의 도시는 DC이고 거리는 223
+  - BOS/NY/DC 로 클러스터링하고 이와 다른 도시들, 그리고 각 도시들 간의 거리를 다시 계산
 |   | BOS/NY/DC  | MIA  | CHI  | SEA  | SF  | LA  | DEN  |
@@ Line 55: / Line 58: @@
 | DEN  | 1616  | 2037  | 996  | 1307  | 1235  | 1059  | 0  |
+  - 위에서 가장 가까운 도시들 간의 거리는 379이고 이는 SF와 LA 간의 거리
+  - SF/LA로 합치고 다시 계산하여 매트릭스를 구함
 |   | BOS/NY/DC  | MIA  | CHI  | SEA  | SF/LA  | DEN  |
@@ Line 64: / Line 69: @@
 | DEN  | 1616  | 2037  | 996  | 1307  | 1059  | 0  |
+  - 이제 CHI가 BOS/NY/DC/CHI와 가장 가까움 (671)
+  - BOS/NY/DC/CHI로 병합
-|   | BOS/NY/DC/CHI  | MIA  | SEA  | SF/LA  | DEN  |
+|   | BOS/NY/ \\ DC/CHI  | MIA  | SEA  | SF/LA  | DEN  |
-| BOS/NY/DC/CHI  | 0  | 1075  | 2013  | 2054  | 996  |
+| BOS/NY/ \\ DC/CHI  | 0  | 1075  | 2013  | 2054  | 996  |
 | MIA  | 1075  | 0  | 3273  | 2687  | 2037  |
 | SEA  | 2013  | 3273  | 0  | 808  | 1307  |
@@ Line 72: / Line 79: @@
 | DEN  | 996  | 2037  | 1307  | 1059  | 0  |
+  - 같은 방법으로 SEA을 SF/LA에 병합 (SF/LA/SEA)
-|   | BOS/NY/DC/CHI  | MIA  | SF/LA/SEA  | DEN  |
-| BOS/NY/DC/CHI  | 0  | 1075  | 2013  | 996  |
+|   | BOS/NY/ \\ DC/CHI  | MIA  | SF/LA \\ /SEA  | DEN  |
+| BOS/NY/ \\ DC/CHI  | 0  | 1075  | 2013  | 996  |
 | MIA  | 1075  | 0  | 2687  | 2037  |
-| SF/LA/SEA  | 2054  | 2687  | 0  | 1059  |
+| SF/LA/ \\ SEA  | 2054  | 2687  | 0  | 1059  |
 | DEN  | 996  | 2037  | 1059  | 0  |
-|   | BOS/NY/DC/CHI/DEN  | MIA  | SF/LA/SEA  |
+|   | BOS/NY/DC/ \\ CHI/DEN  | MIA  | SF/LA/SEA  |
-| BOS/NY/DC/CHI/DEN  | 0  | 1075  | 1059  |
+| BOS/NY/DC/ \\ CHI/DEN  | 0  | 1075  | 1059  |
 | MIA  | 1075  | 0  | 2687  |
 | SF/LA/SEA  | 1059  | 2687  | 0  |
-|   | BOS/NY/DC/CHI/DEN/SF/LA/SEA  | MIA  |
+|   | BOS/NY/DC/CHI/ \\ DEN/SF/LA/SEA  | MIA  |
-| BOS/NY/DC/CHI/DEN/SF/LA/SEA  | 0  | 1075  |
+| BOS/NY/DC/CHI/ \\ DEN/SF/LA/SEA  | 0  | 1075  |
 | MIA  | 1075  | 0  |
+{{:hiclus1.gif}}
+<code>JOHNSON'S HIERARCHICAL CLUSTERING
+--------------------------------------------------------------------------------
+Method:                                 SINGLE_LINK (minimum distance)
+Type of Data:                           Dissimilarities
+Input dataset:                          cities (D:\Users\Hyo\Documents\UCINET data\Cities\cities)
+HIERARCHICAL CLUSTERING
+        M S     B     C D
+        I E S L O N D H E
+        A A F A S Y C I N
+Level   4 6 7 8 1 2 3 5 9
+-----   - - - - - - - - -
+   . . . . XXX . . .
+   . . . . XXXXX . .
+   . . XXX XXXXX . .
+   . . XXX XXXXXXX .
+   . XXXXX XXXXXXX .
+   . XXXXX XXXXXXXXX
+   . XXXXXXXXXXXXXXX
+   XXXXXXXXXXXXXXXXX
+Measures of cluster adequacy
+      2      3      4      5      6      7
+             ------ ------ ------ ------ ------ ------ ------
+     Eta  -0.284 -0.480 -0.554 -0.657 -0.711 -0.687 -0.151
+       Q  -0.133 -0.163 -0.188 -0.203 -0.240 -0.214 -0.033
+Q-prime  -0.152 -0.190 -0.226 -0.254 -0.320 -0.322 -0.065
+     E-I   0.994  0.973  0.961  0.884  0.824  0.625 -0.490
+Size of each cluster, expressed as a proportion of the total population clustered
+     2     3     4     5     6     7     8
+         ----- ----- ----- ----- ----- ----- ----- -----
+CL1  0.222 0.333 0.333 0.111 0.111 0.111 0.111 1.000
+CL2  0.111 0.111 0.111 0.444 0.444 0.333 0.889
+CL3  0.111 0.111 0.111 0.111 0.333 0.556
+CL4  0.111 0.111 0.111 0.222 0.111
+CL5  0.111 0.111 0.222 0.111
+CL6  0.111 0.111 0.111
+CL7  0.111 0.111
+CL8  0.111
+Actor-by-Partition indicator matrix saved as dataset Part
+----------------------------------------
+Running time:  00:00:01
+Output generated:  21 11 16 09:10:06
+UCINET 6.614 Copyright (c) 1992-2016 Analytic Technologies
+</code>
+{{hiclus2.gif}}
+{{hiclus4.gif}}
+====== E.g. 1 ======
+<code csv cities2.csv>0	206	429	1504	963	2976	3095	2979	1949
+	0	233	1308	802	2815	2934	2786	1771
+	233	0	1075	671	2684	2799	2631	1616
+	1308	1075	0	1329	3273	3053	2687	2037
+	802	671	1329	0	2013	2142	2054	996
+	2815	2684	3273	2013	0	808	1131	1307
+	2934	2799	3053	2142	808	0	379	1235
+	2786	2631	2687	2054	1131	379	0	1059
+	1771	1616	2037	996	1307	1235	1059	0
+</code>
+# Prepare Data
+setwd("d:/rdata")
+mydata <- read.csv("cities.csv")
+mydata <- na.omit(mydata) # listwise deletion of missing
+mydata <- scale(mydata) # standardize variables