User Tools

Site Tools


johnson_s_hierarchical_clustering

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
johnson_s_hierarchical_clustering [2016/11/21 08:21] – created hkimsciljohnson_s_hierarchical_clustering [2016/11/21 12:15] (current) – [E.g. 1] hkimscil
Line 1: Line 1:
-^ Cities  ^ Boston  ^ Chicago  ^ Denver  ^ LosAngeles  ^ New York  ^ San Francisco  ^ Seattle  ^ Washington  ^ +| | BOS  | NY  | DC  | MIA  | CHI  | SEA  | SF  | LA  | DEN  | 
-Boston, Mass.   851  1769  2596  188  2699  2493  393  | +BOS   206  429  1504  963  2976  3095  2979  | 1949  | 
-Chicago, Ill.  851   920  1745  713  1858  1737  597  | +NY  206   233  1308  802  2815  2934  2786  | 1771  | 
-Denver, Colo.  1769  920   831  1631  949  1021  1494  | +DC  429  233   1075  671  2684  2799  2631  | 1616  | 
-Los Angeles, Calif.  2596  1745  831   2451  347  959  2300  | +MIA  1504  1308  1075   1329  3273  3053  2687  | 2037  | 
-New York, N.Y.  188  713  1631  2451   2571  2408  205  | +CHI  963  802  671  1329   2013  2142  2054  | 996  | 
-San Francisco, Calif.  2699  1858  949  347  2571   678  2442  | +SEA  2976  2815  2684  3273  2013   808  1131  | 1307  | 
-Seattle, Wash.  2493  1737  1021  959  2408  678   2329  | +SF  | 3095  2934  2799  3053  2142  808   379  1235  | 
-Washington, D.C.  393  597  1494  2300  205  2442  2329   | +LA  2979  2786  2631  2687  2054  1131  379  0  | 1059  | 
- +DEN  | 1949  | 1771  | 1616  | 2037  | 996  | 1307  | 1235  | 1059  | 0  |
-{{ :Cities_distance.jpg |}}+
  
   - Start by assigning each item to its own cluster, so that if you have N items, you now have N clusters, each containing just one item. Let the distances (similarities) between the clusters equal the distances (similarities) between the items they contain.   - Start by assigning each item to its own cluster, so that if you have N items, you now have N clusters, each containing just one item. Let the distances (similarities) between the clusters equal the distances (similarities) between the items they contain.
Line 21: Line 20:
   * **complete-link clustering** (also called the diameter or maximum method) = the longest distance from any member of one cluster to any member of the other cluster.   * **complete-link clustering** (also called the diameter or maximum method) = the longest distance from any member of one cluster to any member of the other cluster.
   * **average-link clustering** = the average distance from any member of one cluster to any member of the other cluster.   * **average-link clustering** = the average distance from any member of one cluster to any member of the other cluster.
- 
  
 | | BOS  | NY  | DC  | MIA  | CHI  | SEA  | SF  | LA  | DEN  | | | BOS  | NY  | DC  | MIA  | CHI  | SEA  | SF  | LA  | DEN  |
-| BOS  | 0  | 206  | 429  | 1504  | 963  | 2976  | 3095  | 2979  | 1949  |+| BOS  | 0  | **206**  | 429  | 1504  | 963  | 2976  | 3095  | 2979  | 1949  |
 | NY  | 206  | 0  | 233  | 1308  | 802  | 2815  | 2934  | 2786  | 1771  | | NY  | 206  | 0  | 233  | 1308  | 802  | 2815  | 2934  | 2786  | 1771  |
 | DC  | 429  | 233  | 0  | 1075  | 671  | 2684  | 2799  | 2631  | 1616  | | DC  | 429  | 233  | 0  | 1075  | 671  | 2684  | 2799  | 2631  | 1616  |
Line 34: Line 32:
 | DEN  | 1949  | 1771  | 1616  | 2037  | 996  | 1307  | 1235  | 1059  | 0  | | DEN  | 1949  | 1771  | 1616  | 2037  | 996  | 1307  | 1235  | 1059  | 0  |
  
 +  - 가장 가까운 거리의 도시: BOS 와 NY, 206
 +  - 두 도시를 합하여 BOS/NY로 하고 다시 이를 포함한 도시들 간의 거리를 구함
 +  - single link 방법을 사용한다면 BOS/NY와 DC간의 거리는 223이 됨 (가장 가까운 거리를 클러스터와의 거리로 환산하는 방법이 single link method). 마찬가지로 DEN까지의 거리는 1771이 됨
  
-  BOS/NY  DC  MIA  CHI  SEA  SF  LA  DEN  ^+  BOS/NY  DC  MIA  CHI  SEA  SF  LA  DEN  |
 | BOS/NY  | 0  | 223  | 1308  | 802  | 2815  | 2934  | 2786  | 1771  | | BOS/NY  | 0  | 223  | 1308  | 802  | 2815  | 2934  | 2786  | 1771  |
 | DC  | 223  | 0  | 1075  | 671  | 2684  | 2799  | 2631  | 1616  | | DC  | 223  | 0  | 1075  | 671  | 2684  | 2799  | 2631  | 1616  |
Line 45: Line 46:
 | DEN  | 1771  | 1616  | 2037  | 996  | 1307  | 1235  | 1059  | 0  | | DEN  | 1771  | 1616  | 2037  | 996  | 1307  | 1235  | 1059  | 0  |
  
 +  - BOS/NY와 가장 가까운 거리의 도시는 DC이고 거리는 223
 +  - BOS/NY/DC 로 클러스터링하고 이와 다른 도시들, 그리고 각 도시들 간의 거리를 다시 계산
  
 |   | BOS/NY/DC  | MIA  | CHI  | SEA  | SF  | LA  | DEN  | |   | BOS/NY/DC  | MIA  | CHI  | SEA  | SF  | LA  | DEN  |
Line 55: Line 58:
 | DEN  | 1616  | 2037  | 996  | 1307  | 1235  | 1059  | 0  | | DEN  | 1616  | 2037  | 996  | 1307  | 1235  | 1059  | 0  |
  
 +  - 위에서 가장 가까운 도시들 간의 거리는 379이고 이는 SF와 LA 간의 거리
 +  - SF/LA로 합치고 다시 계산하여 매트릭스를 구함 
  
 |   | BOS/NY/DC  | MIA  | CHI  | SEA  | SF/LA  | DEN  | |   | BOS/NY/DC  | MIA  | CHI  | SEA  | SF/LA  | DEN  |
Line 64: Line 69:
 | DEN  | 1616  | 2037  | 996  | 1307  | 1059  | 0  | | DEN  | 1616  | 2037  | 996  | 1307  | 1059  | 0  |
  
 +  - 이제 CHI가 BOS/NY/DC/CHI와 가장 가까움 (671)
 +  - BOS/NY/DC/CHI로 병합
  
-|   | BOS/NY/DC/CHI  | MIA  | SEA  | SF/LA  | DEN  | +|   | BOS/NY/ \\ DC/CHI  | MIA  | SEA  | SF/LA  | DEN  | 
-| BOS/NY/DC/CHI  | 0  | 1075  | 2013  | 2054  | 996  |+| BOS/NY/ \\ DC/CHI  | 0  | 1075  | 2013  | 2054  | 996  |
 | MIA  | 1075  | 0  | 3273  | 2687  | 2037  | | MIA  | 1075  | 0  | 3273  | 2687  | 2037  |
 | SEA  | 2013  | 3273  | 0  | 808  | 1307  | | SEA  | 2013  | 3273  | 0  | 808  | 1307  |
Line 72: Line 79:
 | DEN  | 996  | 2037  | 1307  | 1059  | 0  | | DEN  | 996  | 2037  | 1307  | 1059  | 0  |
  
- +  - 같은 방법으로 SEA을 SF/LA에 병합 (SF/LA/SEA) 
-|   | BOS/NY/DC/CHI  | MIA  | SF/LA/SEA  | DEN  | +  
-| BOS/NY/DC/CHI  | 0  | 1075  | 2013  | 996  |+|   | BOS/NY/ \\ DC/CHI  | MIA  | SF/LA \\ /SEA  | DEN  | 
 +| BOS/NY/ \\ DC/CHI  | 0  | 1075  | 2013  | 996  |
 | MIA  | 1075  | 0  | 2687  | 2037  | | MIA  | 1075  | 0  | 2687  | 2037  |
-| SF/LA/SEA  | 2054  | 2687  | 0  | 1059  |+| SF/LA/ \\ SEA  | 2054  | 2687  | 0  | 1059  |
 | DEN  | 996  | 2037  | 1059  | 0  | | DEN  | 996  | 2037  | 1059  | 0  |
  
  
-|   | BOS/NY/DC/CHI/DEN  | MIA  | SF/LA/SEA +|   | BOS/NY/DC/ \\ CHI/DEN  | MIA  | SF/LA/SEA 
-| BOS/NY/DC/CHI/DEN  | 0  | 1075  | 1059  |+| BOS/NY/DC/ \\ CHI/DEN  | 0  | 1075  | 1059  |
 | MIA  | 1075  | 0  | 2687  | | MIA  | 1075  | 0  | 2687  |
 | SF/LA/SEA  | 1059  | 2687  | 0  | | SF/LA/SEA  | 1059  | 2687  | 0  |
  
  
-|   | BOS/NY/DC/CHI/DEN/SF/LA/SEA  | MIA  | +|   | BOS/NY/DC/CHI/ \\ DEN/SF/LA/SEA  | MIA  | 
-| BOS/NY/DC/CHI/DEN/SF/LA/SEA  | 0  | 1075  |+| BOS/NY/DC/CHI/ \\ DEN/SF/LA/SEA  | 0  | 1075  |
 | MIA  | 1075  | 0  | | MIA  | 1075  | 0  |
  
 +{{:hiclus1.gif}}
 +<code>JOHNSON'S HIERARCHICAL CLUSTERING
 +--------------------------------------------------------------------------------
 +
 +Method:                                 SINGLE_LINK (minimum distance)
 +Type of Data:                           Dissimilarities
 +Input dataset:                          cities (D:\Users\Hyo\Documents\UCINET data\Cities\cities)
 +
 +HIERARCHICAL CLUSTERING
 +
 +        M S         C D
 +        I E S L O N D H E
 +        A A F A S Y C I N
 +
 +Level   4 6 7 8 1 2 3 5 9
 +-----   - - - - - - - - -
 +  206   . . . . XXX . . .
 +  233   . . . . XXXXX . .
 +  379   . . XXX XXXXX . .
 +  671   . . XXX XXXXXXX .
 +  808   . XXXXX XXXXXXX .
 +  996   . XXXXX XXXXXXXXX
 + 1059   . XXXXXXXXXXXXXXX
 + 1075   XXXXXXXXXXXXXXXXX
 +
 +
 +
 +Measures of cluster adequacy
 +
 +                  1      2      3      4      5      6      7
 +             ------ ------ ------ ------ ------ ------ ------
 +  1     Eta  -0.284 -0.480 -0.554 -0.657 -0.711 -0.687 -0.151
 +  2        -0.133 -0.163 -0.188 -0.203 -0.240 -0.214 -0.033
 +  3 Q-prime  -0.152 -0.190 -0.226 -0.254 -0.320 -0.322 -0.065
 +  4     E-I   0.994  0.973  0.961  0.884  0.824  0.625 -0.490
 +
 +
 +Size of each cluster, expressed as a proportion of the total population clustered
 +
 +                                         8
 +         ----- ----- ----- ----- ----- ----- ----- -----
 +  1 CL1  0.222 0.333 0.333 0.111 0.111 0.111 0.111 1.000
 +  2 CL2  0.111 0.111 0.111 0.444 0.444 0.333 0.889      
 +  3 CL3  0.111 0.111 0.111 0.111 0.333 0.556            
 +  4 CL4  0.111 0.111 0.111 0.222 0.111                  
 +  5 CL5  0.111 0.111 0.222 0.111                        
 +  6 CL6  0.111 0.111 0.111                              
 +  7 CL7  0.111 0.111                                    
 +  8 CL8  0.111                                          
 +
 +Actor-by-Partition indicator matrix saved as dataset Part
 +
 +----------------------------------------
 +Running time:  00:00:01
 +Output generated:  21 11 16 09:10:06
 +UCINET 6.614 Copyright (c) 1992-2016 Analytic Technologies
 +
 +</code>
 +
 +{{hiclus2.gif}}
 +{{hiclus4.gif}}
 +
 +====== E.g. 1 ======
 +<code csv cities2.csv>0 206 429 1504 963 2976 3095 2979 1949
 +206 0 233 1308 802 2815 2934 2786 1771
 +429 233 0 1075 671 2684 2799 2631 1616
 +1504 1308 1075 0 1329 3273 3053 2687 2037
 +963 802 671 1329 0 2013 2142 2054 996
 +2976 2815 2684 3273 2013 0 808 1131 1307
 +3095 2934 2799 3053 2142 808 0 379 1235
 +2979 2786 2631 2687 2054 1131 379 0 1059
 +1949 1771 1616 2037 996 1307 1235 1059 0
 +
 +</code>
 +
 +# Prepare Data
 +setwd("d:/rdata")
 +mydata <- read.csv("cities.csv")
 +mydata <- na.omit(mydata) # listwise deletion of missing
 +mydata <- scale(mydata) # standardize variables
  
  
johnson_s_hierarchical_clustering.1479685887.txt.gz · Last modified: 2016/11/21 08:21 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki