factor_analysis
Differences
This shows you the differences between two versions of the page.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| factor_analysis [2022/05/05 12:49] – [eigenvalues] hkimscil | factor_analysis [2025/11/13 01:23] (current) – [Factor solution among many . . .] hkimscil | ||
|---|---|---|---|
| Line 126: | Line 126: | ||
| * fiance (혹은 다른 시험) 점수의 총 분산값은 $F1$과 $F2$의 coefficient(loading)값을 각각 제곱해서 더한 것에 | * fiance (혹은 다른 시험) 점수의 총 분산값은 $F1$과 $F2$의 coefficient(loading)값을 각각 제곱해서 더한 것에 | ||
| * 에러의 분산값을 더한 것과 같다. | * 에러의 분산값을 더한 것과 같다. | ||
| - | * 여기서 loading 제곱의 합은 regression으로 설명되는 부분이고 | + | * 여기서 loading 제곱의 합은 regression으로 설명되는 부분이고 |
| - | * 에러의 분산값은 어느 factor에도 기여를 하지 못하는 나머지 부분이다. | + | * 에러의 분산값은 어느 factor에도 기여를 하지 못하는 나머지 부분이다. |
| * 즉, fiance의 분산값은 $F1$, $F2$가 기여하는 부분과 이 둘에 포함되지 않는 나머지로 나눌 수 있다. 이는 regression에서 explained(regression) variance와 unexplained variance를 이야기 하는 것과 같은 이치이다. | * 즉, fiance의 분산값은 $F1$, $F2$가 기여하는 부분과 이 둘에 포함되지 않는 나머지로 나눌 수 있다. 이는 regression에서 explained(regression) variance와 unexplained variance를 이야기 하는 것과 같은 이치이다. | ||
| * 앞의 두 coefficient(계수 혹은 factor loading)을 **communality**라고 부른다. 이 이름이 자연스러운 것은 Y의 총분산 중 두 요인($F1$, | * 앞의 두 coefficient(계수 혹은 factor loading)을 **communality**라고 부른다. 이 이름이 자연스러운 것은 Y의 총분산 중 두 요인($F1$, | ||
| Line 185: | Line 185: | ||
| | Y3 | $S_{31}$ | | Y3 | $S_{31}$ | ||
| - | 실제 데이터에서 구한 variance covariance table은 아래와 같다. | + | 실제 데이터에서 구한 variance covariance table은 아래와 같다((편의상 여기 분산값은 n으로 (n-1이 아닌) 나눠 준 것)). |
| | Variable | | Variable | ||
| Line 197: | Line 197: | ||
| ## 예를 들어 | ## 예를 들어 | ||
| fd <- read.csv(" | fd <- read.csv(" | ||
| + | fd <- fd[, -1] # 처음 id 컬럼 지우기 | ||
| cov(fd) | cov(fd) | ||
| Line 273: | Line 274: | ||
| ====== Factor solution among many . . . ====== | ====== Factor solution among many . . . ====== | ||
| - | | Variable, \\ Y< | + | | Variable, \\ Y< |
| - | | Finance, Y< | + | | Finance, Y< |
| - | | Marketing, Y< | + | | Marketing, Y< |
| - | | Policy, Y< | + | | Policy, Y< |
| - | | total | T< | + | | total | T< |
| 각 변인의 Observed Variance는 df (즉, n-1)을 사용하는 대신 n을 사용하여 구함. | 각 변인의 Observed Variance는 df (즉, n-1)을 사용하는 대신 n을 사용하여 구함. | ||
| Line 332: | Line 333: | ||
| 각주 1) -> finance = 수학능력 = F1 | 각주 1) -> finance = 수학능력 = F1 | ||
| 각주 2), 3) -> marketing, policy = 언어능력 = F2 | 각주 2), 3) -> marketing, policy = 언어능력 = F2 | ||
| - | 각주 | + | 각주 |
| < | < | ||
| Line 457: | Line 458: | ||
| | Economics | | Economics | ||
| | Total | | Total | ||
| + | ===== Specificity ===== | ||
| + | | Variable | ||
| + | | Climate | ||
| + | | Housing | ||
| + | | Health | ||
| + | | Crime | ||
| + | | Transportation | ||
| + | | Education | ||
| + | | Arts | 0.754 | | | ||
| + | | Recreation | ||
| + | | Economics | ||
| + | | Total | ||
| ====== Methods (functions) in R ====== | ====== Methods (functions) in R ====== | ||
| Line 468: | Line 481: | ||
| < | < | ||
| - | mydata | + | my.data |
| # if data as NAs, it is better to omit them: | # if data as NAs, it is better to omit them: | ||
| my.data <- na.omit(my.data) | my.data <- na.omit(my.data) | ||
| Line 1551: | Line 1564: | ||
| ====== Reference ====== | ====== Reference ====== | ||
| {{: | {{: | ||
| + | [[https:// | ||
| + | [[https:// | ||
| + | see exploratory factor analysis :: {{youtube> | ||
factor_analysis.1651754953.txt.gz · Last modified: by hkimscil
