Differences

This shows you the differences between two versions of the page.

--- big_five_personality_and_career_choice [2015/12/18 06:39] – hkimscil
+++ big_five_personality_and_career_choice [2015/12/22 15:27] (current) – hkimscil
@@ Line 1: / Line 1: @@
+김효동
+고욱
+최재원
+아주대학교, 미디어학과
+ --- //[[hkimscil@gmail.com|Hyo Kim]] 2015/12/18 15:44//
 ====== Relationships between big 5 personality and words used in self description ======
 Big 5 Personality
@@ Line 10: / Line 15: @@
 __**연구문제**__
-소개 글에 나타나는 개념(단어)에 근거한 군집과 빅5 성격검사의 특성 간의 관계
+  - 빅5 성격검사에 따른 성격과 셀프스토리텔링의 소개 글에 나타나는 개념(단어)에 근거한 군집 간의 관계, 즉, 특정한 단어를 사용하는 학생들 간에 빅5성격검사에서 나타나는 성격에는 차이가 있을까?
-즉, 특정한 단어를 사용하는 학생들 간에 빅5성격검사에서 나타나는 성격에는 차이가 있을까
+  - 학생들의 셀프스토리텔링에서 등장하는 개념들은 어떤 구조적인 성격을 가지고 있을까?
+  - 학생들의 성격과 학생들의 직업목표(일하고 싶은 분야/장소) 간에는 상관관계가 있을까?
+이를 위해서
+  * 웹을 이용해 학생들은 self-storytelling 서베이에 참여 (61명 - 2명).
+  * [[big_five_personality_and_career_choice#survey_questionnaires|서베이문항]] 참조
-===== Openness to experience =====
+===== Openness to experience (경험에 대한 개방성) =====
   * I have a rich vocabulary.
   * I have a vivid imagination.
@@ Line 26: / Line 35: @@
   * I have emotional intelligence.
-===== Conscientiousness =====
+===== Conscientiousness (성실성) =====
   * I am always prepared.
   * I pay attention to details.
@@ Line 38: / Line 47: @@
   * I shirk my duties. (reversed)[37]
-===== Extraversion =====
+===== Extraversion (외향성) =====
   * I am the life of the party.
   * I don't mind being the center of attention.
@@ Line 58: / Line 67: @@
   * I am quiet around strangers. (reversed)[37]
   * I have no intention of talking in large crowds. (reversed)
-===== Agreeableness =====
+===== Agreeableness (동의성) =====
   * I am interested in people.
   * I sympathize with others' feelings.
@@ Line 69: / Line 78: @@
   * I am not interested in other people's problems. (reversed)
   * I feel little concern for others. (reversed)[37]
-===== Neuroticism =====
+===== Neuroticism (신경성) =====
   * I am easily disturbed.
   * I change my mood a lot.
@@ Line 81: / Line 90: @@
   * I seldom feel blue. (reversed)[37]
-===== 빅5 성격검사 =====
+===== 빅5 성격검사: Factor analysis =====
 Factor analysis (빅5 성격검사에 기초한)
 |  Total Variance Explained  ||||||||||
@@ Line 149: / Line 158: @@
 . Extraversion
+Factor scores -> 개인 Attributes 데이터로 기록
 ====== Q analysis ======
 다음으로 Q-analysis
@@ Line 468: / Line 478: @@
 ===== R을 이용한 비정형 데이터 추출 =====
+<code>setwd ("D:/Users/Hyo/Cs-Kant/CS/Res/big_five_and_occupations")
+rm(list=ls())
+adata <- file.path("BFI_story.xlsx")
+data <- readWorksheetFromFile(adata, sheet="qs")
+intro<- Corpus(VectorSource(data$intro))
+result.text <- intro
+removeTwitSign <- function(x) { gsub("@[[:graph:]]*","",x) }
+removeURL <- function(x) { gsub("http://[[:graph:]]*","",x) }
+removeEnter <- function(x) { gsub("\n","",x) }
+exNouns <- function(x) { paste(extractNoun(x), collapse=" ")}
+# NA -> "" 로 변환
+# result.text[is.na(result.text)]   <- ""
+result.text <- gsub("[[:punct:]]", "", result.text)
+result.text <- gsub(" $", "", result.text)
+useSejongDic()
+mergeUserDic(data.frame(c(
+"IE", "랩", "데자뷰", "똑딱이", "코워크", "입문자",
+"생초보", "애널리틱스", "알바", "토익", "스피킹",
+"소셜", "소학회", "쿠팡", "네이버", "카카오", "인하우스",
+"에이전시", "구글", "픽사", "NC소프트", "포트폴리오",
+"스토리텔링", "비제이", "홈스테이", "엔딩", "스타크래프트",
+"크럼벌츠", "블리자드", "월드오브워크래프트", "퍼블리싱",
+"유니티3D", "스터디", "유즈맵", "근현대사", "sk플래닛",
+"롤모델", "까페", "카카오톡", "트리거", "웹디자인",
+"메리트", "컴애니", "아랑", "논작문", "한국은행", "한국",
+"문화콘텐츠학과", "ux디자인", "3d모델링", "3d애니메이션",
+"2학기", "1학기", "강민성", "권영일", "금감원", "면접관",
+"아주대", "아프리카tv", "업데이트", "엔씨소프트", "중국",
+"트랜드", "트라우마", "페르소나", "펜티엄4", "컨텐츠",
+"컴퓨터공학"
+), c("ncn")))
+result_nouns <- sapply(result.text, exNouns)
+myCorpus <- Corpus(VectorSource(result_nouns))
+myCorpus <- tm_map(myCorpus, removePunctuation)
+#myCorpus <- tm_map(myCorpus, removeNumbers)
+myCorpus <- tm_map(myCorpus, tolower)
+myStopwords <- c(stopwords('english'), "rt")
+myCorpus <-tm_map(myCorpus, removeWords, myStopwords)
+inspect(myCorpus[1:2])
+myTdm2 <- TermDocumentMatrix(myCorpus, control=list(wordLengths=c(2,Inf)))
+myTdm1 <- TermDocumentMatrix(myCorpus, control=list(wordLengths=c(1,Inf)))
+mat2 <- as.data.frame(as.matrix(myTdm2))
+mat1 <- as.data.frame(as.matrix(myTdm1))
+write.table(mat2, file="_selfintro_2.txt", col.names=FALSE, row.names=TRUE,sep="\t")
+write.table(mat1, file="_selfintro_1.txt", col.names=FALSE, row.names=TRUE,sep="\t")
+myTdm <- myTdm2
+pal <- brewer.pal(8,"Dark2")
+# 폰트 세팅. 띄어쓰기나 대소문자에 민감하다는 점에 주의
+# 맑은고딕 : windowsFonts(malgun=windowsFont("맑은 고딕"))
+# 나눔고딕 : windowsFonts(malgun=windowsFont("나눔고딕"))
+windowsFonts(malgun=windowsFont("맑은 고딕"))
+m <- as.matrix(myTdm)
+# calculate the frequency of words
+v <- sort(rowSums(m), decreasing=TRUE)
+myNames <- names(v)
+k <- which(names(v)=="apple")
+myNames[k] <- "apple"
+d <- data.frame(word=myNames, freq=v)
+#wordcloud(d$word, d$freq, scale=c(4,0.5), min.freq=3, random.order=F, rot.per=.1, family="malgun")
+#dev.copy(png,"2000s-1.png",width=8,height=6,units="in",res=200)
+wordcloud(d$word, d$freq, scale=c(7,0.8), min.freq=5, random.order=F, rot.per=.1, colors=pal, family="malgun")
+#dev.off()
+</code>
+<file _selfintro_2.txt>....
+"사회생활"	0	0	0
+"사회조사"	0	0	0
+"산업"	0	0	0	0
+"산업체"	0	0	0
+"산업현장"	0	0	0
+"살다보면"	0	0	0
+"삼성"	0	0	0	0
+"삼수"	0	0	0	0
+"상과"	0	0	0	0
+"상관"	0	0	0	0
+"상담"	0	0	0	0
+"상당"	0	0	0	0
+"상대"	0	0	0	0
+"상반기"	0	0	0
+"상상"	0	0	0	0
+"상승"	0	0	0	0
+....
+</code>
+위의 "_selfintro2.txt"의 데이터는 2원형 네트워크 데이터. 이를 1원형 (one mode) 데이터로 바꾸어서
+A * A' = word
+A' * A = stu
+| ID  | Closeness  |   | ID  | Between  |
+| 생각  | 709  |   | 생각  | 4068.727539  |
+| 사람  | 741  |   | 사람  | 3520.935547  |
+| 공부  | 766  |   | 때문  | 2975.012207  |
+| 때문  | 769  |   | 공부  | 2765.611328  |
+| 미디어  | 782  |   | 미디어  | 2536.563477  |
+| 무엇  | 790  |   | 경험  | 2442.683105  |
+| 친구  | 791  |   | 무엇  | 2437.910889  |
+| 학교  | 793  |   | 친구  | 2397.949707  |
+| 노력  | 801  |   | 학교  | 2293.954102  |
+| 경험  | 807  |   | 시간  | 2261.215332  |
+| 가지  | 808  |   | 하나  | 2235.005615  |
+| 하나  | 810  |   | 노력  | 2173.113525  |
+| 진로  | 810  |   | 회사  | 2071.688965  |
+| 시간  | 811  |   | 하게  | 2067.597168  |
+| 목표  | 813  |   | 학과  | 2017.449585  |
+| 학과  | 818  |   | 가지  | 2003.810913  |
+| 관심  | 823  |   | 전공  | 1912.859863  |
+| 학년  | 836  |   | 학년  | 1884.869141  |
+| 하게  | 837  |   | 목표  | 1858.271973  |
+| 사람들  | 838  |   | 진로  | 1845.607422  |
+| 하기  | 843  |   | 관심  | 1844.644287  |
+| 전공  | 844  |   | 자신  | 1813.806152  |
+| 자신  | 851  |   | 사람들  | 1795.295898  |
+| 회사  | 861  |   | 들이  | 1760.436035  |
+| 졸업  | 863  |   | 졸업  | 1624.194702  |
+| 수업  | 871  |   | 하기  | 1596.176147  |
+| 들이  | 872  |   | 중요  | 1579.659302  |
+| 중요  | 874  |   | 시작  | 1484.738647  |
 [{{self_desc_female.png?500|Female students}}]  \\
 [{{self_desc_male.png?500|Male students}}] \\
@@ Line 475: / Line 621: @@
 학생들의 self-storytelling에서 사용된 단어
-{{w2_w2_ov0.jpg?900}}
+[{{ w2_w2_ov0.jpg?900|학생들 간에 사용된 단어들 간의 관계, > 0 }}] \\
-{{w2_w2_ov9.jpg?900}}
+[{{ w2_w2_ov9.jpg?900|학생들 간에 사용된 단어들 간의 관계, > 9 }}] \\
+<WRAP clear>
+</WRAP>
+===== CONCOR를 이용한 구조적 등가 그룹추출 =====
+stu matrix data 를 이용하여 구조적 등가 그룹추출
+CONCOR, MDS, Johnson's Hierarchical Clustering, etc.
+위의 직업데이터와 마찬가지로 CONCOR를 이용
+| i201421859  | 1  |
+| i201421093  | 2  |
+| i201421085  | 3  |
+| i201421051  | 4  |
+| i201421033  | 4  |
+| i201421032  | 3  |
+| i201321717  | 5  |
+| i201321710  | 4  |
+| i201321134  | 3  |
+| i201321122  | 5  |
+| i201321071  | 6  |
+| i201221119  | 6  |
+| i201221105  | 2  |
+| i201221060  | 3  |
+| i201221056  | 1  |
+| i201122109  | 5  |
+| i201121069  | 4  |
+| i201121046  | 1  |
+| i201121041  | 2  |
+| i201121040  | 4  |
+| i201121017  | 3  |
+| i201121010  | 3  |
+| i201021214  | 3  |
+| i201021193  | 6  |
+| i201021184  | 4  |
+| i201021178  | 5  |
+| i201021162  | 6  |
+| i201021146  | 6  |
+| i201021060  | 6  |
+| i200921281  | 4  |
+| i200821360  | 1  |
+| i200821395  | 2  |
+| i200921260  | 6  |
+| i200921296  | 4  |
+| i201020302  | 5  |
+| i201021174  | 1  |
+| i201021235  | 5  |
+| i201022541  | 2  |
+| i201121042  | 5  |
+| i201121076  | 2  |
+| i201121102  | 1  |
+| i201220948  | 4  |
+| i201221051  | 3  |
+| i201221054  | 4  |
+| i201221055  | 4  |
+| i201221058  | 5  |
+| i201221062  | 2  |
+| i201221112  | 4  |
+| i201221144  | 4  |
+| i201221653  | 2  |
+| i201321049  | 3  |
+| i201321106  | 4  |
+| i201321136  | 5  |
+| i201421076  | 5  |
+| i201421083  | 4  |
+| i201421085  | 3  |
+| i201421106  | 6  |
+| i201421114  | 2  |
+| i201421117  | 5  |
+| ANOVA  |   |   |   |   |   |   |
+|   |   | Sum of Squares  | df  | Mean Square  | F  | Sig.  |
+| Openness to experience  | Between Groups  | 1.464  | 3  | .488  | .475  | .701  |
+|   | Within Groups  | 56.536  | 55  | 1.028  |   |   |
+|   | Total  | 58.000  | 58  |   |   |   |
+| Neuroticism  | Between Groups  | 1.279  | 3  | .426  | .414  | .744  |
+|   | Within Groups  | 56.721  | 55  | 1.031  |   |   |
+|   | Total  | 58.000  | 58  |   |   |   |
+| Conscientiousness  | Between Groups  | .718  | 3  | .239  | .230  | .875  |
+|   | Within Groups  | 57.282  | 55  | 1.041  |   |   |
+|   | Total  | 58.000  | 58  |   |   |   |
+| Agreeableness  | Between Groups  | 2.021  | 3  | .674  | .662  | .579  |
+|   | Within Groups  | 55.979  | 55  | 1.018  |   |   |
+|   | Total  | 58.000  | 58  |   |   |   |
+| Extraversion  | Between Groups  | 3.273  | 3  | 1.091  | 1.096  | .358  |
+|   | Within Groups  | 54.727  | 55  | .995  |   |   |
+|   | Total  | 58.000  | 58  |   |   |   |