User Tools

Site Tools


b:head_first_statistics:visualization

정보의 시각화: 첫인상

Charts

what.is.stats.jpg

  • 모은 데이터를 분석하는 한 방법
  • 상황을 파악하고 결론을 내려 결정을 (decision making) 할 수 있도록 한다.
  • 그러나, 데이터의 시각화에는 많은 허점이 따른다.

mis.presentation.vis.jpg
what.is.wrong.vis.jpg

  • the same data
  • different axis

Pie Chart

good.pie.chart.jpg

Good to go with

  • frequency data for categories which should add up to 100 percent

—-
Better
better.pie.chart.jpg

  • side note for actual numbers and
  • table

—-
Bad
bad.pie.chart.jpg

  • 각 게임 장르별 사용자의 만족도 퍼센티지를 모아 놓은 파이차트는 유용하지 않다.

Bar chart

good.bar.chart.jpg

  • region 별 sales
  • 대륙 별 sales
  • 분기 별 수익률
  • 카테고리화한 종류 별 숫자기록 (일반화)

  • 장르 별 만족도
  • (우리 회사) 부서별 성취도

Histogram

ser freq
1 100
2 88
3 159
4 201
5 250
6 250
7 254
8 288
9 356
10 380
11 430
12 450
13 433
14 543
15 540
16 570
17 450
18 433
19 543
20 690
21 640
22 720
23 777
24 720
25 880
26 900

Excel에서의 histogram

Bin Frequency
199 3
399 7
599 9
799 5
999 2

in R . . . .

dat <- c(100, 88, 159, 201, 250, 250, 254, 288, 356, 380, 
         430, 450, 433, 543, 540, 570, 450, 433, 543, 690, 
         640, 720, 777, 720, 880, 900)
dat
hist(dat)
hist(dat, breaks=5)

Scatter plot

hist(mtcars$hp)

                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
Merc 230            22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
Merc 280            19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
Merc 280C           17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
Porsche 914-2       26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Lotus Europa        30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
Ferrari Dino        19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Volvo 142E          21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2

# Simple Scatterplot
attach(mtcars)
plot(wt, mpg, main="Scatterplot Example",
   xlab="Car Weight ", ylab="Miles Per Gallon ", 
   pch=19)

explanatory (설명) variable at x axis
response (반응) at y axis

But, it does mean no causal relationship between the two variables. Association between two does not guarantee a causal relationship.

Drawing a line among the data.

# Add fit lines
abline(lm(mpg~wt), col="red") # regression line (y~x)
lines(lowess(wt,mpg), col="blue") # lowess line (x,y)

A bit more fancy line

# Enhanced Scatterplot of MPG vs. Weight
# by Number of Car Cylinders
library(car)
scatterplot(mpg ~ wt | cyl, data=mtcars,
   xlab="Weight of Car", ylab="Miles Per Gallon",
   main="Enhanced Scatter Plot",
   labels=row.names(mtcars))

Line can be:

관계의 방향 (direction)

관계의 방향

관계의 모양 (shape)

관계의 모양

관계의 정도 (힘)

관계의 정도 (힘)
Figure_4-1
Figure 4-2
Figure_4-3
Figure 4-4

Pearson's r 의 의미
Relations, not cause-effect

Figure 6. Correlation And Causation

상관관계 계수는 단순히 두 변인 (x, y) 간의 관계가 있다는 것을 알려줄 뿐, 왜 그 관계가 있는지는 설명하지 않는다. 바꿔 말하면, 충분한 r 값을 구했다고 해서 이 값이 두 변인 간의 '원인'과 '결과'의 관계를 말한다고 이야기 하면 안된다. 예를 들면 아이스크림의 판매량과 성범죄가 서로 상관관계에 있다고 해서, 전자가 후자의 원인이라고 단정할 수 있는 근거는 없다. 이는 연구자의 논리적인 판단 혹은 이론적인 판단에 따른다.

Interpretation with limited range

Figure_7._Correlation_And_Range
Figure_7._Correlation_And_Range

데이터의 Range에 대한 판단에 신중해야 한다. 왜냐 하면, 데이터의 어느 곳을 자르느냐에 따라서 r 값이 심하게 변하기 때문이다.

Outliers

Figure_7._Correlation_And_Extreme_Data
Figure_7._Correlation_And_Extreme_Data

위의 설명과 관련하여, 만약에 아주 심한 Outlier가 존재한다면 두 변인 간의 상관관계에 심한 영향을 준다.

make it sure that there is no data entry error.
r.crime.scatterplot.for.single.by.state.jpg

see
https://www.gapminder.org/answers/how-does-income-relate-to-life-expectancy/

le <- as.data.frame(read.csv("http://commres.net/wiki/_media/life.exp.csv", header=T))
colnames(le)[1] <- "c.code" # not really necessary. But, sometimes imported first characters are broken.
lea <- le$X2017
leb <- lea[complete.cases(lea)]
hist(leb, color="grey")
Life expectancy in 2017

.

Distribution of temperature

.

skewness

.

modality

.
box plot

# Boxplot of MPG by Car Cylinders
boxplot(mpg~cyl,data=mtcars, 
    main="Car Milage Data",
    xlab="Number of Cylinders",
    ylab="Miles Per Gallon")

b/head_first_statistics/visualization.txt · Last modified: 2023/09/11 08:11 by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki