b:head_first_statistics:geometric_binomial_and_poisson_distributions
Differences
This shows you the differences between two versions of the page.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| b:head_first_statistics:geometric_binomial_and_poisson_distributions [2023/10/18 14:37] – [From a scratch (Proof of Binomial Expected Value)] hkimscil | b:head_first_statistics:geometric_binomial_and_poisson_distributions [2025/10/15 08:31] (current) – [e.g.,] hkimscil | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ====== Geometric Binomial and Poisson Distributions ====== | ====== Geometric Binomial and Poisson Distributions ====== | ||
| + | 정리 | ||
| + | 기하분포, | ||
| + | \begin{align*} | ||
| + | \text{Geometric Distribution: | ||
| + | p(X = k) & = q^{k-1} \cdot p \\ | ||
| + | E\left[ X \right] & = \frac{1}{p} \\ | ||
| + | V\left[ X \right] & = \frac{q}{p^2} \\ | ||
| + | \\ | ||
| + | \text{Binomial Distribution: | ||
| + | p(X = r) & = \binom{n}{r} \cdot p^{r} \cdot q^{n-r} \\ | ||
| + | E\left[ X \right] & = {n}{p} \\ | ||
| + | V\left[ X \right] & = {n}{p}{q} \\ | ||
| + | \\ | ||
| + | \text{Poisson Distribution: | ||
| + | P(X=r) & = e^{- \lambda} \cdot \dfrac{\lambda^{r}} {r!} \\ | ||
| + | E\left[ X \right] & = \lambda \\ | ||
| + | V\left[ X \right] & = \lambda \\ | ||
| + | \end{align*} | ||
| + | |||
| ===== Geometric Distributions ===== | ===== Geometric Distributions ===== | ||
| Line 27: | Line 46: | ||
| | X | P(X=x) | | X | P(X=x) | ||
| - | | 1 | 0.2 | 0 | 1 | | + | | 1 | 0.8< |
| - | | 2 | 0.8 * 0.2 | 1 | 1 | | + | | 2 | 0.8< |
| | 3 | 0.8< | | 3 | 0.8< | ||
| | 4 | 0.8< | | 4 | 0.8< | ||
| Line 39: | Line 58: | ||
| This formula is called the **geometric distribution**. | This formula is called the **geometric distribution**. | ||
| - | | + | |
| - | | + | |
| - | | + | |
| - | order to get the first successful outcome. | + | |
| $ P(X=r) = {p \cdot q^{r-1}} $ | $ P(X=r) = {p \cdot q^{r-1}} $ | ||
| Line 55: | Line 73: | ||
| ## rather than p * q^(r-1) | ## rather than p * q^(r-1) | ||
| dgeom(x = 0:n, prob = p) | dgeom(x = 0:n, prob = p) | ||
| - | hist(dgeom(x = 0:n, prob = p)) | + | # hist(dgeom(x = 0:n, prob = p)) |
| + | barplot(dgeom(x=0: | ||
| </ | </ | ||
| Line 69: | Line 88: | ||
| [29] 0.0003868563 0.0003094850 | [29] 0.0003868563 0.0003094850 | ||
| > | > | ||
| - | > hist(dgeom(x = 0:n, prob = p)) | + | > # hist(dgeom(x = 0:n, prob = p)) |
| + | > barplot(dgeom(x=0: | ||
| </ | </ | ||
| - | {{: | + | < |
| - | + | {{: | |
| - | r번 시도한 | + | r번 시도한 |
| - | 첫 번째 성공을 얻을 때까지 r번 이상 시도를 해야하는 | + | |
| $$ P(X > r) = q^{r} $$ | $$ P(X > r) = q^{r} $$ | ||
| - | 20번 시도 후에 어디선가 성공할 확률은? | + | 예, 20번 시도 후에 어디선가 성공할 확률은? |
| Solution. | Solution. | ||
| Line 84: | Line 103: | ||
| * 위는 구할 수 없음 | * 위는 구할 수 없음 | ||
| * 따라서 | * 따라서 | ||
| + | * 전체 확률이 1이고 20번째까지 성공한 확률을 1에서 빼면 원하는 확률이 됨 | ||
| * 1 - (1번째 성공 + 2번째 성공 + . . . + 20번째 성공) | * 1 - (1번째 성공 + 2번째 성공 + . . . + 20번째 성공) | ||
| * 그런데 이것은 | * 그런데 이것은 | ||
| Line 92: | Line 112: | ||
| n <- 19 | n <- 19 | ||
| s <- dgeom(x = 0:n, prob = p) | s <- dgeom(x = 0:n, prob = p) | ||
| - | # 20번째까지 성공할 확률 | + | # 20번째까지 성공할 |
| sum(s) | sum(s) | ||
| - | # 따라서 아래는 20번 이후에 성공할 확률 | + | # 따라서 아래는 20번 이후 |
| 1-sum(s) | 1-sum(s) | ||
| ## 혹은 (교재가 이야기하는) 20번까지 실패하는 확률 | ## 혹은 (교재가 이야기하는) 20번까지 실패하는 확률 | ||
| Line 108: | Line 128: | ||
| > sum(s) | > sum(s) | ||
| [1] 0.9884708 | [1] 0.9884708 | ||
| - | > # 따라서 아래는 20번 이후에 성공할 확률 | + | > # 따라서 아래는 20번 이후 |
| > 1-sum(s) | > 1-sum(s) | ||
| [1] 0.01152922 | [1] 0.01152922 | ||
| Line 151: | Line 171: | ||
| | | | | ||
| + | * 우리가 작업하고 있는 채드의 슬로프 타기 예가 얼른 이해가 안된다면 아래 workout의 예를 들어 본다. | ||
| + | ^ x ^ p(x) px ^ npx.0 | ||
| + | | 0 | 0.1 | 0 * 0.1 | 0.00 | 0.00 | 0.00 | | | ||
| + | | 1 | 0.15 | 1 * 0.15 | 0.15 | 0.00 + 0.15 | 0.15 | | | ||
| + | | 2 | 0.4 | 2 * 0.4 | 0.80 | 0.00 + 0.15 + 0.80 | 0.95 | | | ||
| + | | 3 | 0.25 | 3 * 0.25 | 0.75 | 0.00 + 0.15 + 0.80 + 0.75 | 1.7 | | | ||
| + | | 4 | 0.1 | 4 * 0.1 | 0.40 | 0.00 + 0.15 + 0.80 + 0.75 + 0.40 | 2.1 | = this is E(x) | | ||
| + | |||
| + | * x 일주일에 내가 갈 운동횟수 (workout frequency, 0 to 4) | ||
| + | * px 각 횟수에 대한 probability | ||
| + | * npx weighted probability | ||
| + | * plex cumulative sum of npx (to find out the below last one) | ||
| + | * sum of npx = 2.1 = mean of all = expected value of x = E(x) | ||
| + | * https:// | ||
| < | < | ||
| Line 197: | Line 231: | ||
| > | > | ||
| </ | </ | ||
| + | |||
| + | * 아래의 예는 위의 workout 예처럼 횟수가 0-4로 정해져 있지 않고 계속 진행됨 (0-무한대) | ||
| + | * 하지만 여기서는 100 까지로 한정 (1:100) | ||
| + | * 각 지점에서의 probability = geometric probability = q^(trial-1)*p = px | ||
| + | * 각 지점에서의 weighted prob = trial * px = npx | ||
| + | * 각 단계에서의 기대값을 구하기 위한 누적합계 cumsum(npx) = plex | ||
| + | * 아래 그림에서 plex는 각 단계의 probability density를 더해온 값을 말한다. | ||
| + | * 그림이 암시하는 것처럼 오른 쪽으로 한 없이 가면서 생기는 그래프의 용적은 기대값이 된다. | ||
| + | |||
| + | | {{: | ||
| + | | {{: | ||
| + | | {{: | ||
| < | < | ||
| + | p <- .2 | ||
| + | q <- 1-p | ||
| + | trial <- c(1:100) | ||
| + | px <- q^(trial-1)*p | ||
| + | px | ||
| + | npx <- trial*px | ||
| + | npx | ||
| + | ## plex <- cumsum(trial*(q^(trial-1))*p) | ||
| + | ## 위는 아래와 같음 | ||
| + | plex <- cumsum(npx) | ||
| + | plex | ||
| + | sumgeod <- data.frame(trial, | ||
| + | sumgeod | ||
| + | |||
| + | plot(npx, type=" | ||
| + | plot(plex, type=" | ||
| + | </ | ||
| + | |||
| + | < | ||
| + | > | ||
| > p <- .2 | > p <- .2 | ||
| > q <- 1-p | > q <- 1-p | ||
| > trial <- c(1:100) | > trial <- c(1:100) | ||
| > px <- q^(trial-1)*p | > px <- q^(trial-1)*p | ||
| - | > round(px, 3) | + | > px |
| - | [1] 0.200 0.160 0.128 0.102 0.082 0.066 0.052 0.042 0.034 0.027 0.021 0.017 | + | [1] 2.000000e-01 1.600000e-01 1.280000e-01 1.024000e-01 |
| - | | + | [5] 8.192000e-02 6.553600e-02 5.242880e-02 4.194304e-02 |
| - | | + | [9] 3.355443e-02 2.684355e-02 2.147484e-02 1.717987e-02 |
| - | | + | |
| - | | + | [17] 5.629500e-03 4.503600e-03 3.602880e-03 2.882304e-03 |
| - | | + | [21] 2.305843e-03 1.844674e-03 1.475740e-03 1.180592e-03 |
| - | | + | |
| - | | + | [29] 3.868563e-04 3.094850e-04 2.475880e-04 1.980704e-04 |
| - | | + | [33] 1.584563e-04 1.267651e-04 1.014120e-04 8.112964e-05 |
| - | > npx <- trial*(q^(trial-1))*p | + | |
| - | > round(npx, 3) | + | [41] 2.658456e-05 2.126765e-05 1.701412e-05 1.361129e-05 |
| - | [1] 0.200 0.320 0.384 0.410 0.410 0.393 0.367 0.336 0.302 0.268 0.236 0.206 | + | [45] 1.088904e-05 8.711229e-06 6.968983e-06 5.575186e-06 |
| - | | + | |
| - | | + | [53] 1.826877e-06 1.461502e-06 1.169201e-06 9.353610e-07 |
| - | | + | [57] 7.482888e-07 5.986311e-07 4.789049e-07 3.831239e-07 |
| - | | + | |
| - | | + | [65] 1.255420e-07 1.004336e-07 8.034690e-08 6.427752e-08 |
| - | | + | [69] 5.142202e-08 4.113761e-08 3.291009e-08 2.632807e-08 |
| - | | + | |
| - | | + | [77] 8.627183e-09 6.901746e-09 5.521397e-09 4.417118e-09 |
| - | > plex <- cumsum(trial*(q^(trial-1))*p) | + | [81] 3.533694e-09 2.826955e-09 2.261564e-09 1.809251e-09 |
| - | > round(plex, 3) | + | |
| - | [1] 0.200 0.520 0.904 1.314 1.723 2.116 2.483 2.819 3.121 3.389 3.626 3.832 | + | [89] 5.928555e-10 4.742844e-10 3.794275e-10 3.035420e-10 |
| - | [13] 4.010 4.164 4.296 4.409 4.505 4.586 4.654 4.712 4.760 4.801 4.835 4.863 | + | [93] 2.428336e-10 1.942669e-10 1.554135e-10 1.243308e-10 |
| - | [25] 4.887 4.906 4.923 4.936 4.947 4.957 4.964 4.971 4.976 4.980 4.984 4.987 | + | |
| - | [37] 4.989 4.991 4.993 4.994 4.995 4.996 4.997 4.997 4.998 4.998 4.999 4.999 | + | > npx <- trial*px |
| - | [49] 4.999 4.999 4.999 4.999 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 | + | > npx |
| - | [61] 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 | + | [1] 2.000000e-01 3.200000e-01 3.840000e-01 4.096000e-01 |
| - | [73] 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 | + | [5] 4.096000e-01 3.932160e-01 3.670016e-01 3.355443e-01 |
| - | [85] 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 5.000 | + | [9] 3.019899e-01 2.684355e-01 2.362232e-01 2.061584e-01 |
| - | [97] 5.000 5.000 5.000 5.000 | + | |
| + | [17] 9.570149e-02 8.106479e-02 6.845471e-02 5.764608e-02 | ||
| + | [21] 4.842270e-02 4.058284e-02 3.394201e-02 2.833420e-02 | ||
| + | | ||
| + | [29] 1.121883e-02 9.284550e-03 7.675228e-03 6.338253e-03 | ||
| + | [33] 5.229059e-03 4.310012e-03 3.549422e-03 2.920667e-03 | ||
| + | | ||
| + | [41] 1.089967e-03 8.932412e-04 7.316071e-04 5.988970e-04 | ||
| + | [45] 4.900066e-04 4.007165e-04 3.275422e-04 2.676089e-04 | ||
| + | | ||
| + | [53] 9.682448e-05 7.892109e-05 6.430607e-05 5.238022e-05 | ||
| + | [57] 4.265246e-05 3.472060e-05 2.825539e-05 2.298743e-05 | ||
| + | | ||
| + | [65] 8.160232e-06 6.628619e-06 5.383242e-06 4.370871e-06 | ||
| + | [69] 3.548119e-06 2.879633e-06 2.336616e-06 1.895621e-06 | ||
| + | | ||
| + | [77] 6.642931e-07 5.383362e-07 4.361904e-07 3.533694e-07 | ||
| + | [81] 2.862292e-07 2.318103e-07 1.877098e-07 1.519771e-07 | ||
| + | | ||
| + | [89] 5.276414e-08 4.268560e-08 3.452790e-08 2.792587e-08 | ||
| + | [93] 2.258353e-08 1.826109e-08 1.476428e-08 1.193576e-08 | ||
| + | | ||
| + | > ## plex <- cumsum(trial*(q^(trial-1))*p) | ||
| + | > ## 위는 아래와 같음 | ||
| + | > plex <- cumsum(npx) | ||
| + | > plex | ||
| + | [1] 0.200000 | ||
| + | [8] 2.818962 | ||
| + | [15] 4.296313 | ||
| + | [22] 4.800775 4.834717 | ||
| + | [29] 4.947388 | ||
| + | | ||
| + | [43] 4.996733 | ||
| + | | ||
| + | [57] 4.999814 | ||
| + | [64] 4.999957 4.999965 4.999971 4.999977 4.999981 4.999985 4.999988 | ||
| + | [71] 4.999990 4.999992 4.999993 4.999995 4.999996 4.999997 4.999997 | ||
| + | [78] 4.999998 4.999998 4.999998 4.999999 4.999999 4.999999 4.999999 | ||
| + | [85] 4.999999 | ||
| + | [92] 5.000000 | ||
| + | [99] 5.000000 5.000000 | ||
| > sumgeod <- data.frame(trial, | > sumgeod <- data.frame(trial, | ||
| - | > round(sumgeod,3) | + | > sumgeod |
| - | trial px | + | trial |
| - | 1 | + | 1 |
| - | 2 | + | 2 |
| - | 3 | + | 3 |
| - | 4 | + | 4 |
| - | 5 | + | 5 |
| - | 6 | + | 6 |
| - | 7 | + | 7 |
| - | 8 | + | 8 |
| - | 9 | + | 9 |
| - | 10 | + | 10 |
| - | 11 | + | 11 |
| - | 12 | + | 12 |
| - | 13 | + | 13 |
| - | 14 | + | 14 |
| - | 15 | + | 15 |
| - | 16 | + | 16 |
| - | 17 | + | 17 |
| - | 18 | + | 18 |
| - | 19 | + | 19 |
| - | 20 | + | 20 |
| - | 21 | + | 21 |
| - | 22 | + | 22 |
| - | 23 | + | 23 |
| - | 24 | + | 24 |
| - | 25 | + | 25 |
| - | 26 | + | 26 |
| - | 27 | + | 27 |
| - | 28 | + | 28 |
| - | 29 | + | 29 |
| - | 30 | + | 30 |
| - | 31 | + | 31 |
| - | 32 | + | 32 |
| - | 33 | + | 33 |
| - | 34 | + | 34 |
| - | 35 | + | 35 |
| - | 36 | + | 36 |
| - | 37 | + | 37 |
| - | 38 | + | 38 |
| - | 39 | + | 39 |
| - | 40 | + | 40 |
| - | 41 | + | 41 |
| - | 42 | + | 42 |
| - | 43 | + | 43 |
| - | 44 | + | 44 |
| - | 45 | + | 45 |
| - | 46 | + | 46 |
| - | 47 | + | 47 |
| - | 48 | + | 48 |
| - | 49 | + | 49 |
| - | 50 | + | 50 |
| - | 51 | + | 51 |
| - | 52 | + | 52 |
| - | 53 | + | 53 |
| - | 54 | + | 54 |
| - | 55 | + | 55 |
| - | 56 | + | 56 |
| - | 57 | + | 57 |
| - | 58 | + | 58 |
| - | 59 | + | 59 |
| - | 60 | + | 60 |
| - | 61 | + | 61 |
| - | 62 | + | 62 |
| - | 63 | + | 63 |
| - | 64 | + | 64 |
| - | 65 | + | 65 |
| - | 66 | + | 66 |
| - | 67 | + | 67 |
| - | 68 | + | 68 |
| - | 69 | + | 69 |
| - | 70 | + | 70 |
| - | 71 | + | 71 |
| - | 72 | + | 72 |
| - | 73 | + | 73 |
| - | 74 | + | 74 |
| - | 75 | + | 75 |
| - | 76 | + | 76 |
| - | 77 | + | 77 |
| - | 78 | + | 78 |
| - | 79 | + | 79 |
| - | 80 | + | 80 |
| - | 81 | + | 81 |
| - | 82 | + | 82 |
| - | 83 | + | 83 |
| - | 84 | + | 84 |
| - | 85 | + | 85 |
| - | 86 | + | 86 |
| - | 87 | + | 87 |
| - | 88 | + | 88 |
| - | 89 | + | 89 |
| - | 90 | + | 90 |
| - | 91 | + | 91 |
| - | 92 | + | 92 |
| - | 93 | + | 93 |
| - | 94 | + | 94 |
| - | 95 | + | 95 |
| - | 96 | + | 96 |
| - | 97 | + | 97 |
| - | 98 | + | 98 |
| - | 99 | + | 99 |
| - | 100 | + | 100 |
| > plot(npx, type=" | > plot(npx, type=" | ||
| > plot(plex, type=" | > plot(plex, type=" | ||
| </ | </ | ||
| + | |||
| + | * 기댓값이 86번째 부터는 더이상 늘지 않고 | ||
| + | * 계산된 값을 보면 5로 수렴한다. | ||
| + | * workout 예처럼 다섯가지의 순서가 있는 것이 아니라서 | ||
| + | * 평균을 어떻게 나오나 보기 위해서 100까지 해 봤지만 | ||
| + | * 86번째 이후에는 평균값이 더 늘지 않는다 (5에서) | ||
| + | * 따라서 위의 geometric distribution에서의 기대값은 5이다. | ||
| + | |||
| {{: | {{: | ||
| {{: | {{: | ||
| - | 위에서 $X \sim \text{Geo}(p)$ 일때, 기대값은 $E(X) = \displaystyle \frac{1}{p}$ | + | |
| + | * 그런데 이 기대값은 아래처럼 구할 수 있다. | ||
| + | * 위에서 $X \sim \text{Geo}(p)$ 일때, 기대값은 $E(X) = \dfrac{1}{p}$ | ||
| + | * 아래는 그 증명이다. | ||
| ===== Proof ===== | ===== Proof ===== | ||
| Line 584: | Line 701: | ||
| 일반적으로 | 일반적으로 | ||
| - | \begin{align} | + | \begin{eqnarray*} |
| Var(X) = \displaystyle \frac{q}{p^{2}} | Var(X) = \displaystyle \frac{q}{p^{2}} | ||
| - | \end{align} | + | \end{eqnarray*} |
| 아래는 이를 R에서 계산해 본 것 | 아래는 이를 R에서 계산해 본 것 | ||
| Line 602: | Line 719: | ||
| Var(X) & = \displaystyle \frac{q}{p^{2}} \\ | Var(X) & = \displaystyle \frac{q}{p^{2}} \\ | ||
| \end{align} | \end{align} | ||
| - | $(5)$, $(6)$에 대한 증명은 [[:Mean and Variance of Geometric Distribution]] | + | |
| + | ===== Proof of mean and variance of geometric distribution ===== | ||
| + | $(4)$, $(5)$에 대한 증명은 [[:Mean and Variance of Geometric Distribution]] | ||
| ===== e.g., ===== | ===== e.g., ===== | ||
| <WRAP box> | <WRAP box> | ||
| Line 620: | Line 739: | ||
| $Var(X) = \displaystyle \frac{q}{p^{2}}$ | $Var(X) = \displaystyle \frac{q}{p^{2}}$ | ||
| + | < | ||
| + | > p <- .4 | ||
| + | > q <- 1-p | ||
| + | > | ||
| + | > p*q^(2-1) | ||
| + | [1] 0.24 | ||
| + | > dgeom(1, p) | ||
| + | [1] 0.24 | ||
| + | > | ||
| + | > 1-q^4 | ||
| + | [1] 0.8704 | ||
| + | > dgeom(0:3, p) | ||
| + | [1] 0.4000 0.2400 0.1440 0.0864 | ||
| + | > sum(dgeom(0: | ||
| + | [1] 0.8704 | ||
| + | > pgeom(3, p) | ||
| + | [1] 0.8704 | ||
| + | > | ||
| + | > q^4 | ||
| + | [1] 0.1296 | ||
| + | > 1-sum(dgeom(0: | ||
| + | [1] 0.1296 | ||
| + | > 1-pgeom(3, p) | ||
| + | [1] 0.1296 | ||
| + | > pgeom(3, p, lower.tail = F) | ||
| + | [1] 0.1296 | ||
| + | > | ||
| + | > 1/p | ||
| + | [1] 2.5 | ||
| + | > | ||
| + | > q/p^2 | ||
| + | [1] 3.75 | ||
| + | > | ||
| + | </ | ||
| Line 629: | Line 781: | ||
| - n번의 (독립적인) 시행에서 사건 A가 발생할 때의 확률 분포를 | - n번의 (독립적인) 시행에서 사건 A가 발생할 때의 확률 분포를 | ||
| - **이항확률분포**라고 한다. | - **이항확률분포**라고 한다. | ||
| + | 아래를 보면 | ||
| + | * 각 한문제를 맞힐 확률은 1/4, 틀릴 확률은 3/4 | ||
| + | * 3문제를 풀면서 (3번의 시행) 각 문제를 맞힐 확률 분포를 말한다. | ||
| {{: | {{: | ||
| Line 659: | Line 814: | ||
| $$P(X = r) = _{n}C_{r} \cdot p^{r} \cdot q^{n-r}$$ | $$P(X = r) = _{n}C_{r} \cdot p^{r} \cdot q^{n-r}$$ | ||
| - | - You’re running a series of independent trials. | + | - You’re running a series of independent trials. |
| - | - There can be either a success or failure for each trial, and the probability of success is the same for each trial. | + | - There can be either a success or failure for each trial, and the probability of success is the same for each trial. |
| - | - There are a finite number of trials. | + | - There are a finite number of trials. |
| X가 n번의 시행에서 성공적인 결과를 얻는 수를 나타낸다고 할 때, r번의 성공이 있을 확률을 구하려면 아래 공식을 이용한다. | X가 n번의 시행에서 성공적인 결과를 얻는 수를 나타낸다고 할 때, r번의 성공이 있을 확률을 구하려면 아래 공식을 이용한다. | ||
| Line 667: | Line 822: | ||
| \begin{eqnarray*} | \begin{eqnarray*} | ||
| P(X = r) & = & _{n}C_{r} \cdot p^{r} \cdot q^{n-r} \;\;\; \text{Where, | P(X = r) & = & _{n}C_{r} \cdot p^{r} \cdot q^{n-r} \;\;\; \text{Where, | ||
| - | _{n}C_{r} & = & \frac {n!}{r!(n-r)!} | + | \displaystyle |
| + | \text{c.f., | ||
| + | \displaystyle _{n} P_{r} & = & \displaystyle \dfrac {n!} {(n-r)!} \\ | ||
| \end{eqnarray*} | \end{eqnarray*} | ||
| + | |||
| + | see [[: | ||
| + | |||
| p = 각 시행에서 성공할 확률 | p = 각 시행에서 성공할 확률 | ||
| Line 677: | Line 837: | ||
| ===== Expectation and Variance of ===== | ===== Expectation and Variance of ===== | ||
| + | Toss a fair coin once. What is the distribution of the number of heads? | ||
| + | * A single trial | ||
| + | * The trial can be one of two possible outcomes -- success and failure | ||
| + | * P(success) = p | ||
| + | * P(failure) = 1-p | ||
| + | |||
| + | X = 0, 1 (failure and success) | ||
| + | $P(X=x) = p^{x}(1-p)^{1-x}$ or | ||
| + | $P(x) = p^{x}(1-p)^{1-x}$ | ||
| + | |||
| + | 참고. | ||
| + | | x | 0 | 1 | | ||
| + | | p(x) | q = (1-p) | p | | ||
| + | |||
| + | When x = 0 (failure), $P(X = 0) = p^{0}(1-p)^{1-0} = (1-p)$ = Probability of failure | ||
| + | When x = 1 (success), $P(X = 1) = p^{1}(1-p)^{0} = p $ = Probability of success | ||
| + | |||
| - | {{: | + | This is called Bernoulli distribution. |
| + | * Bernoulli distribution expands to binomial distribution, | ||
| + | * Binomial distribution = The distribution of number of success in n independent Bernoulli trials. | ||
| + | * Geometric distribution = The distribution of number of trials to get the first success in independent Bernoulli trials. | ||
| $$X \sim B(1,p)$$ | $$X \sim B(1,p)$$ | ||
| \begin{eqnarray*} | \begin{eqnarray*} | ||
| - | E(X) & = & \sum{n*p(x)} \\ | + | E(X) & = & \sum{x * p(x)} \\ |
| - | & = & (1*p)+(0*q) \\ | + | & = & (0*q) + (1*p) \\ |
| & = & p | & = & p | ||
| \end{eqnarray*} | \end{eqnarray*} | ||
| Line 735: | Line 915: | ||
| n <-5 | n <-5 | ||
| # combinations of 5,2 | # combinations of 5,2 | ||
| - | c <- choose(5,2) | + | c <- choose(n,r) |
| ans1 <- c*(p^r)*(q^(n-r)) | ans1 <- c*(p^r)*(q^(n-r)) | ||
| - | ans1 | + | ans1 # or |
| + | |||
| + | choose(n, r)*(p^r)*(q^(n-r)) | ||
| + | |||
| + | dbinom(r, n, p) | ||
| + | # dbinom(2, 5, 1/4) | ||
| </ | </ | ||
| + | |||
| < | < | ||
| > p <- .25 | > p <- .25 | ||
| Line 745: | Line 932: | ||
| > n <-5 | > n <-5 | ||
| > # combinations of 5,2 | > # combinations of 5,2 | ||
| - | > c <- choose(5,2) | + | > c <- choose(n,r) |
| > ans <- c*(p^r)*(q^(n-r)) | > ans <- c*(p^r)*(q^(n-r)) | ||
| > ans | > ans | ||
| + | [1] 0.2636719 | ||
| + | > | ||
| + | > choose(n, r)*(p^r)*(q^(n-r)) | ||
| + | [1] 0.2636719 | ||
| + | > | ||
| + | > dbinom(r, n, p) | ||
| [1] 0.2636719 | [1] 0.2636719 | ||
| > | > | ||
| Line 760: | Line 953: | ||
| n <-5 | n <-5 | ||
| # combinations of 5,3 | # combinations of 5,3 | ||
| - | c <- choose(5,3) | + | c <- choose(n,r) |
| ans2 <- c*(p^r)*(q^(n-r)) | ans2 <- c*(p^r)*(q^(n-r)) | ||
| ans2 | ans2 | ||
| + | |||
| + | choose(n, r)*(p^r)*(q^(n-r)) | ||
| + | |||
| + | dbinom(r, n, p) | ||
| + | |||
| </ | </ | ||
| < | < | ||
| Line 770: | Line 968: | ||
| > n <-5 | > n <-5 | ||
| > # combinations of 5,3 | > # combinations of 5,3 | ||
| - | > c <- choose(5,3) | + | > c <- choose(n,r) |
| > ans2 <- c*(p^r)*(q^(n-r)) | > ans2 <- c*(p^r)*(q^(n-r)) | ||
| > ans2 | > ans2 | ||
| [1] 0.08789062 | [1] 0.08789062 | ||
| + | > | ||
| + | > choose(n, | ||
| + | [1] 0.08789062 | ||
| + | > | ||
| + | > dbinom(r, n, p) | ||
| + | [1] 0.08789063 | ||
| + | > | ||
| > | > | ||
| </ | </ | ||
| - | Ans 3. | + | Ans 3. 중요 |
| < | < | ||
| - | ans1 + ans2 | + | ans1 + ans2 |
| + | dbinom(2, 5, .25) + dbinom(3, 5, .25) | ||
| + | dbinom(2:3, 5, .25) | ||
| + | sum(dbinom(2: | ||
| + | pbinom(3, 5, .25) - pbinom(1, 5, .25) | ||
| </ | </ | ||
| - | < | + | < |
| + | > ans1 + ans2 | ||
| [1] 0.3515625 | [1] 0.3515625 | ||
| + | > dbinom(2, 5, .25) + dbinom(3, 5, .25) | ||
| + | [1] 0.3515625 | ||
| + | > dbinom(2:3, 5, .25) | ||
| + | [1] 0.26367187 0.08789063 | ||
| + | > sum(dbinom(2: | ||
| + | [1] 0.3515625 | ||
| + | > pbinom(3, 5, .25) - pbinom(1, 5, .25) | ||
| + | [1] 0.3515625 | ||
| + | > | ||
| </ | </ | ||
| Line 839: | Line 1058: | ||
| > </ | > </ | ||
| - | ===== Another way to see E(X) and Var(X) ===== | + | Q. 한 문제를 맞힐 확률은 1/4 이다. 총 여섯 문제가 있다고 할 때, 0에서 5 문제를 맞힐 확률은? dbinom을 이용해서 구하시오. |
| - | ==== Bernoulli Distribution ==== | + | < |
| - | Toss a fair coin once. What is the distribution of the number of heads? | + | p <- 1/4 |
| - | * A single trial | + | q <- 1-p |
| - | * The trial can be one of two possible outcomes | + | n <- 6 |
| - | * P(success) = p | + | pbinom(5, n, p) |
| - | * P(failure) = 1-p | + | 1 - dbinom(6, n, p) |
| + | sum(dbinom(0: | ||
| + | </ | ||
| + | < | ||
| + | > p <- 1/4 | ||
| + | > q <- 1-p | ||
| + | > n <- 6 | ||
| + | > pbinom(5, n, p) | ||
| + | [1] 0.9997559 | ||
| + | > 1 - dbinom(6, n, p) | ||
| + | [1] 0.9997559 | ||
| + | > sum(dbinom(0: | ||
| + | [1] 0.9997559 | ||
| + | > | ||
| + | </ | ||
| - | X = 0, 1 (failure and success) | + | 중요 . . . . |
| - | $P(X=x) = p^{x}(1-p)^{1-x}$ or | + | < |
| - | $P(x) = p^{x}(1-p)^{1-x}$ | + | # http:// |
| + | # ################################################################## | ||
| + | # | ||
| + | p <- 1/4 | ||
| + | q <- 1 - p | ||
| + | n <- 5 | ||
| + | r <- 0 | ||
| + | all.dens <- dbinom(0:n, n, p) | ||
| + | all.dens | ||
| + | sum(all.dens) | ||
| - | 참고. | + | choose(5,0)*p^0*(q^(5-0)) |
| - | | x | 0 | + | choose(5,1)*p^1*(q^(5-1)) |
| - | | p(x) | + | choose(5, |
| + | choose(5, | ||
| + | choose(5, | ||
| + | choose(5, | ||
| + | all.dens | ||
| - | When x = 0 (failure), $P(X = 0) = p^{0}(1-p)^{1-0} = (1-p)$ = Probability of failure | + | choose(5,0)*p^0*(q^(5-0)) + |
| - | When x = 1 (success), $P(X = 1) = p^{1}(1-p)^{0} = p $ = Probability of success | + | choose(5,1)*p^1*(q^(5-1)) + |
| + | choose(5, | ||
| + | | ||
| + | choose(5,4)*p^4*(q^(5-4)) + | ||
| + | choose(5, | ||
| + | sum(all.dens) | ||
| + | # | ||
| + | (p+q)^n | ||
| + | # note that n = whatever, (p+q)^n = 1 | ||
| - | <WRAP box> | + | </code> |
| - | Bernoulli distribution expands to binomial distribution, | + | |
| - | Binomial distribution = The distribution of number of success in n independent Bernoulli trials. | + | |
| - | Geometric distribution = The distribution of number of trials to get the first success in independent Bernoulli trials. | + | |
| - | </WRAP> | + | |
| - | $P(X=x) = p^{x}(1-p)^{1-x}$ or | + | < |
| - | $P(x) = p^{x}(1-p)^{1-x}$ | + | > # http:// |
| - | X takes, x = 0, 1 | + | > # ################################################################## |
| - | + | > # | |
| - | ==== Expectation and Variance value ==== | + | > p <- 1/4 |
| - | \begin{eqnarray*} | + | > q <- 1 - p |
| - | E(X) & = & \sum_{x}xP(x) \\ | + | > n <- 5 |
| - | & = & 0*p^{0}(1-p)^{1-0} + 1*p^{1}(1-p)^{1-1} \\ | + | > r <- 0 |
| - | & = & p \\ | + | > all.dens <- dbinom(0:n, n, p) |
| - | \\ | + | > all.dens |
| - | Var(X) & = & E((X-\mu)^{2}) \\ | + | [1] 0.2373046875 0.3955078125 0.2636718750 0.0878906250 |
| - | & = & \sum_{x}(x-\mu)^2P(x) \\ | + | [5] 0.0146484375 0.0009765625 |
| - | \end{eqnarray*} | + | > sum(all.dens) |
| - | 그런데 | + | [1] 1 |
| - | \begin{eqnarray*} | + | > |
| - | E((X-\mu)^{2}) & = & E(X^2) - (E(X))^2 \\ | + | > choose(5,0)*p^0*(q^(5-0)) |
| - | \end{eqnarray*} | + | [1] 0.2373047 |
| - | + | > choose(5,1)*p^1*(q^(5-1)) | |
| - | 위에서 | + | [1] 0.3955078 |
| - | \begin{eqnarray*} | + | > choose(5,2)*p^2*(q^(5-2)) |
| - | E(X^{2}) & = & \sum x^2 p(x) \\ | + | [1] 0.2636719 |
| - | & = & 0^2*p^0(1-p)^{1-0} + 1^2*p^1(1-p)^{1-1} \\ | + | > choose(5,3)*p^3*(q^(5-3)) |
| - | & = & p | + | [1] 0.08789062 |
| - | \end{eqnarray*} | + | > choose(5, |
| - | + | [1] 0.01464844 | |
| - | zero squared probability of zero occurring | + | > choose(5,5)*p^5*(q^(5-5)) |
| - | one squared prob of one occurring | + | [1] 0.0009765625 |
| - | + | > all.dens | |
| - | 또한 $E(X) = p $ 임을 알고 있음 | + | [1] 0.2373046875 0.3955078125 0.2636718750 0.0878906250 |
| - | \begin{eqnarray*} | + | [5] 0.0146484375 0.0009765625 |
| - | Var(X) & = & E((X-\mu)^{2}) \\ | + | > |
| - | & = & E(X^2) - (E(X))^2 \\ | + | > choose(5,0)*p^0*(q^(5-0)) + |
| - | & = & p - p^2 \\ | + | + |
| - | & = & p(1-p) | + | + |
| - | \end{eqnarray*} | + | + |
| - | + | + | |
| - | 위는 First Head Statistics 에서 $X \sim (1, 0.25)$ 에서 E(X)와 Var(X)를 구한 후 (각각, p와 pq), X가 n가지가 있다고 확장하여 np와 npq를 구한 것과 같다. 즉, 교재는 Bernoulli distribution을 이야기(설명)하지 않고, 활용하여 binomial distribution의 기대값과 분산값을 구해낸 것이다. | + | + |
| - | + | [1] 1 | |
| - | ==== Proof of E and Var from Bernoulli Distribution ==== | + | > sum(all.dens) |
| - | + | [1] 1 | |
| - | $E(U_{i}) = p$ and $Var(U_{i}) = p(1-p)$ or $Var(U_{i}) = p \cdot q$ | + | > # |
| - | + | > (p+q)^n | |
| - | $$X = U_{1} + . . . . + U_{n}$$ | + | [1] 1 |
| - | \begin{eqnarray*} | + | > # note that n = whatever, |
| - | E(X) & = & E(U_{1} + . . . + U_{n}) \\ | + | > |
| - | & = & E(U_{1}) + . . . + E(U_{n}) \\ | + | </ |
| - | & = & p + . . . + p \\ | + | ===== Proof of Binomial Expected Value and Variance ===== |
| - | & = & np | + | [[:Mean and Variance of Binomial Distribution|이항분포에서의 기댓값과 분산에 대한 수학적 증명]], |
| - | \end{eqnarray*} | + | |
| - | + | ||
| - | \begin{eqnarray*} | + | |
| - | Var(X) & = & Var(U_{1} + . . . + U_{n}) \\ | + | |
| - | & = & Var(U_{1}) + . . . + Var(U_{n}) \\ | + | |
| - | & = & p(1-p) + . . . + p(1-p) \\ | + | |
| - | & = & np(1-p) \\ | + | |
| - | & = & npq | + | |
| - | \end{eqnarray*} | + | |
| - | + | ||
| - | + | ||
| - | ==== From a scratch (Proof of Binomial Expected Value) ==== | + | |
| - | [[:Mean and Variance of Binomial Distribution|Mathematical proof of Binomial Distribution Expected value and Variance]] | + | |
| ====== Poisson Distribution ====== | ====== Poisson Distribution ====== | ||
| $$X \sim Po(\lambda)$$ | $$X \sim Po(\lambda)$$ | ||
| Line 956: | Line 1193: | ||
| \end{eqnarray*} | \end{eqnarray*} | ||
| - | 왜 $e^{\lambda} = \left(1 + \lambda + \dfrac{\lambda^{2}}{2!} + \dfrac{\lambda^{3}}{3!} + . . . \right)$ 인지는 [[:Taylor series]] 문서를 참조. | + | 왜 $e^{\lambda} = \left(1 + \lambda + \dfrac{\lambda^{2}}{2!} + \dfrac{\lambda^{3}}{3!} + . . . \right)$ 인지는 [[:Taylor series]] 문서를 참조. |
| + | 이것이 의미하는 것은 r이 0에서 무한대로 갈 때의 확률값의 분포를 말하므로 전체 분포가 1이 됨을 의미한다. 아래 "What does the Poisson distribution look like?" 참조 | ||
| < | < | ||
| Line 967: | Line 1205: | ||
| 위의 그림은 lambda는 2, 즉 한달에 아주대학교 앞의 건널목 주변 찻길에서 교통사고가 날 횟수가 2회라고 할 때, X=3 이므로 3번 교통사고가 일어날 확률을 (P(X=3)) 묻는 문제이다. | 위의 그림은 lambda는 2, 즉 한달에 아주대학교 앞의 건널목 주변 찻길에서 교통사고가 날 횟수가 2회라고 할 때, X=3 이므로 3번 교통사고가 일어날 확률을 (P(X=3)) 묻는 문제이다. | ||
| \begin{eqnarray*} | \begin{eqnarray*} | ||
| - | P(X = 3) & = & \frac {e^{-2} * 2^{3}}{3!} \\ | + | P(X = 3) & = & e^{-2} * \frac {2^{3}}{3!} \\ |
| & = & 0.180 | & = & 0.180 | ||
| \end{eqnarray*} | \end{eqnarray*} | ||
| Line 1011: | Line 1249: | ||
| [{{: | [{{: | ||
| - | lambda가 클 수록 좌우대칭의 종형분포를 이루고 ((Figure 1)), 작을 수로 오른 쪽으로 편향된 (skewed to the right) 혹은 양의방향으로 편향된(positively skewed) 분포를 ((Figure 2)) 이룬다. | + | lambda가 클 수록 좌우대칭의 종형분포를 이루고 ((Figure 1)), 작을 수록 오른 쪽으로 편향된 (skewed to the right) 혹은 양의방향으로 편향된(positively skewed) 분포를 ((Figure 2)) 이룬다. |
| < | < | ||
| Line 1049: | Line 1287: | ||
| \begin{eqnarray*} | \begin{eqnarray*} | ||
| - | P(X=0) & = & \frac{e^{-3.4}*3.4^{0}} {0!} \\ | + | P(X=0) & = & e^{-3.4} * \frac{3.4^{0}} {0!} \\ |
| & = & e^{-3.4} \\ | & = & e^{-3.4} \\ | ||
| & = & 0.03337327 | & = & 0.03337327 | ||
| Line 1055: | Line 1293: | ||
| < | < | ||
| + | # R 에서 계산 | ||
| > e^(-3.4) | > e^(-3.4) | ||
| + | [1] 0.03337327 | ||
| + | > | ||
| + | # 혹은 | ||
| + | > dpois(0, 3.4) | ||
| [1] 0.03337327 | [1] 0.03337327 | ||
| > | > | ||
| </ | </ | ||
| + | |||
| + | 포아송 분포를 따르는 확률에서 아무것도 일어나지 않을 때의 확률은 e< | ||
| + | \begin{eqnarray*} | ||
| + | P(X=0) & = & e^{-5} * \frac{5^{0}} {0!} \\ | ||
| + | & = & e^{-5} \\ | ||
| + | & = & 0.006737947 | ||
| + | \end{eqnarray*} | ||
| + | < | ||
| + | > lamba <- 5 | ||
| + | > e <- exp(1) | ||
| + | > px.0 <- e^(-lamba) | ||
| + | > | ||
| + | > px.0 | ||
| + | [1] 0.006737947 | ||
| + | > | ||
| + | # or | ||
| + | > dpois(0,5) | ||
| + | [1] 0.006737947 | ||
| + | </ | ||
| + | |||
| + | |||
| __2. What’s the probability of the machine malfunctioning three times next week?__ | __2. What’s the probability of the machine malfunctioning three times next week?__ | ||
| Line 1143: | Line 1407: | ||
| **How did Kate find the probability so quickly, and avoid the error on her calculator? | **How did Kate find the probability so quickly, and avoid the error on her calculator? | ||
| </ | </ | ||
| + | 우선 위의 문제를 binomial distribution 문제로 생각하면 답은 | ||
| + | \begin{eqnarray*} | ||
| + | P(r=15) & = & _{100}C_{15} * 0.1^{15} * 0.99^{85}\\ | ||
| + | \end{eqnarray*} | ||
| + | 라고 볼 수 있다. | ||
| \begin{eqnarray} | \begin{eqnarray} | ||
| Line 1180: | Line 1449: | ||
| b(100, 0.1)이므로 | b(100, 0.1)이므로 | ||
| n*p = 10 = lambda | n*p = 10 = lambda | ||
| - | 따라서 | + | 따라서 |
| + | lambda = 10 일때 P(r=15)값을 구하는 문제로 | ||
| + | |||
| + | \begin{eqnarray*} | ||
| + | P(r = 15) & = & e^{-10} * \frac {10^{15}}{15!} \\ | ||
| + | & = & 0.0347180 | ||
| + | \end{eqnarray*} | ||
| < | < | ||
| > dpois(x=15, lambda=10) | > dpois(x=15, lambda=10) | ||
| Line 1300: | Line 1575: | ||
| <WRAP box> | <WRAP box> | ||
| - | 2. On average, 1 bus stops at a certain point every 15 minutes. What’s the probability that no buses will turn up in a single 15 minute interval? | + | 2. On average, 1 bus stops at a certain point every 15 minutes. What’s the probability that __<fc #ff0000>no buses</ |
| 위는 Poisson distribution 문제이므로 기대값과 분산값은 각각 lambda 값인 1 (15분마다 1대씩 버스가 온다고 한다) | 위는 Poisson distribution 문제이므로 기대값과 분산값은 각각 lambda 값인 1 (15분마다 1대씩 버스가 온다고 한다) | ||
b/head_first_statistics/geometric_binomial_and_poisson_distributions.1697607465.txt.gz · Last modified: by hkimscil
