b:head_first_statistics:poisson_distribution
Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
b:head_first_statistics:poisson_distribution [2025/10/07 06:46] – created hkimscil | b:head_first_statistics:poisson_distribution [2025/10/07 08:42] (current) – [Poisson Distribution] hkimscil | ||
---|---|---|---|
Line 45: | Line 45: | ||
& = & 0.180 | & = & 0.180 | ||
\end{eqnarray*} | \end{eqnarray*} | ||
+ | |||
+ | < | ||
+ | > dpois(3, 2) | ||
+ | [1] 0.180447 | ||
+ | > | ||
+ | |||
+ | </ | ||
+ | ====== What does the Poisson distribution look like? ====== | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | P(X=r) = e^{- \lambda} \dfrac{\lambda^{r}} {r!},\qquad r = 0, 1, 2, . . ., | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | 마포 신한은행 지점에 시간당 은행에 방문하는 손님의 숫자: lambda = 30 | ||
+ | |||
+ | < | ||
+ | > dpois(x=1: | ||
+ | [1] 2.807287e-12 4.210930e-11 4.210930e-10 3.158198e-09 1.894919e-08 | ||
+ | [6] 9.474593e-08 4.060540e-07 1.522702e-06 5.075675e-06 1.522702e-05 | ||
+ | [11] 4.152825e-05 1.038206e-04 2.395861e-04 5.133987e-04 1.026797e-03 | ||
+ | [16] 1.925245e-03 3.397491e-03 5.662486e-03 8.940767e-03 1.341115e-02 | ||
+ | [21] 1.915879e-02 2.612562e-02 3.407689e-02 4.259611e-02 5.111534e-02 | ||
+ | [26] 5.897924e-02 6.553248e-02 7.021338e-02 7.263453e-02 7.263453e-02 | ||
+ | [31] 7.029148e-02 6.589826e-02 5.990751e-02 5.285957e-02 4.530820e-02 | ||
+ | [36] 3.775683e-02 3.061365e-02 2.416867e-02 1.859128e-02 1.394346e-02 | ||
+ | [41] 1.020253e-02 7.287524e-03 5.084319e-03 3.466581e-03 2.311054e-03 | ||
+ | [46] 1.507209e-03 9.620485e-04 6.012803e-04 3.681308e-04 2.208785e-04 | ||
+ | [51] 1.299285e-04 7.495876e-05 4.242949e-05 2.357194e-05 1.285742e-05 | ||
+ | [56] 6.887904e-06 3.625212e-06 1.875110e-06 9.534457e-07 4.767229e-07 | ||
+ | > plot(dpois(x=1: | ||
+ | > </ | ||
+ | |||
+ | 위에서 언급한 | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | \sum_{r=0}^{\infty} e^{- \lambda} \dfrac{\lambda^{r}} {r!} | ||
+ | & = & e^{- \lambda} \sum_{r=0}^{\infty} \dfrac{\lambda^{r}} {r!} \\ | ||
+ | & = & e^{- \lambda} \left(1 + \lambda + \dfrac{\lambda^{2}}{2!} + \dfrac{\lambda^{3}}{3!} + . . . \right) \\ | ||
+ | & = & e^{- \lambda}e^{\lambda} \\ | ||
+ | & = & 1 | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | 에서 1 이란 이야기는 아래 그림의 그래프가 전체가 1이 됨을 의미함. 즉 위에서는 1부터 60까지 갔지만, 1부터 무한대로 하면 완전한 분포곡선이 되는데 이것이 1이라는 뜻 (가령 dpois(x=1: | ||
+ | |||
+ | |||
+ | [{{: | ||
+ | |||
+ | lambda가 클 수록 좌우대칭의 종형분포를 이루고 ((Figure 1)), 작을 수록 오른 쪽으로 편향된 (skewed to the right) 혹은 양의방향으로 편향된(positively skewed) 분포를 ((Figure 2)) 이룬다. | ||
+ | |||
+ | < | ||
+ | > dpois(x=1: | ||
+ | | ||
+ | | ||
+ | [11] 3.287682e-14 | ||
+ | [16] 1.524166e-22 | ||
+ | [21] 1.516750e-31 | ||
+ | [26] 4.669230e-41 | ||
+ | [31] 5.564790e-51 | ||
+ | [36] 2.989108e-61 | ||
+ | [41] 8.077076e-72 | ||
+ | [46] 1.193218e-82 | ||
+ | [51] 1.028610e-93 | ||
+ | [56] 5.452971e-105 2.869985e-107 1.484475e-109 7.548177e-112 3.774089e-114 | ||
+ | > plot(dpois(x=1: | ||
+ | > </ | ||
+ | |||
+ | [{{: | ||
+ | |||
+ | 일반적으로 lambda가 1보다 작으면 geometric distribution 형태의 그래프를, | ||
+ | |||
+ | ====== Exercise ====== | ||
+ | |||
+ | <WRAP box> | ||
+ | Your job is to play like you’re the popcorn machine and say what the probability is of you malfunctioning a particular number of times next week. Remember, the mean number of times you break down in a week is 3.4. | ||
+ | |||
+ | - What’s the probability of the machine not malfunctioning next week? | ||
+ | - What’s the probability of the machine malfunctioning three times next week? | ||
+ | - What’s the expectation and variance of the machine malfunctions? | ||
+ | </ | ||
+ | |||
+ | __1. What’s the probability of the machine not malfunctioning next week?__ | ||
+ | |||
+ | $\lambda = 3.4$ | ||
+ | $\text{malfunctioning} = 0$ | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | P(X=0) & = & e^{-3.4} * \frac{3.4^{0}} {0!} \\ | ||
+ | & = & e^{-3.4} \\ | ||
+ | & = & 0.03337327 | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | < | ||
+ | # R 에서 계산 | ||
+ | > e^(-3.4) | ||
+ | [1] 0.03337327 | ||
+ | > | ||
+ | # 혹은 | ||
+ | > dpois(0, 3.4) | ||
+ | [1] 0.03337327 | ||
+ | > | ||
+ | </ | ||
+ | |||
+ | 포아송 분포를 따르는 확률에서 아무것도 일어나지 않을 때의 확률은 e< | ||
+ | \begin{eqnarray*} | ||
+ | P(X=0) & = & e^{-5} * \frac{5^{0}} {0!} \\ | ||
+ | & = & e^{-5} \\ | ||
+ | & = & 0.006737947 | ||
+ | \end{eqnarray*} | ||
+ | < | ||
+ | > lamba <- 5 | ||
+ | > e <- exp(1) | ||
+ | > px.0 <- e^(-lamba) | ||
+ | > | ||
+ | > px.0 | ||
+ | [1] 0.006737947 | ||
+ | > | ||
+ | # or | ||
+ | > dpois(0,5) | ||
+ | [1] 0.006737947 | ||
+ | </ | ||
+ | |||
+ | |||
+ | |||
+ | __2. What’s the probability of the machine malfunctioning three times next week?__ | ||
+ | < | ||
+ | l <- 3.4 | ||
+ | x <- 3 | ||
+ | e <- exp(1) | ||
+ | ans <- ((e^(-l))*l^x)/ | ||
+ | </ | ||
+ | |||
+ | < | ||
+ | > x <- 3 | ||
+ | > e <- exp(1) | ||
+ | > ans <- ((e^(-l))*l^x)/ | ||
+ | > | ||
+ | > ans | ||
+ | [1] 0.2186172 | ||
+ | > </ | ||
+ | |||
+ | 위의 계산 대신 아래와 같은 function을 이용하는 것이 보통이다. | ||
+ | < | ||
+ | > dpois(x=3, lambda=3.4) | ||
+ | [1] 0.2186172 | ||
+ | </ | ||
+ | |||
+ | 마찬가지로 적어도 3번까지 고장나는 경우는 0, 1, 2, 3을 포함하므로 | ||
+ | < | ||
+ | > sum(dpois(c(0: | ||
+ | [1] 0.5583571 | ||
+ | > | ||
+ | </ | ||
+ | |||
+ | __3. What’s the expectation and variance of the machine malfunctions? | ||
+ | \begin{eqnarray*} | ||
+ | E(X) & = & \lambda \\ | ||
+ | Var(X) & = & \lambda \\ | ||
+ | & = & 3.4 | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | [[:mean and variance of Poisson distribution]] | ||
+ | |||
+ | ====== Two Poisson distribution cases ====== | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | X \sim Po(3.4) \\ | ||
+ | Y \sim Po(2.3) | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | 위의 조건일 때, Popcorn 기계와 coffee 기계가 한 주일 동안 고장나지 않을 확률을 구하려면 아래를 말한다. | ||
+ | \begin{eqnarray*} | ||
+ | P(X + Y = 0) | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | 여기서 X + Y의 분포는 아래와 같다. | ||
+ | \begin{eqnarray*} | ||
+ | X + Y \sim (\lambda_{x} + \lambda_{y}) | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | lambda의 합은 5.7이고 (아래 참조), 결국 lambda가 5.7일 때 X=0의 확률(probability)를 구하는 문제이므로 0.003 | ||
+ | \begin{eqnarray*} | ||
+ | \lambda_{X} + \lambda_{Y} & = & 3.4 + 2.3 \\ | ||
+ | & = & 5.7 \\ | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | $$X + Y \sim Po(5.7)$$ | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | P(X + Y = 0) & = & \frac {e^{- \lambda} \lambda^{r}} {r!} \\ | ||
+ | & = & \frac {e^{-5.7} 5.7^{0}}{0!} \\ | ||
+ | & = & e^{-5.7} \\ | ||
+ | & = & 0.003 | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | ====== Broken Cookies case ====== | ||
+ | <WRAP box> | ||
+ | The Case of the Broken Cookies | ||
+ | |||
+ | Kate works at the Statsville cookie factory, and her job is to make sure that boxes of cookies meet the factory’s strict rules on quality control. Kate know that **the probability that a cookie is broken is 0.1**, and her boss has asked her to find the probability that there will be 15 broken cookies in a box of 100 cookies. " | ||
+ | |||
+ | Kate picks up her calculator, but when she tries to calculate 100!, her calculator displays an error because the number is too big. “Well,” says her boss, " | ||
+ | |||
+ | Kate stares at her calculator, wondering what to do. Then she smiles. "Maybe I can leave early tonight, after all." | ||
+ | Within a minute, Kate’s calculated the probability. She’s managed to find the probability and has managed to avoid calculating 100! altogether. She picks up her coat and walks out the door. | ||
+ | |||
+ | **How did Kate find the probability so quickly, and avoid the error on her calculator? | ||
+ | </ | ||
+ | 우선 위의 문제를 binomial distribution 문제로 생각하면 답은 | ||
+ | \begin{eqnarray*} | ||
+ | P(r=15) & = & _{100}C_{15} * 0.1^{15} * 0.99^{85}\\ | ||
+ | \end{eqnarray*} | ||
+ | 라고 볼 수 있다. | ||
+ | |||
+ | \begin{eqnarray} | ||
+ | X & \sim & B(n, p) \\ | ||
+ | X & \sim & Po(\lambda) | ||
+ | \end{eqnarray} | ||
+ | |||
+ | Poisson distribution을 대신 사용할 수 있으려면, | ||
+ | * B(n, p)의 경우 E(X) = np | ||
+ | * Po(lambda)의 경우 E(X) = lambda 이고 | ||
+ | |||
+ | * Var(X) = npq 이고 | ||
+ | * Var(lambda) = lambda 이다. | ||
+ | |||
+ | 따라서, 둘의 성격이 비슷하기 위해서는 npq 와 np가 같아야 한다. 따라서 q는 1이어야 하는데, 현실적으로 1일 수는 없으므로 1에 가깞고, n이 충분히 크다면 둘의 성격이 비슷해질 수 있다고 판단한다. 따라서, | ||
+ | |||
+ | * 만약 n이 충분히 크고 | ||
+ | * p가 작으면 (q가 크면) | ||
+ | * $X \sim B(n, p)$와 $Y \sim Po(np)$는 비슷할 것이다. | ||
+ | * 보통은 n > 50인 경우, p = 0.1 보다 작은 경우가 위에 해당한다. | ||
+ | |||
+ | |||
+ | < | ||
+ | > dbinom(x=15, | ||
+ | [1] 0.03268244 | ||
+ | > choose(100, 15) | ||
+ | [1] 2.533385e+17 | ||
+ | > a <- choose(100, 15) | ||
+ | > b <- .1^15 | ||
+ | > c <- .9^85 | ||
+ | > a*b*c | ||
+ | [1] 0.03268244 | ||
+ | > | ||
+ | </ | ||
+ | 위가 답이긴 하지만 limited calculator 로는 | ||
+ | x ~ b (n, p)이고 | ||
+ | b(100, 0.1)이므로 | ||
+ | n*p = 10 = lambda | ||
+ | 따라서 Pois 분포로 보는 답은 | ||
+ | lambda = 10 일때 P(r=15)값을 구하는 문제로 | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | P(r = 15) & = & e^{-10} * \frac {10^{15}}{15!} \\ | ||
+ | & = & 0.0347180 | ||
+ | \end{eqnarray*} | ||
+ | < | ||
+ | > dpois(x=15, lambda=10) | ||
+ | [1] 0.03471807 | ||
+ | > | ||
+ | </ | ||
+ | |||
+ | |||
+ | <WRAP box> | ||
+ | A student needs to take an exam, but hasn’t done any revision for it. He needs to guess the answer to each question, and the probability of getting a question right is 0.05. There are 50 questions on the exam paper. What’s | ||
+ | |||
+ | 만약에 binomial distribution 으로 계산을 한다면 | ||
+ | < | ||
+ | > dbinom(x=5, 50, 0.05) | ||
+ | [1] 0.06584064 | ||
+ | > | ||
+ | </ | ||
+ | |||
+ | Poisson distribution을 이용하라고 한다. . . | ||
+ | |||
+ | $ X \sim B(50, 0.05) $ 일 때, $P(X=5)$를 구하는 것. 이 때의 기대값 E(X)는 $ E(X) = np = 50 * .05 = 2.5 $ 이므로 위의 문제는 | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | X & \sim & Po(\lambda) \\ | ||
+ | X & \sim & Po(2.5) | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | 일 때, $P(X=5)$를 구하는 것과 같다. | ||
+ | |||
+ | < | ||
+ | [1] 0.06680094 | ||
+ | > </ | ||
+ | |||
+ | 수식을 따르면, | ||
+ | \begin{eqnarray*} | ||
+ | P(X = 5) & = & \frac {e^{-2.5} * 2.5^{5}}{5!} \\ | ||
+ | & = & 0.067 | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | < | ||
+ | > n <- 50 | ||
+ | > p <- .05 | ||
+ | > q <- 1-p | ||
+ | > x <- 5 | ||
+ | > np <- n*p | ||
+ | # Poisson distribution | ||
+ | > e <- exp(1) | ||
+ | > lambda <- np | ||
+ | > lambda | ||
+ | [1] 2.5 | ||
+ | > a <- e^(-lambda) | ||
+ | > b <- lambda^x | ||
+ | > c <- factorial(x) | ||
+ | > a*b/c | ||
+ | [1] 0.06680094 | ||
+ | > | ||
+ | </ | ||
+ | |||
+ | </ | ||
+ | |||
+ | ====== Exercise ====== | ||
+ | <WRAP box> | ||
+ | Here are some scenarios. Your job is to say which distribution each of them follows, say what the expectation and variance are, and find any required probabilities. | ||
+ | |||
+ | 1. A man is bowling. The probability of him knocking all the pins over is 0.3. If he has 10 shots, what’s the probability he’ll knock all the pins over less than three times? | ||
+ | |||
+ | Binomial distribution 을 이용한다면, | ||
+ | \begin{eqnarray*} | ||
+ | X & \sim & B(n, p) \\ | ||
+ | X & \sim & B(10, 0.3) | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | E(X) & = & np \\ | ||
+ | & = & 10 * 0.3 \\ | ||
+ | & = & 3 | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | Var(X) & = & npq \\ | ||
+ | & = & 10 * 0.3 * 0.7 \\ | ||
+ | & = & 2.1 | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | r을 이용한다면 '' | ||
+ | |||
+ | < | ||
+ | > pbinom(q=2, 10, 0.3) | ||
+ | [1] 0.3827828 | ||
+ | > | ||
+ | > sum(dbinom(0: | ||
+ | [1] 0.3827828 | ||
+ | > | ||
+ | |||
+ | </ | ||
+ | |||
+ | 손으로 계산을 한다고 하면, | ||
+ | $P(X=0), P(X=1), P(X=2)$를 구한 후 모두 더하여 P(X < 3)을 구한다. | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | P(X = 0) & = & {10 \choose 0} * 0.3^0 * 0.7^{10} \\ | ||
+ | & = & 1 * 1 * 0.028 \\ | ||
+ | & = & 0.028 | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | P(X = 1) & = & {10 \choose 1} *0.3^1 * 0.7^9 \\ | ||
+ | & = & 10 * 0.3 * 0.04035 \\ | ||
+ | & = & 0.121 | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | P(X = 2) & = & {10 \choose 2} * 0.3^2 * 0.7^8 \\ | ||
+ | & = & 45 * 0.09 * 0.0576 \\ | ||
+ | & = & 0.233 | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | P(X<3) & = & P(X=0) + P(X=1) + P(X=2) \\ | ||
+ | & = & 0.028 + 0.121 + 0.233 \\ | ||
+ | & = & 0.382 | ||
+ | \end{eqnarray*} | ||
+ | </ | ||
+ | |||
+ | <WRAP box> | ||
+ | 2. On average, 1 bus stops at a certain point every 15 minutes. What’s the probability that __<fc # | ||
+ | |||
+ | 위는 Poisson distribution 문제이므로 기대값과 분산값은 각각 lambda 값인 1 (15분마다 1대씩 버스가 온다고 한다) | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | P(X=0) & = & \frac {e^{-1}{1^0}}{0!} \\ | ||
+ | & = & \frac {e^{-1} * 1}{1} \\ | ||
+ | & = & .368 | ||
+ | \end{eqnarray*} | ||
+ | </ | ||
+ | |||
+ | < | ||
+ | > dpois(0, 1) | ||
+ | [1] 0.3678794 | ||
+ | > | ||
+ | > ppois(0, 1) | ||
+ | [1] 0.3678794 | ||
+ | > | ||
+ | </ | ||
+ | |||
+ | <WRAP box> | ||
+ | 3. 20% of cereal packets contain a free toy. What’s the probability you’ll need to open fewer than 4 cereal packets before finding your first toy? | ||
+ | |||
+ | 이는 geometric distribution 문제이므로, | ||
+ | |||
+ | $$X \sim Geo(.2)$$ | ||
+ | |||
+ | $P(X \le 3)$ 을 구하는 문제이므로 | ||
+ | |||
+ | \begin{eqnarray*} | ||
+ | P(X \le 3) & = & 1 - q^r \\ | ||
+ | & = & 1 - 0.8^{3} \\ | ||
+ | & = & 1 - 0.512 \\ | ||
+ | & = & 0.488 | ||
+ | \end{eqnarray*} | ||
+ | |||
+ | < | ||
+ | > sum(dgeom(0: | ||
+ | [1] 0.488 | ||
+ | > | ||
+ | > pgeom(2, 0.2) | ||
+ | [1] 0.488 | ||
+ | > | ||
+ | |||
+ | </ | ||
+ | |||
+ | |||
+ | 기대값과 분산은 각각 $1/p$, $q/p^2$ 이므로 $5$와 $20$. | ||
+ | </ | ||
b/head_first_statistics/poisson_distribution.1759787194.txt.gz · Last modified: by hkimscil