User Tools

Site Tools


b:head_first_statistics:poisson_distribution

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
b:head_first_statistics:poisson_distribution [2025/10/07 06:47] hkimscilb:head_first_statistics:poisson_distribution [2025/10/07 08:42] (current) – [Poisson Distribution] hkimscil
Line 46: Line 46:
 \end{eqnarray*} \end{eqnarray*}
  
 +<code>
 +> dpois(3, 2)
 +[1] 0.180447
 +>
 +
 +</code>
 ====== What does the Poisson distribution look like? ====== ====== What does the Poisson distribution look like? ======
  
Line 108: Line 114:
  
 일반적으로 lambda가 1보다 작으면 geometric distribution 형태의 그래프를, 1보다 크면 정규분포 형태의 모양을 갖는다. 일반적으로 lambda가 1보다 작으면 geometric distribution 형태의 그래프를, 1보다 크면 정규분포 형태의 모양을 갖는다.
 +
 +====== Exercise ======
 +
 +<WRAP box>
 +Your job is to play like you’re the popcorn machine and say what the probability is of you malfunctioning a  particular number of times next week. Remember, the mean number of times you break down in a week is 3.4.
 +
 +  - What’s the probability of the machine not malfunctioning next week?
 +  - What’s the probability of the machine malfunctioning three times next week?
 +  - What’s the expectation and variance of the machine malfunctions?
 +</WRAP>
 +
 +__1. What’s the probability of the machine not malfunctioning next week?__
 +
 +$\lambda = 3.4$
 +$\text{malfunctioning} = 0$
 +
 +\begin{eqnarray*}
 +P(X=0) & = & e^{-3.4} * \frac{3.4^{0}} {0!}  \\
 +& = & e^{-3.4} \\
 +& = & 0.03337327 
 +\end{eqnarray*}
 +
 +<code>
 +# R 에서 계산
 +> e^(-3.4)
 +[1] 0.03337327
 +
 +# 혹은 
 +> dpois(0, 3.4)
 +[1] 0.03337327
 +
 +</code>
 +
 +포아송 분포를 따르는 확률에서 아무것도 일어나지 않을 때의 확률은 e<sup>-lambda </sup>가 된다. 예를 들면 119 전화가 한시간에 걸려오는 확률이 5번이라고 할 때,  지난 한 시간동안 한 건의 전화도 없을 확률은? 
 +\begin{eqnarray*}
 +P(X=0) & = & e^{-5} * \frac{5^{0}} {0!}  \\
 +& = & e^{-5} \\
 +& = & 0.006737947
 +\end{eqnarray*}
 +<code>
 +> lamba <- 5
 +> e <- exp(1)
 +> px.0 <- e^(-lamba)
 +
 +> px.0
 +[1] 0.006737947
 +
 +# or 
 +> dpois(0,5)
 +[1] 0.006737947
 +</code>
 +
 +
 +
 +__2. What’s the probability of the machine malfunctioning three times next week?__
 +<code>
 +l <- 3.4
 +x <- 3
 +e <- exp(1)
 +ans <- ((e^(-l))*l^x)/factorial(x)
 +</code>
 +
 +<code>> l <- 3.4
 +> x <- 3
 +> e <- exp(1)
 +> ans <- ((e^(-l))*l^x)/factorial(x)
 +>     
 +> ans
 +[1] 0.2186172
 +> </code>
 +
 +위의 계산 대신 아래와 같은 function을 이용하는 것이 보통이다.
 +<code>
 +> dpois(x=3, lambda=3.4)
 +[1] 0.2186172
 +</code>
 +
 +마찬가지로 적어도 3번까지 고장나는 경우는 0, 1, 2, 3을 포함하므로 
 +<code>
 +> sum(dpois(c(0:3), lambda=3.4))
 +[1] 0.5583571
 +
 +</code>
 +
 +__3. What’s the expectation and variance of the machine malfunctions?__
 +\begin{eqnarray*}
 +E(X) & = & \lambda \\
 +Var(X) & = & \lambda \\
 +& = & 3.4
 +\end{eqnarray*}
 +
 +[[:mean and variance of Poisson distribution]]
 +
 +====== Two Poisson distribution cases ======
 +
 +\begin{eqnarray*}
 +X \sim Po(3.4) \\
 +Y \sim Po(2.3)
 +\end{eqnarray*}
 +
 +위의 조건일 때, Popcorn 기계와 coffee 기계가 한 주일 동안 고장나지 않을 확률을 구하려면 아래를 말한다.
 +\begin{eqnarray*}
 +P(X + Y = 0)
 +\end{eqnarray*}
 +
 +여기서 X + Y의 분포는 아래와 같다. 
 +\begin{eqnarray*}
 +X + Y \sim (\lambda_{x} + \lambda_{y})
 +\end{eqnarray*}
 +
 +lambda의 합은 5.7이고 (아래 참조), 결국 lambda가 5.7일 때 X=0의 확률(probability)를 구하는 문제이므로 0.003
 +\begin{eqnarray*}
 +\lambda_{X} + \lambda_{Y} & = & 3.4 + 2.3 \\
 +& = & 5.7 \\
 +\end{eqnarray*} 
 +
 +$$X + Y \sim Po(5.7)$$
 +
 +\begin{eqnarray*}
 +P(X + Y = 0) & = & \frac {e^{- \lambda} \lambda^{r}} {r!} \\
 +& = & \frac {e^{-5.7} 5.7^{0}}{0!} \\
 +& = & e^{-5.7} \\
 +& = & 0.003
 +\end{eqnarray*}
 +
 +====== Broken Cookies case ======
 +<WRAP box>
 +The Case of the Broken Cookies
 +
 +Kate works at the Statsville cookie factory, and her job is to make sure that boxes of cookies meet the factory’s strict rules on quality control. Kate know that **the probability that a cookie is broken is 0.1**, and her boss has asked her to find the probability that there will be 15 broken cookies in a box of 100 cookies. "It’s easy," he says. "Just use the binomial distribution where n is 100, and p is 0.1."
 +
 +Kate picks up her calculator, but when she tries to calculate 100!, her calculator displays an error because the number is too big. “Well,” says her boss, "you’ll just have to calculate it manually. But I’m going home now, so have a nice night."
 +
 +Kate stares at her calculator, wondering what to do. Then she smiles. "Maybe I can leave early tonight, after all."
 +Within a minute, Kate’s calculated the probability. She’s managed to find the probability and has managed to avoid calculating 100! altogether. She picks up her coat and walks out the door.
 +
 +**How did Kate find the probability so quickly, and avoid the error on her calculator?**
 +</WRAP>
 +우선 위의 문제를 binomial distribution 문제로 생각하면 답은 
 +\begin{eqnarray*}
 +P(r=15) & = & _{100}C_{15} * 0.1^{15} * 0.99^{85}\\
 +\end{eqnarray*}
 +라고 볼 수 있다. 
 +
 +\begin{eqnarray}
 +X & \sim & B(n, p) \\
 +X & \sim & Po(\lambda)
 +\end{eqnarray}
 +
 +Poisson distribution을 대신 사용할 수 있으려면, B(n, p)와 Po(lambda)가 유사해야 한다. 두 distribution의 기대값과 분산값을 살펴보면, 
 +  * B(n, p)의 경우 E(X) = np
 +  * Po(lambda)의 경우 E(X) = lambda 이고
 +
 +  * Var(X) = npq 이고
 +  * Var(lambda) = lambda 이다. 
 +
 +따라서, 둘의 성격이 비슷하기 위해서는 npq 와 np가 같아야 한다. 따라서 q는 1이어야 하는데, 현실적으로 1일 수는 없으므로 1에 가깞고, n이 충분히 크다면 둘의 성격이 비슷해질 수 있다고 판단한다. 따라서, 
 +
 +  * 만약 n이 충분히 크고
 +  * p가 작으면 (q가 크면)
 +  * $X \sim B(n, p)$와 $Y \sim Po(np)$는 비슷할 것이다.
 +  * 보통은 n > 50인 경우, p = 0.1 보다 작은 경우가 위에 해당한다.
 +
 +
 +<code>
 +> dbinom(x=15, 100, 0.1)
 +[1] 0.03268244
 +> choose(100, 15)
 +[1] 2.533385e+17
 +> a <- choose(100, 15)
 +> b <- .1^15
 +> c <- .9^85
 +> a*b*c
 +[1] 0.03268244
 +
 +</code>
 +위가 답이긴 하지만 limited calculator 로는 
 +x ~ b (n, p)이고
 +b(100, 0.1)이므로 
 +n*p = 10 = lambda 
 +따라서 Pois 분포로 보는 답은 
 +lambda = 10 일때 P(r=15)값을 구하는 문제로 
 +
 +\begin{eqnarray*}
 +P(r = 15) & = & e^{-10} * \frac {10^{15}}{15!} \\
 +& = & 0.0347180
 +\end{eqnarray*}
 +<code>
 +> dpois(x=15, lambda=10)
 +[1] 0.03471807
 +
 +</code>
 +
 +
 +<WRAP box>
 +A student needs to take an exam, but hasn’t done any revision for it. He needs to guess the answer to each question, and the probability of getting a question right is 0.05. There are 50 questions on the exam paper. What’s  the probability he’ll get 5 questions right? Use the Poisson approximation to the binomial distribution to find out.
 +
 +만약에 binomial distribution 으로 계산을 한다면
 +<code>
 +> dbinom(x=5, 50, 0.05)
 +[1] 0.06584064
 +
 +</code>
 +
 +Poisson distribution을 이용하라고 한다. . . 
 +
 +$ X \sim B(50, 0.05) $ 일 때, $P(X=5)$를 구하는 것. 이 때의 기대값 E(X)는 $ E(X) = np = 50 * .05 = 2.5 $ 이므로 위의 문제는 
 +
 +\begin{eqnarray*}
 +X & \sim & Po(\lambda) \\
 +X & \sim & Po(2.5)
 +\end{eqnarray*}
 +
 +일 때, $P(X=5)$를 구하는 것과 같다.
 +
 +<code>> dpois(x=5, lambda = 2.5)
 +[1] 0.06680094
 +> </code>
 +
 +수식을 따르면, 
 +\begin{eqnarray*}
 +P(X = 5) & = & \frac {e^{-2.5} * 2.5^{5}}{5!} \\
 +& = & 0.067
 +\end{eqnarray*}
 +
 +<code>
 +> n <- 50
 +> p <- .05
 +> q <- 1-p
 +> x <- 5
 +> np <- n*p
 +# Poisson distribution
 +> e <- exp(1)
 +> lambda <- np
 +> lambda
 +[1] 2.5
 +> a <- e^(-lambda)
 +> b <- lambda^x
 +> c <- factorial(x)
 +> a*b/c
 +[1] 0.06680094
 +
 +</code>
 +
 +</WRAP>
 +
 +====== Exercise ======
 +<WRAP box>
 +Here are some scenarios. Your job is to say which distribution each of them follows, say what the expectation and variance are, and find any required probabilities. 
 +
 +1. A man is bowling. The probability of him knocking all the pins over is 0.3. If he has 10 shots, what’s the probability he’ll knock all the pins over less than three times?
 +
 +Binomial distribution 을 이용한다면, 
 +\begin{eqnarray*}
 +X & \sim & B(n, p) \\
 +X & \sim & B(10, 0.3) 
 +\end{eqnarray*}
 +
 +\begin{eqnarray*}
 +E(X) & = & np \\
 +& = & 10 * 0.3 \\
 +& = & 3
 +\end{eqnarray*}
 +
 +\begin{eqnarray*}
 +Var(X) & = & npq \\
 +& = & 10 * 0.3 * 0.7 \\
 +& = & 2.1
 +\end{eqnarray*}
 +
 +r을 이용한다면 ''pbinom'' 혹은 ''dbinom'' 을 이용한다.
 +
 +<code>
 +> pbinom(q=2, 10, 0.3)
 +[1] 0.3827828
 +
 +> sum(dbinom(0:2, 10, 0.3))
 +[1] 0.3827828
 +
 +
 +</code>
 +
 +손으로 계산을 한다고 하면, 
 +$P(X=0), P(X=1), P(X=2)$를 구한 후 모두 더하여 P(X < 3)을 구한다. 
 +
 +\begin{eqnarray*}
 +P(X = 0) & = & {10 \choose 0} * 0.3^0 * 0.7^{10} \\
 +& = & 1 * 1 * 0.028 \\
 +& = & 0.028 
 +\end{eqnarray*}
 +
 +\begin{eqnarray*}
 +P(X = 1) & = & {10 \choose 1} *0.3^1 * 0.7^9 \\
 +& = & 10 * 0.3 * 0.04035 \\
 +& = & 0.121
 +\end{eqnarray*}
 +
 +\begin{eqnarray*}
 +P(X = 2) & = & {10 \choose 2} * 0.3^2 * 0.7^8 \\
 +& = & 45 * 0.09 * 0.0576 \\
 +& = & 0.233
 +\end{eqnarray*}
 +
 +\begin{eqnarray*}
 +P(X<3) & = & P(X=0) + P(X=1) + P(X=2) \\
 +& = & 0.028 + 0.121 + 0.233 \\
 +& = & 0.382
 +\end{eqnarray*}
 +</WRAP>
 +
 +<WRAP box>
 +2. On average, 1 bus stops at a certain point every 15 minutes. What’s the probability that __<fc #ff0000>no buses</fc>__ will turn up in a single 15 minute interval?
 +
 +위는 Poisson distribution 문제이므로 기대값과 분산값은 각각 lambda 값인 1 (15분마다 1대씩 버스가 온다고 한다)
 +
 +\begin{eqnarray*}
 +P(X=0) & = & \frac {e^{-1}{1^0}}{0!} \\
 +& = & \frac {e^{-1} * 1}{1} \\
 +& = & .368 
 +\end{eqnarray*}
 +</WRAP>
 +
 +<code>
 +> dpois(0, 1)
 +[1] 0.3678794
 +
 +> ppois(0, 1)
 +[1] 0.3678794
 +
 +</code>
 +
 +<WRAP box>
 +3. 20% of cereal packets contain a free toy. What’s the probability you’ll need to open fewer than 4 cereal packets before finding your first toy?
 +
 +이는 geometric distribution 문제이므로, 
 +
 +$$X \sim Geo(.2)$$
 +
 +$P(X \le 3)$ 을 구하는 문제이므로 
 +
 +\begin{eqnarray*}
 +P(X \le 3) & = & 1 - q^r \\
 +& = & 1 - 0.8^{3} \\
 +& = & 1 - 0.512 \\
 +& = & 0.488
 +\end{eqnarray*}
 +
 +<code>
 +> sum(dgeom(0:2,0.2))
 +[1] 0.488
 +>   
 +> pgeom(2, 0.2)
 +[1] 0.488
 +
 +
 +</code>
 +
 +
 +기대값과 분산은 각각 $1/p$, $q/p^2$ 이므로 $5$와 $20$.
 +</WRAP> 
 +
b/head_first_statistics/poisson_distribution.1759787239.txt.gz · Last modified: by hkimscil

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki