본문 바로가기

챗-gpt로 사회조사분석사 도전하기

Ⅲ과목 통계분석과 활용_1장 확률분포_02. 이산확률분포의 의미_➊이항분포의 개념

728x90
➊이항분포의 개념
이산확률분포란?
이산확률분포는 이산확률변수가 가질 수 있는 값과 그 값들이 나타날 확률을 나타내는 분포입니다.


이산확률변수는 가능한 값들 중에서 특정한 값들만을 가질 수 있는 확률변수를 말합니다. 예를 들어, 동전 던지기에서 앞면이 나올 경우를 1로, 뒷면이 나올 경우를 0으로 나타내는 이산확률변수를 생각해볼 수 있습니다. 이때, 이산확률분포는 이 이산확률변수가 가질 수 있는 값들과 그 값들이 나타날 확률을 나타냅니다.

이산확률분포는 주로 이산확률변수의 확률질량함수를 통해 표현됩니다. 확률질량함수는 이산확률변수가 각각의 값들을 가질 확률을 나타내는 함수로, 확률의 합이 1이 되어야 합니다. 확률질량함수를 통해 이산확률분포를 특정할 수 있으며, 이를 통해 이산확률변수의 특성과 분포를 알 수 있습니다.


대표적인 이산확률분포로는 이항분포, 포아송분포, 기하분포 등이 있으며, 각각은 다른 확률질량함수와 특성을 가지고 있습니다. 이산확률분포를 통해 확률적인 사건의 발생 가능성과 분포를 분석하고 예측할 수 있습니다.
①이항분포 이항분포는 이항시행에서 성공과 실패의 두 가지 결과만을 가지는 이산확률분포입니다. 이항시행은 독립적으로 반복되는 동일한 실험을 통해 성공과 실패의 두 가지 결과 중 하나가 나타나는 실험을 말합니다. 이 때, 각 시행에서의 성공 확률을 p라고 할 때, 이항분포는 n번의 독립적인 시행 중 성공하는 횟수를 나타내는 확률분포입니다.


이항분포는 보통 B(n, p)로 표기되며, 여기서 n은 시행 횟수를, p는 각 시행에서의 성공 확률을 나타냅니다. 이항분포의 확률질량함수는 다음과 같이 표현됩니다:


P(X=k) = (n choose k) * p^k * (1-p)^(n-k)


여기서 (n choose k)는 이항계수로, n번 중 k번의 성공을 선택하는 경우의 수를 나타냅니다. p^k는 k번의 성공이 일어날 확률을, (1-p)^(n-k)는 나머지 (n-k)번의 실패가 일어날 확률을 나타냅니다.


이항분포는 성공과 실패의 두 가지 결과를 가지는 독립적인 시행에서 특정한 성공 횟수를 확률적으로 분석하고 예측하는 데 사용됩니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률이 p인 경우, n번의 독립적인 동전 던지기에서 앞면이 나오는 횟수를 이항분포로 모델링하여 예측할 수 있습니다. 이를 통해 확률적인 사건의 발생 가능성과 분포를 분석할 수 있습니다.
➊이항분포의 개념
이항분포의 기댓값과 분산
이항분포의 기댓값과 분산은 다음과 같이 구할 수 있습니다.


기댓값:


이항분포의 기댓값은 시행 횟수(n)에 성공 확률(p)를 곱한 값과 같습니다.


기댓값(E[X]) = n * p


분산:


이항분포의 분산은 시행 횟수(n), 성공 확률(p), 및 실패 확률(1-p)를 이용하여 구할 수 있습니다.
분산(Var[X]) = n * p * (1-p)


기댓값은 이항분포에서 평균적으로 얼마나 많은 성공이 발생할 것으로 기대되는지를 나타내며, 분산은 이항분포의 데이터가 얼마나 퍼져 있는지를 나타냅니다.


예를 들어, 동전 던지기에서 앞면이 나올 확률이 p인 경우, n번의 독립적인 동전 던지기에서 앞면이 나오는 횟수를 이항분포로 모델링할 수 있습니다. 이 때, 이항분포의 기댓값은 n * p이고, 분산은 n * p * (1-p)입니다. 이를 통해 평균적인 성공 횟수와 데이터의 분포를 예측할 수 있습니다.


기댓값과 분산은 이항분포의 중요한 특성을 나타내는 지표로, 확률적인 사건의 발생 가능성과 분포를 분석하는 데 사용됩니다.
➊이항분포의 개념
②포아송 분포 포아송 분포는 단위 시간 또는 단위 공간에서 발생하는 사건의 수를 모델링하는 이산확률분포입니다. 주로 사건이 독립적으로 발생하며, 평균 발생률이 일정한 경우에 사용됩니다.


포아송 분포는 주로 특정 시간 동안 발생하는 사건의 수, 예를 들어 단위 시간당 도착하는 고장 횟수, 도착하는 메시지 수, 고객의 도착 횟수 등을 모델링하는 데 사용됩니다.


포아송 분포의 확률질량함수는 다음과 같이 표현됩니다:


P(X=k) = (λ^k * e^(-λ)) / k!


여기서 X는 사건의 개수를 나타내는 이산확률변수이고, k는 실제 발생한 사건의 수를 나타냅니다. λ는 단위 시간 또는 단위 공간당 평균 발생률을 나타내는 모수(parameter)입니다. e는 자연로그의 밑수인 오일러 수(2.71828...)입니다. k!는 k 팩토리얼을 나타냅니다.


포아송 분포의 특징은 다음과 같습니다:


·독립성: 각 사건은 독립적으로 발생합니다.


·일정한 평균 발생률: 단위 시간 또는 단위 공간당 평균 발생률(λ)이 일정합니다.


·이산확률분포: 사건의 수는 이산적인 값을 가집니다.


발생 가능한 사건의 수는 무한히 큽니다.

포아송 분포는 예측 모델이나 통계적 분석에서 사용되며, 실제 사건이 포아송 분포를 따른다고 가정하는 것이 적절한 경우가 많습니다. 예를 들어, 특정 시간 동안 도착하는 버스의 수, 고장이 발생하는 시스템의 수리 횟수 등을 포아송 분포로 모델링할 수 있습니다. 이를 통해 사건의 발생 가능성과 분포를 분석하고 예측할 수 있습니다.
베르누이 시행
베르누이 시행은 두 가지 결과인 성공(success)과 실패(failure) 중 하나가 발생하는 시행을 말합니다. 각 시행에서 성공의 확률을 p로 나타낼 수 있습니다.

베르누이 시행은 다음과 같은 특징을 가지고 있습니다:

1.두 가지 결과: 각 시행에서는 성공 또는 실패 중 하나의 결과가 나옵니다.

2.성공 확률: 각 시행에서 성공의 확률은 p로 주어집니다. 실패의 확률은 1-p로 표현됩니다.

3.독립성: 각 시행은 서로 독립적입니다. 이전 시행의 결과가 현재 시행에 영향을 주지 않습니다.

베르누이 시행은 이항분포와 기하분포와 관련이 깊습니다. 이항분포는 베르누이 시행을 일정한 횟수(n)만큼 반복한 후 성공 횟수를 모델링하는 분포입니다. 기하분포는 베르누이 시행에서 처음으로 성공할 때까지의 시행 횟수를 모델링하는 분포입니다.

베르누이 시행은 확률론과 통계학에서 많이 사용되며, 다양한 현실적인 상황을 모델링하는 데에도 유용하게 활용됩니다. 예를 들어, 동전 던지기, 주사위 굴리기, 제품의 결함 유무 판단, 고객의 구매 여부 등을 베르누이 시행으로 모델링할 수 있습니다.
③기하 분포 기하분포는 성공 확률이 p인 베르누이 시행에서 처음으로 성공할 때까지의 시행 횟수를 모델링하는 이산확률분포입니다. 즉, 성공과 실패의 두 가지 결과를 가지는 시행에서 처음으로 성공할 때까지의 시행 횟수를 표현합니다.

기하분포의 확률질량함수는 다음과 같이 표현됩니다:

P(X=k) = (1-p)^(k-1) * p

여기서 X는 처음으로 성공할 때까지의 시행 횟수를 나타내는 이산확률변수이고, k는 실제로 처음으로 성공하는 시행 횟수를 나타냅니다. p는 성공 확률을 나타내는 값입니다.

기하분포의 특징은 다음과 같습니다:

성공 확률: 각 시행에서의 성공 확률은 동일하며, p로 주어집니다.

독립성: 각 시행은 서로 독립적입니다.

이산확률분포: 시행 횟수는 이산적인 값을 가집니다.

기하분포는 양의 정수에 대해서 정의됩니다.

기하분포는 다양한 응용 분야에서 사용됩니다. 예를 들어, 제품의 결함 발생 횟수, 고객이 구매할 때까지 걸리는 시행 횟수, 사건이 발생하는 시간 간격 등을 모델링할 때 기하분포를 사용할 수 있습니다.

기하분포는 성공을 기다리는 시행의 특성을 나타내며, 성공이 처음으로 발생하는 시행 횟수에 대한 분포를 분석하고 예측하는 데 사용됩니다.
728x90
반응형