본문 바로가기

챗-gpt로 사회조사분석사 도전하기

Ⅲ과목 통계분석과 활용_1장 확률분포_01확률분포의 의미_➌확률분포의 기댓값과 분산

728x90
확률분포의 기댓값과 분산
평균, 분산, 표준편차

평균, 분산, 표준편차는 통계학에서 데이터의 중심 경향성과 데이터의 퍼짐 정도를 나타내는 지표입니다.
①평균
(Mean)
평균은 데이터의 중심 경향성을 나타내는 값으로, 데이터의 모든 값을 더한 후 데이터의 개수로 나눈 값입니다. 주어진 데이터 집합에서 각 데이터의 크기를 모두 더한 후 데이터의 개수로 나누면 평균이 됩니다. 예를 들어, 1, 2, 3, 4, 5라는 다섯 개의 숫자가 있다면, 이들을 모두 더한 값인 15를 데이터 개수인 5로 나누면 평균인 3이 됩니다.
평균 = (x₁ + x₂ + ... + xₙ) / n

여기서, x₁, x₂, ..., xₙ는 주어진 데이터이고, n은 데이터의 개수입니다.
②분산(Variance) 분산은 데이터의 퍼짐 정도를 나타내는 값으로, 각 데이터와 평균의 차이를 제곱한 후에 그 값을 모두 더한 후 데이터의 개수로 나눈 값입니다. 분산을 계산하기 위해서는 먼저 각 데이터와 평균의 차이를 계산하고, 그 값을 제곱한 후 모두 더합니다. 그리고 그 값을 데이터의 개수로 나누면 분산이 됩니다. 분산은 데이터가 평균에서 얼마나 멀리 흩어져 있는지를 나타냅니다. 값이 작을수록 데이터가 평균 주변에 모여있고, 값이 클수록 데이터가 흩어져 있는 것을 의미합니다.
분산 = ((x₁ - 평균)² + (x₂ - 평균)² + ... + (xₙ - 평균)²) / n

여기서, x₁, x₂, ..., xₙ는 주어진 데이터이고, 평균은 데이터의 평균값, n은 데이터의 개수입니다.
③표준편차
(Standard Deviation)
표준편차는 분산의 양의 제곱근으로, 데이터의 퍼짐 정도를 나타내는 지표입니다. 분산이 원래 데이터의 단위와 다른 제곱의 형태를 가지므로, 편의상 분산의 양의 제곱근을 구한 것이 표준편차입니다.
표준편차는 분산과 마찬가지로 데이터가 평균에서 얼마나 멀리 흩어져 있는지를 나타내며, 값이 작을수록 데이터가 평균 주변에 모여있고, 값이 클수록 데이터가 흩어져 있는 것을 의미합니다.
표준편차 = √분산

여기서, 분산은 데이터의 분산값입니다.
확률분포의 기댓값과 분산
이산확률변수의 기댓값과 분산
①기댓값
(Expected Value)
이산확률변수의 기댓값은 각 값에 대한 확률과 그 값의 곱을 모두 더한 값으로 나타낼 수 있습니다.
수식으로는 다음과 같이 표현할 수 있습니다.


기댓값 = Σ(값 × 확률)


여기서, Σ는 합을 의미하며, 값은 이산확률변수의 가능한 값들을 나타내고, 확률은 해당 값이 나타날 확률을 나타냅니다. 즉, 각 값과 그 값이 나타날 확률을 곱한 값들을 모두 더한 것이 기댓값입니다.
②분산
(Variance)
이산확률변수의 분산은 각 값과 기댓값의 차이를 제곱한 값에 대한 확률과 곱한 후 모두 더한 값으로 나타낼 수 있습니다.
수식으로는 다음과 같이 표현할 수 있습니다.


분산 = Σ[(값 - 기댓값)² × 확률]


여기서, Σ는 합을 의미하며, 값은 이산확률변수의 가능한 값들을 나타내고, 기댓값은 이산확률변수의 기댓값을 나타내며, 확률은 해당 값이 나타날 확률을 나타냅니다. 즉, 각 값과 기댓값의 차이를 제곱한 값들에 대한 확률을 모두 더한 것이 분산입니다.
③표준편차
(Standard Deviation)
표준편차는 분산의 양의 제곱근으로 나타낼 수 있습니다.
수식으로는 다음과 같이 표현할 수 있습니다.


표준편차 = √분산


여기서 분산은 이산확률변수의 분산값을 나타냅니다.
이러한 수식을 사용하여 이산확률변수의 기댓값, 분산, 표준편차를 계산하면 데이터의 중심 경향성과 퍼짐 정도를 수치적으로 파악할 수 있습니다.
확률분포의 기댓값과 분산
이산확률변수의 기댓값 구하기
①기댓값
(Expected Value)
1.이산확률변수의 확률질량함수를 구합니다.

2.확률질량함수와 값을 곱한 식을 모든 가능한 값에 대해 합산합니다.


구체적인 수식으로는 다음과 같이 나타낼 수 있습니다.


기댓값 = Σ(값 × 확률질량함수)


여기서, Σ는 합을 의미하며, 값은 이산확률변수의 가능한 값들을 나타내고, 확률질량함수는 해당 값의 확률을 나타냅니다. 따라서, 확률질량함수와 값을 곱한 식을 모든 가능한 값에 대해 합산하여 기댓값을 계산합니다.


간단한 예를 들어 설명해보겠습니다. 예를 들어, 이산확률변수 X가 1과 2를 값으로 가지고, 각각의 값이 나타날 확률이 1/4와 3/4라고 가정해봅시다. 이 경우, X의 기댓값은 다음과 같이 계산할 수 있습니다:

기댓값 = (1 × 1/4) + (2 × 3/4)
= 1/4 + 6/4
= 7/4
= 1.75


따라서, 이 경우 이산확률변수 X의 기댓값은 1.75가 됩니다.


이산확률변수의 기댓값을 구할 때는 확률질량함수와 값을 곱한 후 모든 가능한 값에 대해 합산하는 방식을 사용합니다.
확률분포의 기댓값과 분산
이산확률변수의 분산 구하기
②분산
(Variance)
1.이산확률변수의 확률질량함수를 구합니다.

2.값과 기댓값의 차이를 제곱한 값을 확률질량함수와 곱한 식을 모든 가능한 값에 대해 합산합니다.

3.합산한 결과를 구간 내에서 계산합니다.


구체적인 수식으로는 다음과 같이 나타낼 수 있습니다.


분산 = Σ[(값 - 기댓값)² × 확률질량함수]


여기서, Σ는 합을 의미하며, 값은 이산확률변수의 가능한 값들을 나타내고, 기댓값은 이산확률변수의 기댓값을 나타내며, 확률질량함수는 해당 값의 확률을 나타냅니다. 따라서, 값과 기댓값의 차이를 제곱한 값을 확률질량함수와 곱한 식을 모든 가능한 값에 대해 합산하여 분산을 계산합니다.


간단한 예를 들어 설명해보겠습니다. 예를 들어, 이산확률변수 X가 1과 2를 값으로 가지고, 각각의 값이 나타날 확률이 1/4와 3/4라고 가정해봅시다. 이 경우, X의 기댓값은 1.75로 구했었습니다. 이때, X의 분산은 다음과 같이 계산할 수 있습니다:

분산 = [(1 - 1.75)² × 1/4] + [(2 - 1.75)² × 3/4]
= (0.75² × 1/4) + (0.25² × 3/4)
= (9/16) × 1/4 + (1/16) × 3/4
= 9/64 + 3/64
= 12/64
= 3/16


따라서, 이 경우 이산확률변수 X의 분산은 3/16이 됩니다.


이산확률변수의 분산을 구할 때는 값과 기댓값의 차이를 제곱한 값을 확률질량함수와 곱한 식을 모든 가능한 값에 대해 합산하는 방식을 사용합니다.
확률분포의 기댓값과 분산
연속확률변수의 기댓값과 분산
①기댓값
(Expected Value)
연속확률변수의 기댓값은 확률밀도함수와 해당 값의 곱을 적분한 값으로 나타낼 수 있습니다.
수식으로는 다음과 같이 표현할 수 있습니다.


기댓값 = ∫(값 × 확률밀도함수) dx


여기서, ∫는 적분을 의미하며, 값은 연속확률변수의 가능한 값들을 나타내고, 확률밀도함수는 해당 값의 확률밀도를 나타냅니다. 즉, 값과 확률밀도함수의 곱을 구간 내에서 적분한 것이 기댓값입니다.
②분산
(Variance)
연속확률변수의 분산은 값과 기댓값의 차이를 제곱한 값에 대한 확률밀도함수를 적분한 값으로 나타낼 수 있습니다.
수식으로는 다음과 같이 표현할 수 있습니다.


분산 = ∫[(값 - 기댓값)² × 확률밀도함수] dx


여기서, ∫는 적분을 의미하며, 값은 연속확률변수의 가능한 값들을 나타내고, 기댓값은 연속확률변수의 기댓값을 나타내며, 확률밀도함수는 해당 값의 확률밀도를 나타냅니다. 즉, 값과 기댓값의 차이를 제곱한 값에 대한 확률밀도함수를 구간 내에서 적분한 것이 분산입니다.
③표준편차
(Standard Deviation)
표준편차는 분산의 양의 제곱근으로 나타낼 수 있습니다.
수식으로는 다음과 같이 표현할 수 있습니다.


표준편차 = √분산


여기서 분산은 연속확률변수의 분산값을 나타냅니다.
이러한 수식을 사용하여 연속확률변수의 기댓값, 분산, 표준편차를 계산하면 데이터의 중심 경향성과 퍼짐 정도를 수치적으로 파악할 수 있습니다.
확률분포의 기댓값과 분산
연속확률변수의 기댓값 구하기
①기댓값
(Expected Value)
1.연속확률변수의 확률밀도함수를 구합니다.

2.확률밀도함수와 값을 곱한 식을 적분합니다.

3.적분한 결과를 구간 내에서 계산합니다.


구체적인 수식으로는 다음과 같이 나타낼 수 있습니다.


기댓값 = ∫(값 × 확률밀도함수) dx


여기서, ∫는 적분을 의미하며, 값은 연속확률변수의 가능한 값들을 나타내고, 확률밀도함수는 해당 값의 확률밀도를 나타냅니다. 즉, 확률밀도함수와 값을 곱한 식을 구간 내에서 적분하여 기댓값을 계산합니다.


간단한 예를 들어 설명해보겠습니다. 예를 들어, 연속확률변수 X가 0부터 1까지의 구간에서 균일한 확률밀도를 갖는다고 가정해봅시다. 이 경우, 확률밀도함수는 f(x) = 1이 됩니다. 이때, X의 기댓값은 다음과 같이 계산할 수 있습니다:

기댓값 = ∫(x × 1) dx
= ∫x dx
= [x²/2] (0부터 1까지 적분)
= 1/2


따라서, 이 경우 연속확률변수 X의 기댓값은 1/2가 됩니다.


연속확률변수의 기댓값을 구할 때는 확률밀도함수와 값을 곱한 후 적분하여 구간 내에서 계산하는 방식을 사용합니다.
확률분포의 기댓값과 분산
연속확률변수의 분산 구하기
②분산
(Variance)
1.연속확률변수의 확률밀도함수를 구합니다.

2.값과 기댓값의 차이를 제곱한 값을 확률밀도함수와 곱한 식을 적분합니다.

3.적분한 결과를 구간 내에서 계산합니다.


구체적인 수식으로는 다음과 같이 나타낼 수 있습니다.


분산 = ∫[(값 - 기댓값)² × 확률밀도함수] dx


여기서, ∫는 적분을 의미하며, 값은 연속확률변수의 가능한 값들을 나타내고, 기댓값은 연속확률변수의 기댓값을 나타내며, 확률밀도함수는 해당 값의 확률밀도를 나타냅니다. 즉, 값과 기댓값의 차이를 제곱한 값을 확률밀도함수와 곱한 식을 구간 내에서 적분하여 분산을 계산합니다.


간단한 예를 들어 설명해보겠습니다. 예를 들어, 연속확률변수 X가 0부터 1까지의 구간에서 균일한 확률밀도를 갖는다고 가정해봅시다. 이 경우, 확률밀도함수는 f(x) = 1이 됩니다. 또한, 이산확률변수 X의 기댓값이 1/2라고 가정해봅시다. 이때, X의 분산은 다음과 같이 계산할 수 있습니다:

분산 = ∫[(x - 1/2)² × 1] dx
= ∫[(x² - x + 1/4)] dx
= [x³/3 - x²/2 + x/4] (0부터 1까지 적분)
= (1/3 - 1/2 + 1/4) - (0 - 0 + 0)
= 1/12


따라서, 이 경우 연속확률변수 X의 분산은 1/12가 됩니다.


연속확률변수의 분산을 구할 때는 값과 기댓값의 차이를 제곱한 값을 확률밀도함수와 곱한 식을 구간 내에서 적분하여 계산하는 방식을 사용합니다.
728x90
반응형