데이터 분석은 많은 수학적 개념과 함수를 이해하고 적용하는 것이 필수입니다. 하지만 때로는 내장 함수와 라이브러리에 너무 익숙해져서 그 기초적인 원리를 잊곤 합니다. 이 블로그 글에서는 데이터 분석에 필수적인 통계 함수들의 기초를 다시 한번 살펴보겠습니다.
중앙값(Median)
중앙값은 정렬된 값들 중 가운데에 위치한 값을 의미합니다.
중앙값 구하는 방법:
- 배열을 정렬한다.
- 배열의 값 개수가 짝수인지 홀수인지 확인한다.
- 홀수일 경우, 가운데 값을 반환한다.
- 짝수일 경우, 가운데 두 값의 평균을 반환한다.
def calculate_median(arr):
arr.sort()
n = len(arr)
if n % 2 == 1:
# Odd number of elements
median = arr[n // 2]
else:
# Even number of elements
middle1 = arr[n // 2 - 1]
middle2 = arr[n // 2]
median = (middle1 + middle2) / 2
return median
# Example array
my_array = [7, 2, 1, 5, 4]
median = calculate_median(my_array)
print("Median:", median)
최빈값(Mode)
최빈값은 가장 자주 나타나는 값을 의미합니다. 카테고리 데이터에서 유용하게 사용됩니다.
최빈값 구하는 방법:
- 값들을 정렬한다(중앙값과는 달리 필수는 아니다).
- 각 값이 데이터셋에서 몇 번 나타나는지 계산한다.
- 가장 빈도가 높은 값을 찾는다.
분산(Variance)과 표준 편차(Standard Deviation)
분산은 값들이 얼마나 퍼져 있는지를 나타내며, 표준 편차는 분산의 제곱근입니다.
분산과 표준 편차 구하는 방법:
- 평균을 찾는다.
- 각 값과 평균과의 차이를 계산한다.
- 차이의 제곱을 구한다.
- 제곱 차이의 평균을 계산하여 분산을 구한다.
- 분산의 제곱근을 구하여 표준 편차를 얻는다.
결론
이러한 통계 함수들은 데이터 분석의 기본이며, 이해하고 올바르게 적용하는 것이 중요합니다.
내장 함수를 사용할 때도 이 함수들이 어떤 원리로 작동하는지 이해하면 더 효과적인 분석이 가능합니다.
댓글