본문 바로가기
goodLuck
Data/데이터 분석 공부

데이터 분석의 기본: 통계 함수 이해하기

by snowballing 2023. 9. 13.

데이터 분석은 많은 수학적 개념과 함수를 이해하고 적용하는 것이 필수입니다. 하지만 때로는 내장 함수와 라이브러리에 너무 익숙해져서 그 기초적인 원리를 잊곤 합니다. 이 블로그 글에서는 데이터 분석에 필수적인 통계 함수들의 기초를 다시 한번 살펴보겠습니다.

 

중앙값(Median)
중앙값은 정렬된 값들 중 가운데에 위치한 값을 의미합니다.

중앙값 구하는 방법:

  1. 배열을 정렬한다.
  2. 배열의 값 개수가 짝수인지 홀수인지 확인한다.
    • 홀수일 경우, 가운데 값을 반환한다.
    • 짝수일 경우, 가운데 두 값의 평균을 반환한다.

 

def calculate_median(arr):
    arr.sort()
    n = len(arr)
    if n % 2 == 1:
        # Odd number of elements
        median = arr[n // 2]
    else:
        # Even number of elements
        middle1 = arr[n // 2 - 1]
        middle2 = arr[n // 2]
        median = (middle1 + middle2) / 2
    return median

# Example array
my_array = [7, 2, 1, 5, 4]
median = calculate_median(my_array)
print("Median:", median)

최빈값(Mode)
최빈값은 가장 자주 나타나는 값을 의미합니다. 카테고리 데이터에서 유용하게 사용됩니다.

최빈값 구하는 방법:

  1. 값들을 정렬한다(중앙값과는 달리 필수는 아니다).
  2. 각 값이 데이터셋에서 몇 번 나타나는지 계산한다.
  3. 가장 빈도가 높은 값을 찾는다.


분산(Variance)과 표준 편차(Standard Deviation)
분산은 값들이 얼마나 퍼져 있는지를 나타내며, 표준 편차는 분산의 제곱근입니다.

분산과 표준 편차 구하는 방법:

  1. 평균을 찾는다.
  2. 각 값과 평균과의 차이를 계산한다.
  3. 차이의 제곱을 구한다.
  4. 제곱 차이의 평균을 계산하여 분산을 구한다.
  5. 분산의 제곱근을 구하여 표준 편차를 얻는다.


결론
이러한 통계 함수들은 데이터 분석의 기본이며, 이해하고 올바르게 적용하는 것이 중요합니다. 

내장 함수를 사용할 때도 이 함수들이 어떤 원리로 작동하는지 이해하면 더 효과적인 분석이 가능합니다.

'Data > 데이터 분석 공부' 카테고리의 다른 글

시계열 그래프  (0) 2023.09.13

댓글