[혼공머신러닝 02-2]데이터 전처리

이번 장에서 배운 것은 크게 세 가지입니다.

첫째로, numpy로 데이터 준비하기. 둘째로, 사이킷런으로 훈련 세트와 테스트 세트 분리. 셋째로, 데이터 표준화하기.

첫 번째부터 천천히 알아보겠습니다.

1. numpy로 데이터 준비하기

그 중 가장 먼저 배운 것은 numpy로 데이터를 준비하는 법입니다. numpy에는 column_stack이라는 명령어와 concatenate라는 명령어가 있습니다.

(1) column_stack

  
np.column_stack(([1,2,3], [4,5,6])) # 매개변수로 사용된 리스트들의 값을 하나씩 추출해서 2차원 넘파이 배열로 만들어 줌

이것의 결과로 우리는 array([[1, 4], [2, 5], [3, 6]])를 얻습니다. 이 명령어는 수학적으로 생각하면 전치행렬을 생성해 준다고 볼 수 있겠습니다.

  
np.column_stack(([1,2,3], [4,5]))

그렇다면 [1, 2, 3], [4, 5]와 같이 원소 개수가 다른 열은 어떨까 싶어 실행해 보았는데, 에러가 발생했습니다. 문득 궁금증이 생겨 np.array에도 입력해 보았는데 VisibleDeprecationWarning이 발생하는 모습을 볼 수 있었습니다.

하지만, 어떤 데이터들의 각 특성 개수는 모두 동일할 것이므로 이런 걱정은 하지 않아도 된다는 점을 알게 되었습니다. column_stack을 이용한 데이터 형태 변환은 아주 간단합니다.

  
fish_data = np.column_stack((fish_length, fish_weight))

(2) concatenate

  
fish_target = np.concatenate((np.ones(35), np.zeros(14)))

이 코드는 1 원소 35개를 가진 배열과 0 원소 1개를 가진 배열을 더한다는 뜻을 지닙니다. concatenate는 파이썬 리스트에서 +와 같은 기능을 하며, 타겟 배열을 작성하는 데 도움이 됩니다.

2. 사이킷런으로 훈련 세트와 테스트 세트 분리

이전 장에서는 이것을 numpy를 이용해 했지만, 사이킷런을 사용하면 더 간단하게 할 수 있다는 것을 배웠습니다.

우리는 fish_data를 train_input과 test input으로, fish_target을 train_target과 test_target으로 분리할 것입니다.

(1) random_state

  
train_input, test_input, train_target, test_target = train_test_split(
    fish_data, fish_target, random_state=42)

이것은 numpy의 랜덤 시드 역할을 하는 것으로 이 책에서는 42로 지정하였습니다.

(2) stratify

  
train_input, test_input, train_target, test_target = train_test_split(
    fish_data, fish_target, stratify=fish_target, random_state=42) # stratify : 타겟 배열을 넣으면 도미와 빙어의 비율을 맞춰 줌

stratify에 타겟 배열을 할당하면 훈련 세트와 테스트 세트의 도미:빙어 비율을 맞출 수 있게 됩니다. 이 기능은 데이터가 적거나 특정 클래스 샘플의 개수가 적은 경우 샘플링이 편향되지 않도록 사용할 수 있어 유용합니다.

3. 데이터 표준화하기

모델을 훈련할 때 특성 간의 스케일이 크게 차이난다면 평가 점수가 떨어질 수 있습니다. 이를 막기 위해 데이터를 표준화합니다.

(1) numpy의 mean, std를 이용해 훈련 세트의 평균과 표준편차 구하기

  
# axis=0 : 열, axis = 1 : 행
mean = np.mean(train_input, axis=0) # 평균
std = np.std(train_input, axis=0) # 표준편차

이때 axis = 0을 선택한다면 열 별 평균과 표준편차를 얻을 수 있으므로 각 틍성 별 표준편차가 mean과 std에 저장됩니다.

(2) 표준화(Z = X-평균/표준편차)

  
train_scaled = (train_input - mean) / std # 표준화 Z = X-평균/표준편차

mean과 std에는 각각 두 개씩의 값이 저장되어 있는데, train_input이라는 2열로 구성된 배열에 각 열마다 값을 계산해 결과를 도출합니다. 따라서 배열을 슬라이싱하거나 인덱싱할 필요 없이 한 번만 계산해 주어도 됩니다. 이를 브로드캐스팅이라 합니다.

(3) 훈련 및 평가, 예측

표준화가 끝난 데이터로 모델을 훈련하는 과정은 전과 동일합니다. 다만, 알아야 할 것은 예측하고자 하는 데이터와 테스트 세트의 데이터도 표준화해야 올바른 결과를 얻을 수 있다는 것입니다. 표준화 과정은 훈련 데이터의 표준화와 동일합니다.

  
new = ([25, 150] - mean) / std # 예측하고자 하는 데이터 표준화
kn.fit(train_scaled, train_target) # 훈련
test_scaled = (test_input - mean) / std # 테스트 데이터 표준화
kn.score(test_scaled, test_target) # 평가
print(kn.predict([new])) # 예측

공부한 내용의 전체 코드는 github에 작성해 두었습니다. https://github.com/ynkim0/study/blob/main/2-2.ipynb

  
fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 
                10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7, 
                7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]
fish_data = [[l, w] for l, w in zip(fish_length, fish_weight)]
fish_target = [1]*35 + [0]*14
# 0 ~ 34번 원소를 훈련 세트로
train_input = fish_data[:35]
train_target = fish_target[:35]

# 35 ~ 48번 원소를 테스트 세트로
test_input = fish_data[35:]
test_target = fish_target[35:]

그런데 여기서 다시 한 번 문제가 발생하게 됩니다.

  
from sklearn.neighbors import KNeighborsClassifier

kn = KNeighborsClassifier()
kn.fit(train_input, train_target)
kn.score(test_input, test_target)

이와 같이 테스트를 해보았더니, 결과가 0, 즉 0%의 정확도가 나왔다는 것입니다. 이런 일이 발생한 이유는 35번째까지의 데이터는 도미, 그 이후의 데이터는 빙어로 구성되어 있는데 훈련은 도미로만 하고, 테스트는 빙어로만 했으니 어떤 테이터를 집어넣더라도 모델은 도미로 판단하기 때문에 이런 극단적인 정확도가 나온 것입니다.

이를 해결하기 위한 방법으로 이 책에서는 numpy의 shuffle 명령어와 배열 인덱싱을 제시합니다. 해결 방법의 순서는 다음과 같습니다.

(1) 파이썬 리스트를 넘파이 배열로 변환

  
import numpy as np
# 파이썬 리스트를 넘파이 배열로 변환
input_arr = np.array(fish_data)
target_arr = np.array(fish_target)

(2) index 배열을 생성하고 무작위로 섞음

  
np.random.seed(42) # 무작위 결과를 실행 시마다 동일하게 만들 수 있도록 하는 역할
index = np.arange(49) # 0 ~ 48까지 1씩 증가하는 배열 생성
np.random.shuffle(index) # 배열을 무작위로 섞음

(3) 배열 인덱싱을 이용해 훈련 세트와 테스트 세트를 섞음

  
# 배열 인덱싱을 이용해 훈련 세트를 섞음
train_input = input_arr[index[:35]]
train_target = target_arr[index[:35]]
# 배열 인덱싱을 이용해 테스트 세트를 섞음
test_input = input_arr[index[35:]]
test_target = target_arr[index[35:]]

이와 같은 방법으로 모델을 훈련시켰을 때 우리는 더 높은 정확도의 결과를 얻을 수 있게 됩니다.

  
kn.fit(train_input, train_target) # 훈련
kn.score(test_input, test_target) # 평가

이 경우의 결과는 1.0으로, 모든 테스트 세트의 타겟값을 맞춰 100%의 정확도를 보여주었습니다.

공부한 내용의 전체 코드는 github에 작성해 두었습니다. https://github.com/ynkim0/study/blob/main/2-1.ipynb