kNN & Spam Filter

인공지능

leeeee.yeon 2021. 7. 13. 10:37

kNN

kNN(k Nearnest Neighbor): 최근접 이웃 알고리즘, 거리를 이용해 분류를 수행하는 알고리즘

Machine Learning = Feature Engineering (특징) + Statistics (분포)

ex) 토마토는 채소인가? 과일인가?

좌측 그림 - 같은 종류끼리 비슷한 위치에 모여있음

토마토가 과일인지 채소인지 알아보기 위해 토마토에서 가장 가까운 k=4개(4-Nearest Neighbor)의 종류를 알아보자.

sweetnest of tomato: 6, crunchiness of tomato: 4

n차원 공간에서 두 점 (p, q) 거리는 유클리디안 거리를 이용하여 구할 수 있다.

kNN은 거리에 의해 유사도를 측정하기 때문에 모든 입력변수는 양적변수이고 Scale이 같아야 한다. ( sweetness, crunchiness 둘 다 1~10 사이 )

Minimax Standardization

x_max - x_min은 항상 최대의 거리

x는 (x_min, x_max) 사이에 있으므로, 0 ≤ x_new ≤ 1

임의의 k에 대해 테스트 데이터셋에서 위와 같이 정오표를 만들면 분류 정확도, 오분류율, Precision, Recall과 같은 정확도를 구할 수 있다.

false negative & false positive - 잘못 측정된 것

k는 정확도, Precision, Recall이 동시에 높은 값을 선택하는 것이 좋다.