MachineLeaning (13) 썸네일형 리스트형 K - Nearest Neighbor K - Nearest Neighbor 는 특정 기준점에서 반경에서 K개를 기준으로 가장 많은 class 를 분류해주는 방법이다. (Majority Voting 에 근거한 방법이겠지?) K 를 직접 설정 해야 한다는 점에서 약간의 불편함이 존재할 수 있고, 어떤 K 를 설정했느냐에 따라 너무 큰 경우 경계가 세분화 되지 않고, 너무 작은 경우 Outlier 의 영향력이 커지고, Overfitting 이 가능하기에 조심해서 선택하는 것이 좋다. Target Value (Label) 의 값의 유형 별 처리 1. Categorical Variable - 가장 많이 나타나는 Class 를 y 로 추정 - K 는 홀수로 정하는 것이 tie 문제에 유용하다. 2. Continuous Variable - 대표값(평균).. Naive Bayes Naive bayes 는 Bayes Rule 을 기반으로 하는 통계적 분류 기법이다. 나이브 베이즈의 기본적인 원리를 예) 날씨 정보와 축구 경기 여부에 대하여 정리해보면 날씨에 대한 정보 (사전 정보)를 기반으로 축구를 할 것인지 하지 않을지에 대한 확률을 구하는 문제입니다. 과거 날씨에 따라 축구 경기가 있었는지 없었는지에 대한 데이터를 사용하여 사전 정보를 활용한다. P(Yes|Overcast) = P(Overcast|Yes) P(Yes) / P(Overcast) --> Bayes Rule P(No|Overcast) = P(Overcast|No) P(No) / P(Overcast) 사전 확률 P(Overcast), P(Yes), P(No) 사후 확률 P(Overcast|Yes) 이 때, 베이즈 정리.. 분류 모형에 대한 평가 지표 분류에 대한 작업을 시행할 경우 우리는 항상 모델의 성능에 대한 관점이 명확하길 바라고 있다. 하지만 언제나 많은 Machine Learning, Deep Learning 에 대한 정확한 판단에 기준을 갖을 수 있는 관점을 제시하는 정리는 존재하지 않는다. 간단한 모델의 성능의 유효성을 평가할 수 있는 지표를 제시한다. 절대적인 지표가 되지는 않겠지만, 모델 설정에 도움을 줄 수 있다. Precision : 예측 값이 1인 경우, 실질 값이 1인 비율 Recall : 실질 값이 1인 경우, 예측 값 또한 1인 비율 F1 - score : Precision 과 Recall 은 Trade - off 관계이다. 하지만 특정 값 하나를 기준으로 설정하는 것에는 무리가 있기에 하나의 지표로 이 두 값을 이용하여 .. Classification - Logistic Regression Binary Classification 문제에 대하여 Linear Regression 을 분류에 사용하지 않는 것에 대한 간단한 이유와 Logistic Regression model 에 대한 이론 Linear Regression 의 cost function 에 대한 optimizer 로 기본적인 Gradient Descent의 방법을 사용하였는데, Classification 을 위한 Logistic Regression 은 Gradient Ascent 를 이용한다. 간단한 이유로 1. Convex function 2. Maximum Likelihood Estimation (MLE) 또한 Class (Label) 이 2개가 아닌 다수의 경우 수행할 수 있는 방법 Multi-class Classificatio.. Regression - Linear Regression (선형회귀) Machine Learning 에 대한 간략한 정의 Supervised Learning & Unsupervised Learning Linear Regression 과 Normal Equation 에 대한 간단한 내용 Underfitting and Overfitting 에 대한 방지를 위한 간단한 방법들 TensorFlow Keras 에 대하여 학습을 시작하기 위해 간단한 튜토리얼 시행 간단히 keras 에 존재하는 데이터셋을 사용하여 선형회귀에 대한 학습을 시행하였다. 이전 1 2 다음