ML
Softmax Regression Classification
Softmax Classificaition의 필요성? 이전 글에서 입력 데이터를 2개의 부류로 나누는 방법인 Logistic Classification을 다뤘어요. 이 방법은 이분적인 데이터를 처리하는데 유용하지만 만약 데이터가 셋 중 하나, 혹은 넷, 다섯 중 하나라면 Logistic Classification을 바로 쓰기는 어려워요. 그래서 이것을 확장한 분류 방법, Softmax Classification을 알아봐요. 여러 개로 "분류"하기 한번 3가지로 나누어질 수 있는 데이터를 생각해봐요. 예를 들어 성적을 A, B, C로 나누는 학교를 생각해요. 즉, class는 A, B, C가 되는 거예요. 그리고 공부시간에 따른 성적을 정리해보면 다음과 같을 것이에요. 공부시간이 많아질 수록 A에 가까워지..
로지스틱 회귀를 사용한 분류(Logistic regression classification)
분류(Classification)는 어떠한 데이터를 기준에 따라 적당한 그룹으로 정하는 것이에요. 말은 거창하지만 쉽게 말해서 어떤 사진이 고양이인지/개인지, 어떤 점수를 바탕으로 A등급이 예상되는지 B 등급이 예상되는지 정하는 것이에요. 이번 글에서는 데이터를 2개의 선택지 중 하나로 분류하는 방법에 대해 다룰 거예요. 우선 데이터를 실수로 표현하기 위하여 첫 번째 선택지를 0, 두번째 선택지를 1로 정하고 각 데이터를 0이상 1이하의 실수로 나타낼께요. 예를 들어 어떤 데이터가 0.01이라는 것은 첫번째 선택지에 가깝다는 거예요. 만약 데이터가 어떠한 기점을 중심으로 선택지가 갈린다면 다음 그래프와 같이 데이터를 나타낼 수 있겠죠. 우리의 목표는 어떠한 점을 기준으로 데이터의 분류가 갈리는지 알아내서..
선형회귀(Linear Regression)
현실의 많은 것은 양의 상관관계를 가지고 있다. 가령 공부를 많이 하면 시험 점수가 올라가고, 밥을 많이 먹을수록 몸무게가 증가한다. 이러한 것들을 분석하기 위한 모델이 선형 회귀(Linear Regression)이다. 선형회귀분석은 데이터의 입력(X)과 출력(Y)이 선형적인 관계를 가질 것으로 예측한다. 가령 하나의 입력을 받아 하나의 출력을 만드는 데이터는 다음과 같은 관계를 생각할 수 있다. $Y=WX+b$ 일차함수 모양이다. 우리는 이러한 관계를 Hypothesis(가설)이라고 하여 함수 $H(X)$로 표현한다. 즉, 하나의 입력이 있는 선형 회귀의 Hypothesis는 다음과 같다. $H(X)=WX+b$ 여기서 $X$는 입력 데이터, $W$는 웨이트(weight), $b$는 바이어스(bias)이..
인공지능 - 머신러닝의 개념
머신러닝은 왜 필요할까? 머신러닝 이전에는 우린 explicit programming이라 하여 가능한 모든 경우에 대해 대응하는 코드를 작성해서 프로그램을 개발했다. 하지만 프로그램의 요구가 더욱 고도화되면서 모든 경우를 대응하는 것이 불가능해졌다. 예를 들어 대화하는 프로그램을 만든다고 하자. 가능한 모든 발화에 대해서 대답을 정해줘야 하나? 또 이전의 대화에 따라 무한히 많아지는 대화의 경우의 수를 일일이 신경 써줘야 하나? 불가능하다. 그래서 머신러닝은 모든 규칙을 신경 쓰는 대신 수많은 데이터를 보고, 데이터들이 가지는 경향성을 분석하여 결과를 예측한다. 그리고 머신러닝에서 데이터를 보고 경향성을 파악하는 작업을 "학습"이라고 한다. 머신러닝이 학습하는 방식의 종류는 Supervised Learn..