본문 바로가기

AI

Logistic Regression

Sigmoid Function

 시그모이드 함수는 어떠한 값이 들어가든 항상 그 값이 1과 0 사이를 가진다는 특징이 존재한다. 이러한 특성을 통해서 regression에 적용을 할 수 있다.

 

Logistic Hypothesis

 기존의  hyphothesis 함수 (이하 H(x))는 H(x) = Wx + b의 형태로 정의하였다. 하지만 이렇게 함수를 정의하는 경우 classification을 적용하는 과정에서 인풋 x가 outlier에 해당하는 등의 경우 학습에 취약할 수 있다는 단점이 존재한다.

그렇기에 최대한 outlier를 방지하는 과정의 일환으로 기존 H(x) = Wx + b에 sigmoid 함수를 적용한 형태인 logistic hyphothesis를 적용한다.

 

Cost Function의 적용

 logistic hyphothesis에 L2 - loss를 적용하면 Wx+b와 달리 local minimum 문제가 발생하여 L2 - loss를 적용할 수 없다.
따라서 새로운 종류의 cost function을 적용하게 된다.  

 

H(X)에 L2 loss를 적용한 경우 local minimum이 발생한 이유는 e^-x 때문이다. 이때 새로운 cost function의 경우 내부에

log 함수를 적용함을 볼 수 있는데 log를 씌움으로써 e를 상쇄하는 효과를 가져 local minimum을 제거하는 원리이다.

여기서 y는 실제 label 값을 의미한다.

또한 위의 식은 y값에 따라서 서로다른 함수를 적용해야한다는 귀찮음이 존재한다.

 

Binary Cross Entropy

 

 따라서 수식을 위와 같이 수정하여 하나의 식으로 사용한다.

위의 손실함수는 이진 분류에 사용하기에 Binary cross entropy 라고 한다.

 

정리

따라서 정리하자면 Logistic Regression은 두개의 클래스간의 분류문제에 적용할 수 있다. 시그모이드를 적용함으로써 outlier에 강건한 모습을 보인다.

 

이때 H(X)는 다음과 같은 모습이다.

Cost Function은 다음과 같다.