본문 바로가기

분류 전체보기

(146)
논문- You Only Look Once Abstract기존 연구에서와 달리 object detection을 회귀 문제로 구성. 이미지 전체를 한 번에 분석하여 바운딩 박스와 클래스 확률을 에측전체 탐지 파이프라인이 하나의 뉴럴 네트워크 상에서 이루어지기 때문에 탐지 퍼포먼스의 최적화가 가능초당 45 프레임의 속도로 객체 탐지가 가능함조금 더 작은 모델인 Fast YOLO의 경우 155프레임의 속도로 객체 탐지가 가능1. Introduction기존 R-CNN과 같은 방식은 느리고 비효율적. 이는 모든 물체들이 독립적으로 학습되기 때문임.Object가 존재할 것으로 추정되는 곳에 잠재적 bounding box 생성classifier로 bounding box 분류겹치는 bounding box를 제거하기 위한 후처리해당 scene에 존재하는 다른 o..
논문- ImageNet Classification with Deep ConvolutionalNeural Networks AbstractImageNet은 일부는 max-pooling layer가 적용된 5개의 Convolution layer, 3개의 fully-connected layer, classifying을 위한 1000 way softmax가 적용된 구조이다.또한 논문에서는 오버 피팅을 방지하기 위한 regularization method인 ‘drop out’을 제시한다.1. Introduction이미지 넷의 방대한 규모(22,000개 카테고리, 1500만 개의 라벨링된 이미지로 구성)해당 뉴럴 네트워크는 5개의 convolutional layer, 3개의 fully-connected layer로 구성 되었으며 이중 어떠한 conv layer를 제거하는 것은 심각한 성능 저하로 이어졌음을 발견함.2. The Data..
논문리뷰- A Survey on Antispoofing Schemes for Fingerprint Recognition Systems 주제 이 논문에서는 위조지문을 통한 위조 공격의 위험성과 안티 스푸핑을 통한 대책들에 대해서 다루고 있다.안티 스푸핑 기법들은 하드웨어 기반과 소프트웨어 기반의 방법들이 혼합되어 있으며, 논문에서는 지문 안티 스푸핑에 대한 문헌을 검토하고 최신 동향을 제시한다.지문의 구조지문의 패턴은 크게 세가지 단계에서 표현된다.  1단계(global level)1단계에서는 지문의 ridge, valley들의 위치를 전체적으로 파악 가능하며 해당 지문의 형태 또한 파악이 가능하다.2단계(local level)minutiae points 혹은 Galton characteristics 으로부터 참조되는  ridge들의 끝 부분, 분기 부분등의 여러 요소로 구성된다. 3단계(fine level)땀구멍이나 초기 능선과 같은 ..
RNN Sequence Data 문장과 같이 전체적인 맥락이 존재하는 데이터를 의미한다.RNN RNN은 위 그림처럼 이전 cell의 output을 현재 cell의 input으로 받아서 순차적으로 state를 처리하게 된다. 이를 수식으로 표현하게 되면 h.t = f.w(h.t-1, x.t)로 표현할 수 있다.   rnn의 경우 h와 x를 인풋으로 받게 된다. 이를 일반적인 wx+b의 구조로 적용을 하게되면 (bias는 생략)h.t = tanh(W.hh*h.t-1 + W.xh*x.t)로 표현된다. 따라서 h.t-1과 x.t는 각각 별도의 weight를 가지게 됨을 알 수 있다. 다음 state를 구하기 위한 h.t는 이렇게 구하고 현재의 output인 y.t는 y.t = W.hy * h.t로 이는 h.t를 이용해..
CNN Convolutional Layer conv 레이어가 적용된 DNN를 convolutional neural network, 줄여서 cnn이라고 한다. cnn의 특징으로는 필터가 존재하여 해당 필터가 이미지를 훑으면서 지나가게 된다. 해당 필터는 자기가 훑은 부분의 정보만을 담당하게 된다. 한 필터가 담당한 영역의 픽셀 값들은 하나의 값을 가지게 된다.예를 들어서 사이즈가 (3, 3, 3)짜리 필터이라면, (3, 3) 픽셀을 .stride만큼 훑으면서 지나가게 된다. 이때 (3, 3) 픽셀이니 [[x1,x2,x3], [x4,x5,x6], [x7,x8,x9]] 의 input값을 가지게 될 것이고, 이 때 필터는 이에 상응하는 (3, 3) 가중치를 가지고 있다.따라서 해당 필터가 담당한 부분은의 값을 가지게 ..
Activation function과 Weight initialization Activation Functions많은 레이어의 연결 Deep learning시 여러개의 레이어를 연결하여서 깊게 구조를 구현하게 되는데 이때, 너무 깊게 레이어를 구성하게 되면 gradient vanishing 문제에 의해서 이전레이어로 전달되어야할 미분값이 사라져 전달되지 않게 된다. 이를 해결하기 위해서 activation function에 변화를 주어야했다. 기존에는 sigmoid를 activation function으로 많이 사용했었는데 sigmoid는 output이 0~1사이의 값만을 가지게 되므로 BackPropagation 과정에서 1 이하의 값만이 연속적으로 곱해지게 되어 미분값이 점점 사라지게 된다.(0으로 수렴하게 된다).결국 sigmoid 말고 다른 activation functi..
Overfitting 방지 적절한 Learning rate 조정의 필요성 학습을 하는 과정에서 learning rate를 너무 크게 잡은 경우 학습이 제대로 진행되지 않는다.global minimum에 수렴하는 과정에 있어 lr이 너무 작은 경우 학습 속도가 너무 느리거나 local minimum에 수렴하는 등의 문제가 발생할 수 있다. 물론 local minimum의 경우 단순히 lr을 조정하는 것으로는 해결하기 어려울 수 있다.반면에 lr이 너무 큰 경우 minimum에 수렴하지 못하고 계속 발산하여 cost가 감소하기는 커녕 오히려 증가하며 학습이 불가할 수 있다.  따라서 적절한 lr을 정하는 것은 중요하다. 일반적으로 처음에는 0.01정도로 잡고 추이를 보고 조정하는 과정을 거친다.PreProcessing 예를 들어 두개..
Multinomial Classification 여러개의 Class로 Classification 기존 logistic classification은 단 두개의 클래스로만 구분이 가능하였다. 여러개의 클래스로 classify를 하게되는 경우를 multinomial classification이라고 한다.  사실 multinomial classification도 logistic classification을 반복적으로 수행함으로써 구현이 가능하다.예컨데, y = [A, B, C]로 세개의 클래스로 classify를 하게된다면A인지 아닌지B인지 아닌지C인지 아닌지위의 세 단계를 거쳐서 충분히 A, B, C 세개의 클래스로 구별이 가능하다.   예컨데 logistic classification으로 세개의 클래스 a,b,c를 분류한다고 하면 위와 같은 세개의 H(x..