인형을 위한 컨볼루션 신경망

블로그

인형을 위한 컨볼루션 신경망

CNN(컨볼루션 신경망)은 딥 러닝 기반 이미지 인식의 기초이지만 한 가지 분류 문제만 해결합니다. 사진의 내용이 과거 사례를 기반으로 지정된 이미지 클래스에 연결될 수 있는지 여부를 결정할 수 있습니다. 결과적으로 개와 고양이를 인식하도록 훈련된 심층 신경망에 사진을 보내고 사진에 개 또는 고양이가 포함되어 있는지 알려주는 출력을 얻을 수 있습니다.



네트워크는 사진에 개나 고양이(식별하기 위해 훈련시킨 두 클래스)가 포함된 가능성을 출력하고 출력 합계는 마지막 네트워크 계층이 softmax 계층인 경우 100%입니다. 마지막 레이어가 시그모이드 활성화 레이어인 경우 독립적으로 각 클래스에 속하는 콘텐츠의 확률로 해석할 수 있는 점수를 얻습니다. 확률의 개념을 이해하는 것은 기계 학습 엔지니어 또는 데이터 과학 전문가에게 필수입니다.






점수의 합이 항상 100퍼센트가 되는 것은 아닙니다. 어느 상황에서든 다음이 발생하면 분류에 실패할 수 있습니다.



  • 주요 항목은 예제 신경망에 너구리의 스냅샷을 제공하는 것과 같이 식별하도록 네트워크에 가르친 것이 아닙니다. 이 상황에서 네트워크는 부정확한 개 또는 고양이 응답으로 응답합니다.
  • 주 개체의 일부가 가려집니다. 예를 들어, 당신이 네트워크를 보여주는 사진에서 당신의 고양이는 숨바꼭질을 하고 있고 네트워크는 고양이를 찾을 수 없습니다.
  • 고양이와 개가 아닌 생물을 포함하여 샷에서 찾을 수 있는 다양한 개체가 많이 있습니다. 이 상황에서 네트워크의 출력은 모든 객체가 아닌 단일 클래스만 추천합니다.

아키텍처가 전체 이미지를 주어진 클래스로 출력하기 때문에 간단한 CNN은 아래 인스턴스를 복제할 수 없습니다. 이러한 제약을 해결하기 위해 연구자들은 CNN의 기본 기능을 향상하여 다음 작업을 수행할 수 있도록 했습니다.



발각 물체가 이미지에 존재하는지 여부를 판단하는 과정입니다. 감지는 분류와 달리 이미지의 세그먼트만 포함하기 때문에 네트워크가 동일하거나 다른 클래스의 많은 객체를 감지할 수 있음을 의미합니다. 인스턴스 발견은 불완전한 이미지에서 항목을 발견하는 능력입니다.






빠른 흐름 남성 향상 리뷰

현지화 이미지에서 감지된 물체의 정확한 위치를 결정하는 프로세스입니다. 다양한 형태의 현지화가 가능합니다. 입도를 기준으로 식별된 개체를 포함하는 이미지 영역을 구분합니다.

분할 사물의 픽셀 수준 분류입니다. 로컬라이제이션은 세분화를 통해 논리적 결론에 도달합니다. 이 유형의 신경 모델은 이미지의 각 픽셀에 클래스 또는 엔터티를 할당합니다. 예를 들어 네트워크는 그림의 모든 픽셀에 개 레이블을 지정하고 별도의 레이블로 각 픽셀을 구분합니다. 인스턴스 분할이라고 하는 프로세스입니다.

컨볼루션 신경망을 사용하여 지역화를 수행합니다.

현지화는 아마도 표준 CNN에서 얻을 수 있는 가장 간단한 추가 기능일 것입니다. 딥 러닝 분류 모델 외에도 회귀 모델을 교육해야 합니다. 회귀자는 숫자 추측 모델입니다. 모서리 픽셀 좌표를 사용하여 이미지에서 개체 배치를 정의할 수 있습니다. 즉, 경계 상자를 사용하여 식별된 개체가 이미지에 나타나는 위치를 간단하게 감지할 수 있도록 하는 중요한 측정값을 출력하도록 신경망을 훈련할 수 있습니다. 왼쪽 하단 모서리의 x 및 y 좌표와 개체를 둘러싸는 영역의 너비 및 높이가 일반적으로 테두리 상자를 만드는 데 사용됩니다.

컨벌루션 신경망은 여러 항목을 분류하는 데 사용됩니다.

이미지의 단일 개체만 CNN에서 감지(클래스 예측) 및 지역화(좌표 제공)할 수 있습니다. 이미지에 여러 개체가 포함되어 있는 경우 CNN을 사용하여 두 가지 기존 이미지 처리 솔루션 중 하나를 사용하여 이미지의 각 개체를 찾을 수 있습니다.

슬라이딩 윈도우: 한 번에 이미지의 한 부분만 분석합니다(관심 영역이라고 함). 관심 영역이 충분히 작으면 하나의 개체만 존재할 가능성이 높습니다. CNN은 관심 영역이 작기 때문에 객체를 정확하게 분류할 수 있습니다. 소프트웨어는 이미지 창을 사용하여 보기를 특정 영역(가정의 창과 유사)으로 제한하고 이 창을 이미지 주위로 부드럽게 밀기 때문에 이 기술을 슬라이딩 창이라고 합니다. 이 기술은 효과적이지만 동일한 이미지를 여러 번 감지하거나 사진을 검토하는 데 사용되는 창 크기에 따라 일부 항목이 눈에 띄지 않게 빠져나갈 수 있습니다.

이미지 피라미드: 점점 더 낮은 이미지 해상도를 생성하여 고정 크기 창을 사용하는 어려움을 해결합니다. 결과적으로 작은 슬라이딩 윈도우를 사용할 수 있습니다. 결과적으로 이미지의 항목이 변형되고 축소 중 하나가 사용된 슬라이딩 윈도우에 완벽하게 맞을 수 있습니다.

이러한 방법에는 많은 처리 능력이 필요합니다. 이를 사용하려면 먼저 이미지 크기를 조정한 다음 청크로 분할해야 합니다. 그런 다음 분류 CNN을 사용하여 각 청크를 처리합니다. 이러한 활동에는 실시간으로 출력을 렌더링하는 것이 비현실적인 엄청난 수의 작업이 있습니다.

딥 러닝 연구자들은 슬라이딩 윈도우 및 그림 피라미드와 이론적으로 비슷하지만 계산 비용이 덜 드는 몇 가지 기술을 발견했습니다. 1단계 검출이 첫 번째 방법입니다. 신경망은 사진을 그리드로 나누고 각 그리드 셀에 대해 내부 객체의 클래스에 대한 예측을 생성합니다.

1단계 감지: 그리드 해상도에 따라 예측은 매우 대략적입니다(해상도가 높을수록 딥 러닝 네트워크가 더 복잡하고 느려집니다). 1단계 탐지는 분류를 위한 기본 CNN만큼 빠르며 매우 빠릅니다. 동일한 개체를 나타내는 셀을 함께 그룹화하기 위해 검색 결과를 처리해야 하므로 추가 오류가 발생할 수 있습니다. SSD(Single-Shot Detector), YOLO(You Only Look Once) 및 RetinaNet은 이 개념을 기반으로 하는 신경 아키텍처입니다. 1단계 검출기는 빠르지만 매우 정확하지는 않습니다.

2단계 감지: 2단계 탐지는 두 번째 방법입니다. 이 방법은 첫 번째 신경망의 예측을 개선하기 위해 두 번째 신경망을 사용합니다. 제안 네트워크는 첫 번째 단계이며 그리드에서 예측을 생성합니다. 두 번째 단계는 이러한 아이디어를 구체화하고 최종 물체 감지 및 위치 파악을 생성합니다. R-CNN, Fast R-CNN 및 Faster R-CNN은 모두 1단계 모델보다 느리지만 더 정확한 예측을 제공하는 2단계 탐지 모델입니다.

컨벌루션 신경망은 그림의 여러 개체에 주석을 추가하는 데 사용됩니다.

여러 개체를 감지하도록 딥 러닝 모델을 교육하려면 단순한 분류보다 더 많은 정보가 필요합니다. 주석 절차를 사용하면 표준 이미지 분류에 사용되는 레이블 지정과 달리 각 개체에 대한 이미지 내부의 분류 및 좌표를 모두 제공합니다.

간단한 분류로도 데이터 세트의 사진에 레이블을 지정하는 것은 어려운 작업입니다. 학습 및 테스트 단계에서 신경망은 그림을 올바르게 분류해야 합니다. 네트워크는 태그를 지정하는 동안 각 이미지에 적합한 레이블을 선택하며 모든 사람이 제시된 이미지를 동일한 방식으로 보는 것은 아닙니다. ImageNet 데이터 세트는 Amazon의 Mechanical Turk 크라우드소싱 플랫폼에서 다양한 사용자가 제공한 분류를 사용하여 구축되었습니다. ImageNet은 Amazon의 서비스를 광범위하게 사용하여 2012년에 Amazon의 가장 중요한 학술 고객으로 선정되었습니다.

그림에 주석을 달기 위해 테두리 상자를 사용할 때도 비슷한 방식으로 수많은 사람의 노동력에 의존합니다. 주석은 사진의 각 항목에 라벨을 지정하는 것뿐만 아니라 각 항목을 둘러쌀 최상의 상자를 선택하는 것도 필요합니다. 이 두 가지 책임으로 인해 레이블 지정보다 주석이 더 어려워지고 잘못된 결과가 생성될 가능성이 높아집니다. 올바르게 주석을 달기 위해서는 주석의 정확성에 동의할 수 있는 여러 사람의 협력이 필요합니다.

합성곱 신경망은 이미지를 분할하는 데 사용됩니다.

시맨틱 분할은 라벨링이나 주석과 달리 이미지의 각 픽셀에 대한 클래스를 예측합니다. 이미지의 모든 픽셀에 대한 예측을 생성하기 때문에 이 작업을 밀집 예측이라고도 합니다. 챌린지는 예측에서 서로 다른 개체를 구분하지 않습니다.

예를 들어 시맨틱 분할은 cat 클래스에 속하는 모든 픽셀을 표시할 수 있지만 이미지에서 고양이(또는 고양이들)가 무엇을 하고 있는지 알려주지는 않습니다. 동일한 클래스 예측 아래에 많은 분리된 영역이 존재하는 경우 예측을 실행한 후 개체 픽셀 영역을 얻고 개별 인스턴스를 구별할 수 있기 때문에 후처리를 통해 분할된 이미지의 모든 개체를 간단히 획득할 수 있습니다.

다양한 딥 러닝 시스템을 사용하여 이미지 분할을 수행할 수 있습니다. FCN(Fully Convolutional Networks)과 U-NET(Unified Neural Networks)이 가장 효과적인 두 가지입니다. FCN은 첫 번째 부분(인코더라고 함)에 대해 생성된다는 점에서 CNN과 유사합니다. 첫 번째 컨벌루션 레이어 세트 후 FCN은 인코더의 반대 방향으로 작동하는 두 번째 CNN 세트로 마무리됩니다(디코더로 만들기). 디코더는 입력 이미지의 크기를 조정하고 이미지의 각 픽셀을 픽셀로 분류하여 출력하도록 설계되었습니다. FCN은 이러한 방식으로 이미지의 시맨틱 분할을 달성합니다. 대부분의 실시간 응용 프로그램에서 FCN은 너무 계산 집약적입니다.

U-NET은 2015년 Olaf Ronneberger, Philipp Fischer 및 Thomas Brox가 만든 FCN의 의료용 버전입니다. FCN과 비교할 때 U-NET은 장점이 있습니다. 인코딩(수축이라고도 함) 및 디코딩(확장이라고도 함) 구성 요소는 완전히 대칭입니다. U-NET은 또한 인코더와 디코더 수준 사이의 바로 가기 연결을 사용합니다. 이러한 바로 가기를 사용하면 개체 세부 정보를 인코딩에서 U-NET의 디코딩 구성 요소로 쉽게 전송할 수 있으므로 정확하고 세분화된 세분화가 가능합니다.