이미지 가장자리 왜곡에 특화된 도로 객체 탐지

Wooksu Shin
Research Engineer, Nota AI

 

소개

어안 카메라는 넓은 영역을 촬영할 수 있어 소수의 카메라만으로도 효율적인 교통 모니터링이 가능합니다. 그러나 이 카메라로 촬영된 이미지에서 객체를 정확하게 탐지하는 것은 여전히 어렵습니다. 본 연구에서는 어안 카메라로 촬영된 이미지에서 객체 탐지기가 자주 오류를 일으키는 주요 이유를 분석하고, 이를 해결하기 위한 방법을 제안합니다. 특히, 이미지 가장자리에서 객체가 더 작게 나타나는 문제와 비목표 객체(예: 도로 표지판)가 목표 객체(예: 차량)로 잘못 인식되는 왜곡 문제를 다룹니다. 또한, 일반적으로 탐지 성능을 향상시키는 것으로 알려진 다양한 기술을 추가로 적용하여 높은 성능을 달성할 수 있는 도로 객체 탐지기를 제안합니다. 제안된 탐지기는 Track 4 of the 2024 AI City Challenge에서 F1 점수 0.6196으로 2위를 기록했습니다.

 

논문의 주요 메시지

  • 본 연구는 어안 카메라로 촬영된 이미지에서 최신 객체 탐지기가 자주 오작동하는 이유에 대해 분석합니다.

  • 본 연구는 이미지 가장자리에서 객체가 매우 작게 표현되는 문제와 비목표 객체(예: 도로 표지판)가 목표 객체(예: 차량)로 인식되는 왜곡 문제를 다룹니다.

 

연구의 중요성

어안 카메라를 사용한 도로 객체 탐지의 정확도를 크게 향상시킴으로써(F1 점수 0.4734에서 0.6196로 개선됨) 소수의 카메라로 넓은 영역을 커버할 수 있는 어안 카메라의 실질적인 현장 배치 가능성을 높이는 데 기여합니다.

 

방법론 요약

어안 카메라로 촬영된 이미지에서 도로 객체 탐지의 정확도를 높이기 위해, 도메인 특화 기술과 일반적으로 객체 탐지에 효과적인 것으로 알려진 방법을 결합하여 적용했습니다.

  • 도메인 특화 기술

어안 카메라로 촬영된 도로 이미지에서 객체 탐지에는 두 가지 주요 과제에 직면합니다. 첫 번째는, 이미지 가장자리에서 객체가 매우 작게 나타나는 문제입니다. 두 번째는, 가장자리에서 객체 모양이 왜곡되어 비목표 객체가 목표 객체로 잘못 인식될 수 있다는 점입니다.

  1. 작은 객체를 효과적으로 탐지하기 위해, 슬라이스 추론 기법(Slicing Aided Hyper Inference, 이하 SAHI) (Akyon et al., 2022)을 제안합니다. 그림 1에서 볼 수 있듯이, 원본 이미지는 미리 정의된 크기의 슬라이스로 분할한 후 각 슬라이스를 모델의 입력 크기에 맞게 조정해 추론에 사용합니다. SAHI는 다음과 같은 이유로 추론 단계에서 작은 객체를 효과적으로 탐지할 수 있습니다 : 원본 이미지가 모델의 입력 크기보다 작을 경우, 하나의 슬라이스를  모델의 입력 크기로 확대하면 전체 이미지를  축소하는 것보다 객체의 크기가 더 커집니다. 반대로 원본 이미지가 모델의 입력 크기보다 클 경우, 전체 이미지를 축소하여 모델의 입력 크기에 맞춰야 합니다. 그러나 SAHI에서 정의된 하나의 슬라이스는 보통 모델의 입력 크기보다 작기 때문에 이를 모델의 입력 크기에 맞추면 각 객체 크기가 더욱 확대됩니다. 심지어 슬라이스 크기가 모델의 입력 크기보다 크더라도, 원본 이미지를 축소하는 것보다 객체의 크기가 줄어들지 않습니다. SAHI는 슬라이스를 수평 및 수직으로 이동시키며 각 슬라이스에서 예측된 객체를 통합합니다.

  2. 그림 2의 (a)에서 보이는 왜곡된 객체 문제를 해결하고자, 비목표 객체를 학습하는 semi-supervied 학습 방법을 제안합니다. 이 방법은 목표 객체가 아니지만 빈번히 관찰되는 객체에 가짜 레이블(Pseudo Label)을 부여하고 이 데이터를 기반으로 모델을 학습시키는 방식입니다. 즉, 목표 객체뿐만 아니라 다른 객체도 학습해 모델의 객체 판별 능력을 강화하는 것입니다. 가능한 많은 객체 카테고리에 가짜 레이블을 할당하기 위해 Large Vocabulary Instance Segmentation (LVIS) 데이터셋으로 훈련된 Co-DETR(Zong et al., 2023) 모델을 활용합니다. 이 데이터셋은 총 1,203종의 객체 샘플을 포함하고 있습니다. Co-DETR 모델은 현재 이 데이터셋에서 1위를 차지하고 있어, 모델이 모든 객체에 가짜 레이블을 부여할 때 학습 데이터의 노이즈를 최소화할 것으로 기대됩니다. 가짜 레이블이 할당된 학습 데이터로 모델을 훈련함으로써 그림 2의 (b)에서와 같이 도로 표지판이 차량으로 잘못 예측되는 문제를 방지할 수 있습니다.

Road Object Detection Robust to Distorted Objects at the Edge Regions of images

그림 1. 슬라이스 추론의 예시입니다. 위 이미지에서 빨간 상자로 표시된 영역은 모델의 입력 크기에 맞게 크기가 조정된 후 입력됩니다. 그 결과,노란 상자 안의 작은 객체들이 크게 확대되어 모델이 목표 객체를 더 정확하게 탐지할 수 있게 됩니다.

Road Object Detection Robust to Distorted Objects at the Edge Regions of images

그림 2. (a)는 왜곡된 비목표 객체의 잘못된 예측을 보여줍니다. 도로 표지판이 왜곡되어 차량의 윤곽과 시각적으로 유사하게 보이면서 탐지기가 이를 차량으로 잘못 탐지하는 경우가 있습니다. 그러나 이러한 비목표 객체를 학습한 이후, (b)에서 보이는 것처럼 탐지 오류 문제가 해결되었습니다.

  • 일반적인 객체 탐지 방법

    이번 연구에서는 객체 탐지 작업에 일반적으로 효과적인 것으로 알려진 방법들을 활용하여 성능을 더욱 향상시켰습니다.

  1. 데이터 증강: 어안 카메라로 촬영된 이미지는 회전이 자주 발생하므로 훈련 과정에서 회전 증강을 적용했습니다.

  2. 히스토그램 평활화 (Histogram equalization): 이 기술은 좁은 범위의 픽셀 값을 가진 입력 이미지를 변환하여 넓은 범위의 픽셀 값을 가진 고대비 출력 이미지를 생성합니다 (그림 3 참조). 이는 주로 어둡거나 밝은 이미지의 픽셀 분포를 평활화하여 이미지를 더 밝거나 약간 어둡게 만듭니다. 하스토그램 평활화는 추론 단계에서만 사용됩니다.

Road Object Detection Robust to Distorted Objects at the Edge Regions of images

그림 3.  히스토그램 평활화를 통해 픽셀 분포가 변화된 모습입니다.

  • 탐지기 결합

본 연구에서는 다양한 기술을 조합하여 여러 탐지기를 생성했습니다. 결합 방법론으로는 Weighted Boxes Fusion(WBF)(Solovyev et al., 2021)을 사용하여 다른 탐지기에서 예측된 바운딩 박스를 통합했습니다. 그림 4에 나와 있듯이  WBF는 동일한 객체를 예측하는 여러 바운딩 박스의 평균 좌표를 계산하여 단일 바운딩 박스를 생성합니다. 생성된 바운딩 박스의 신뢰도 점수는 이를 생성하는 데 사용된 바운딩 박스들의 평균 신뢰도 점수로 결정됩니다.

Road Object Detection Robust to Distorted Objects at the Edge Regions of images

표 1. 이번 연구에서 사용된 결합된 탐지기들. Swin-L (Liu et al., 2021)과 ViT-L (Dosovitskiy et al., 2021)은 Detection Transformer (DETR) 모델의 기반 구조를 나타내며 Self-Distilled with No Labels (DINO) (Zhang et al., 2023)는 DETR 계열의 아키텍처입니다. Co-DINO (Swin-L)은 Objects365 (Shao et al., 2019)와 Common Objects in Context (COCO) (Lin et al., 2014) 데이터셋으로 사전 훈련되었고 Co-DINO (ViT-L)은 Objects365와 LVIS로 사전 훈련되었습니다. 모든 모델은 FishEye8K (Gochoo et al., 2023) 데이터셋으로 미세 조정되었습니다.

Road Object Detection Robust to Distorted Objects at the Edge Regions of images

그림 4. WBF의 예시입니다. 위의 두 이미지는 서로 다른 모델에 의해 예측된 바운딩 박스를 보여줍니다. 아래의 이미지는 WBF를 사용하여 이 바운딩 박스들이 단일 박스로 결합된 모습을 보여줍니다.

 

실험 결과

  • 작업에 특화된 방법의 효과: 표 2에서 설명된 것처럼 SAHI를 통해 이미지 가장자리의 작은 객체 문제를 효과적으로 해결할 수 있음을 확인했습니다. 또한, 비탐지 대상 객체에 가짜 레이블을 할당한 후 모델을 학습시키는 semi-supervied 학습 방법 통해 탐지 대상과 비탐지 대상을 더 잘 구별할 수 있습니다.

Road Object Detection Robust to Distorted Objects at the Edge Regions of images

표 2. 슬라이스 추론과 semi-supervied 학습 방법을 사용한 제거 실험의 결과입니다.

  • 리더보드: 표 3에서 보이는 것처럼 저희는 작업에 특화된 방법과 일반적인 방법을 결합하여 높은 성능을 달성했으며, 2024 AI City Challenge Track 4에서 2위를 차지할 수 있었습니다.

Road Object Detection Robust to Distorted Objects at the Edge Regions of images

표 3. 2024 AI City Challenge Track 4의 공개 Top 10 리더보드입니다.

 

결론

본 연구에서는 어안 카메라로 촬영된 이미지의 가장자리에서 발생하는 왜곡 및 크기 감소로 인해 성능이 저하되는 문제를 해결하기 위한 방법을 제안했습니다. 여러 일반적인 방법을 결합하여 2024 AI City Challenge Track 4에서 높은 순위를 기록할 수 있었습니다. 그러나 제안된 탐지기는 추론 단계에서 계산 부담이 매우 크다는 단점이 있습니다. 이는 성능을 향상시키기 위해 복잡한 모델을 다수 사용했기 때문이며 실제 환경에 적용하기에는 비효율적일 수 있습니다. 이 문제를 해결하기 위해, 저희는 지식 증류와 네트워크 가지치기 같은 기술을 활용해 결합된 모델을 경량화된 단일 모델로 압축할 계획입니다.

이 연구에 대해 추가로 궁금한 사항이 있으시면, 📧 contact@nota.ai.로 문의해 주세요.

또한, AI 최적화 기술에 관심이 있으시면 🔗 netspresso.ai를 방문해 보세요.


Previous
Previous

향상된 온라인 다중 카메라 인물 추적을 위한 Cluster Self-Refinement

Next
Next

EdgeFusion: 온디바이스 텍스트 기반 이미지 생성