Classification Matters: Improving Video Action Detection with Class-specific Attention
- Title
- Classification Matters: Improving Video Action Detection with Class-specific Attention
- Authors
- 이진성
- Date Issued
- 2024
- Abstract
- 영상 행동 인식은 영상 속에 등장하는 행위자들의 위치와 행동을 동시에 맞히는 문제이다.
이 문제는 이미지에서 고전적으로 다뤄져 온 객체 인식 문제를 단순히 시간 축으로 확장한 문제라고 볼 수도 있지만, 영상 행동 인식은 객체 인식과 달리 클래스 분류 문제에 훨씬 큰 어려움을 겪는 것으로 나타났다.
본 논문은 기존의 방법들이 클래스 분류 시 행위자와 주변 맥락과의 상호작용은 잘 보지 못하고 주로 행위자들의 신체 부위에 집중한다는 관찰 결과와 그 이론적 근거를 제시한다.
또, 이러한 문제를 극복하기 위해 클래스 별로 각각 다른 맥락에 집중하게 하는 방법을 제안한다.
제안된 방법은 각 클래스마다 클래스 쿼리(class query)를 할당하고, 이들이 각 행동 분류에 필요한 자세한 부분들을 관찰하게끔 한다.
이렇게 관찰한 부분들은 기존 방법들과 달리 행위자의 신체 부분에 국한되지 않으며, 각 행동 클래스 분류에 필요한 단서들을 담는다.
제안한 방식은 영상 행동 인식 벤치마크 위에서 기존 최고의 영상 행동 인식 모델보다 나은 효율로 더 좋은 성능을 입증한다.
Video action detection (VAD) aims to detect actors and classify their actions in a video. Although the task can be seen as a temporally-extended version of a classic computer vision task, object detection, it turns out that VAD suffers more from clas- sification rather than localization of actors. We figure that dominant methods in the field tend to focus on actor body regions for classification, then often miss the actor- related context in the background. Accordingly, we propose to reduce the model’s bias toward the actor itself and encourage it to pay attention to context that is more condi- tioned to each class. By assigning a class-dedicated query for each label, the model can dynamically determine where it needs to focus on for effective classification. The proposed method demonstrates competitive performance on three challenging bench- marks, even outperforming those methods that employ a larger number of frames and powerful backbones.
- URI
- http://postech.dcollection.net/common/orgView/200000732770
https://oasis.postech.ac.kr/handle/2014.oak/123402
- Article Type
- Thesis
- Files in This Item:
- There are no files associated with this item.
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.