Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads
Full metadata record
Files in This Item:
There are no files associated with this item.
DC FieldValueLanguage
dc.contributor.author이민정-
dc.date.accessioned2024-08-23T16:34:12Z-
dc.date.available2024-08-23T16:34:12Z-
dc.date.issued2024-
dc.identifier.otherOAK-2015-10658-
dc.identifier.urihttp://postech.dcollection.net/common/orgView/200000807438ko_KR
dc.identifier.urihttps://oasis.postech.ac.kr/handle/2014.oak/124048-
dc.descriptionMaster-
dc.description.abstractThe exponential increase in video content poses significant challenges in terms of efficient navigation, search, and retrieval, thus requiring advanced video summarization techniques. Existing video summarization methods, which heavily rely on visual features and temporal dynamics, often fail to capture the semantics of video content, resulting in incomplete or incoherent summaries. To tackle the challenge, we propose a new video summarization framework that leverages the capabilities of recent Large Language Models (LLMs), expecting that the knowledge learned from massive data enables LLMs to evaluate video frames in a manner that better aligns with diverse semantics and human judgments, effectively addressing the inherent subjectivity in defining keyframes. Our method, dubbed LLM-based Video Summarization (LLMVS), translates video frames into a sequence of captions using an image caption model and then assesses the importance of each frame using an LLM based on the captions in its local context. These local importance scores are refined through a global attention mechanism in the entire context of video captions, ensuring that our summaries effectively reflect both the details and the overarching narrative. Our experimental results demonstrate the superiority of the proposed method over existing ones in standard benchmarks, highlighting the potential of LLMs in the processing of multimedia content.-
dc.description.abstract최근 비디오 콘텐츠의 폭발적인 증가로 인해 효율적인 탐색, 검색 및 조회가 어려워지고 있어, 이를 해결하기 위해 비디오 요약 기술의 필요성이 대두되고 있다. 기존 방법들은 주로 시각적 특징과 시간 정보에 의존하여 주요 프레임이나 세그먼트를 선택하지만, 이러한 방법들은 각 프레임의 의미론적 콘텐츠를 충분히 포착하지 못하는 경우가 많다. 본 연구에서는 이러한 문제를 해결하기 위해 사람만큼 언어를 잘 이해하고 생성하는 대규모 언어 모델의 능력을 활용한 새로운 비디오 요약 프레임워크를 제안한다. 이 방법론은 대규모 언어 모델을 활용하여 비디오 프레임의 각 의미론적 콘텐츠를 잘 포착하고, 이를 바탕으로 각 프레임의 중요도를 평가한다. 먼저 사전 학습된 이미지 캡션 모델을 사용하여 각 비디오 프레임에 대한 설명을 생성한다. 생성된 프레임 설명은 대규모 언어 모델의 입력으로 사용되며, 이때 슬라이딩 윈도우 기법을 통해 로컬 컨텍스트 내에서 중간 프레임의 중요도를 평가한다. 또한, 대규모 언어 모델이 별도의 학습 없이 비디오 요약 작업에 적응할 수 있도록 추가적인 테스크 설명과 예시를 입력으로 같이 제공하여 인컨텍스트 학습을 수행한다. 이후, 대규모 언어 모델의 마지막 트랜스포머 블록에서 쿼리 및 응답 임베딩을 추출하고, 셀프 어텐션 블록을 사용하여 비디오의 글로벌 컨텍스트를 포착하는 방식으로 구성되며, 최종적으로 정답 프레임 중요도와 비교하며 학습을 진행한다. 제안된 방법론은 SumMe 및 TVSum과 같은 표준 벤치마크에서 기존 방법들보다 우수한 성능을 보이며, 멀티미디어 콘텐츠 처리의 잠재력을 강조한다. 결론적으로, 본 연구는 비디오 요약화 분야에서 대규모 언어 모델의 의미론적 이해 능력을 활용함으로써 기존의 방법들에 비해 큰 성능 향상을 이루었음을 입증하며, 멀티미디어 콘텐츠 분석의 새로운 방향을 제시한다.-
dc.languageeng-
dc.publisher포항공과대학교-
dc.titleVideo Summarization with Large Language Models-
dc.typeThesis-
dc.contributor.college인공지능대학원-
dc.date.degree2024- 8-

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse