ADVERTISEMENT

KAIST 윤성의 교수팀, 구글 딥마인드 ‘AI 국제대회’ 세계 1위

- 영상 속 ‘결정적 순간’ 스스로 찾아내는 AI 기술 개발
- 자율주행·로봇 등 영상 이해 기반 기술 활용 기대

이번 연구를 수행한 KAIST 전산학부 연구진. 조윤기(왼쪽부터), 서진환 박사과정, 윤성의 교수, 노준혁(왼쪽 원 안) 이화여대 교수.[KAIST 제공]

[헤럴드경제=구본혁 기자] ‘카메라가 다른 곳을 비추는 사이 사라진 물체는 무엇 인가요?’라는 복잡한 질문이 나오면 AI는 많은 경우 영상 속 실제 상황을 보고 판단하는 것이 아니라, 언어 패턴에 의존해 ‘그럴듯한 답’을 추측하는 문제가 있다.

국내 연구진이 이 한계를 해결하기 위해 영상 속 ‘딱 중요한 순간(Trigger moment)’을 AI가 스스로 찾아내도록 하는 기술을 개발했다.

KAIST는 전산학부 윤성의 교수 연구팀이 이화여대 노준혁 교수 연구팀과 공동 연구를 통해, 세계적 권위의 컴퓨터 비전 학회 ICCV 2025에서 열린 영상 근거 기반 질의응답(Grounded Video Question Answering) 트랙에서 1위를 차지했다고 28일 밝혔다.

이번 ICCV 2025에서 열린 인지 테스트 대회(Perception Test Challenge)는 구글 딥마인드가 주관, 총 상금 50000 유로(한화 약 8300만원)가 걸린 대회다.

영상·음성·텍스트 등 다양한 데이터를 종합적으로 이해하는 멀티모달 AI의 인지 및 추론 능력을 평가한다. 특히 언어 중심 편향을 벗어나 실제 영상 근거를 바탕으로 판단하는 능력이 핵심 평가 요소다.

KAIST 연구팀은 영상 전체를 무작정 분석하는 기존 방식과 달리, AI가 정답을 위해 꼭 필요한 핵심 장면(Trigger moment)을 먼저 찾아내도록 만드는 새로운 기술을 개발했다. 쉽게 말하면, “이 질문에 답하려면 이 장면이 결정적이야!”를 AI가 스스로 찾아내도록 설계한 기술이다.

즉 ‘핵심 장면 한 컷을 정확히 찍고, 그 장면을 중심으로 정답 근거를 추적하는 방식’덕분에 영상 초반 오판이나 가려짐 같은 문제도 크게 줄었다.

총 23개 팀이 참여한 영상 근거 기반 질의응답 트랙에서 KAIST팀 정확도에서 0.4968점을 기록하며 2등 미국 콜럼비아대의 0.4304점을 압도적인 점수 차로 벌리며 1위를 차지했다. 이는 전년도 우승 기록 0.2704점보다도 약 두 배에 가까운 성과다.

이 기술은 실생활에서도 넓게 쓰일 수 있다. 자율주행차는 사고 위험이 있는 순간을 정확히 보고, 로봇은 주변 상황을 더 똑똑하게 이해한다. 또 보안·감시 시스템은 중요한 장면을 빠르게 찾아내고, 미디어 분석에서는 사람이나 사물의 행동을 시간 순서대로 정확히 추적할 수 있다.