[인플루언스 뉴스 | 임규리 기자] KAIST 전산학부 이재길 교수 연구팀이 심층신경망 훈련 비용을 최소화하기 위한 새로운 데이터 선택 기술을 개발했다. 이 기술은 훈련 데이터의 양을 줄임으로써 훈련 비용을 절감한다.
현재 인공지능(AI) 방법론인 재레이블링 학습법은 훈련 중에 데이터의 레이블 오류를 자체적으로 수정하며 높은 성능을 달성하지만, 추가적인 과정으로 인해 훈련 시간이 증가하는 단점이 있다. 연구팀이 개발한 기술은 핵심 집합 선별을 통해 이러한 훈련 비용을 최소화할 수 있도록 지원한다.
연구팀은 레이블 오류를 수정하는 정확도가 데이터의 이웃 데이터 신뢰도와 상관관계가 높다는 사실을 발견하고, 이를 기반으로 전체 데이터의 이웃 신뢰도를 최대화하는 데이터 부분 집합을 선별하는 방법을 제안했다.
이 기술은 다양한 실세계 훈련 데이터를 사용하여 검증되었으며, 표준 학습법에서 최대 9%, 재레이블링 학습법에서 최대 21%의 성능 향상을 보였다. 또한, 탐욕 알고리즘을 사용하여 기존 방법론에 비해 시간을 대폭 절약할 수 있으며, 대용량 데이터에도 확장 가능하다고 한다.
박동민 박사과정 학생은 이 기술이 실제 기계 학습 문제에 폭넓게 적용될 수 있어 심층 학습의 훈련 데이터 준비 비용을 절감하는데 기여할 것이라고 언급했다. 연구 결과는 신경정보처리시스템학회(NeurIPS) 2023에서 발표될 예정이다.