한국어 형태소 분석기라는 것은, 주어진 어절에 대해서 가능한 모든 형태소 분석 결과를 제시하는 것을 목표로 합니다. 예를 들어, ‘감기는’이라는 어절이 있다면 ‘감기’ 체언과 ‘는’ 조사로 이루어질 수도 있고, ‘감’ 용언, ‘기’ 명사화 접미사, ‘는’ 조사로 이루어질 수 있습니다.

이런 형태소 분석을 하는 통상적인 방법은 사전을 옆에 두고 주어진 어절의 모든 위치에서 나올 수 있는 형태소들을 찾고 그들의 연결 가능성 등을 테스트하면서 형태소열을 구축하곤 합니다.

한편, 오늘 말씀드리고 싶은 유한 상태 변환기를 이용한 형태소 분석 방법도 있습니다. 유한 상태 변환기 (finite-state transducer)라는 모델은,
우리가 알고 있는 유한 상태 오토마타 (finite state automata)의 엣지(edge)에 출력 심벌이 정의되어 있는 것으로 보시면 됩니다.

이렇게 유한 상태 변환기를 이용해서 형태소 분석기를 만들게 되면, 한국어 입력 문장을 그대로 스캐닝하면서 해당 심벌 (음절)을 따라가기만 하면 형태소 분석 결과 심벌이 바로 출력이 됩니다. 이러한 분석 방법은 언어 현상을 표현적으로 기술할 수 있고, 모델 자체가 매우 간단하다는 장점을 가지고 있습니다.

궁금하신 분들은 아래 슬라이드와 동영상을 보시기 바랍니다.


유한 상태 기반의 한국어 형태소 분석기_이상호 from Jieun Lee





저작자 표시 비영리 변경 금지
신고

티스토리 툴바