Natural Language Understanding

 

공상 과학이 즐겨 다루는 대상은, 「2001년」에서의 HAL 과 같이 사악하든, 또는 「별들의 전쟁」에서 C3PO 처럼 쓸모 있든, 언어를 이해하고 말할 수 있는 컴퓨터나 로봇이다. 인공지능 연구자들은 언어를 이해하고 생성할 수 잇는 컴퓨터를 개발하려고 노력해 왔다. 약간의 진전이 이루어지고 있지만, 현재의 언어 연구에서 나온 명백한 사실에 비추어, 언어를 실제로 처리할 수 있는 기계가 발명되면 그것은 기념비적 업적이 될 것이다. 언어는 방대한 양의 지식과 지능을 기초로 성공적으로 사용된다.

컴퓨터가 자연어를 이해하는 과정은 다음과 같다.

  1. 신호처리 (Signal Processing) : a spoken bit of language 를 취해서 단어들의 순서로 변화시키는 작업으로 신호를 디지털화 하고 단어 조각 (word segments) 들을 구분한다. 취급되는 언어 요소는 phonemes (음소, 음성의 최소단위) 이다.
  2. 형태분석 (Morphological Analysis) : 각 단어들이 그들의 구성요소로 분해되고, non-word tokens (구두점  같은것)은 단어로부터 분리된다. 예를 들면 "Bill's house" 에서 명사 Bill 과 접미사 's 로 구분된다. 취급되는 언어 요소는 morpheme (형태소, 뜻을 가지는 최소의 언어 단위) 이다.  
  3. 구문분석 (Syntactic Analysis) : 단어들의 선형적 순서는 서로간에 어떻게 관계되는지를 보여주는 구조로 변형된다. 이러한 파싱 (Parsing) 과정은 문장에서 단어들의 리스트를 "de-linearization" 시켜서 트리형식으로 변환한다. 문장의 syntax 를 표현하기 위한 대표적인 문법에는 문맥자유 문법 (Context Free Grammar)확장천이문법 (Augmented Transition Network) 이 있다. 
  4. 의미분석 (Semantic Analysis) : syntactic analyzer 에 의해 생성된 구조들에 의미 (meaning) 가 부여된다.  문장 "Colorless green ideas sleep furiously" (Noam Chomsky, 1957) 이 주어진다면 누구나 의미가 비정상 (semantically anomalous) 이라고 할것이다. 이 단계에서는 각 단어가 지식베이스에서의 적절한 개체로 mapping 되어서, 각 단어의 의미가 서로 결합하는 방법으로 정확한 구조를 만들어야 한다. 의미구조를 표현하는 대표적인 문법에는 의미망 (Semantic Network), 격문법 (Case Grammar), 몬테규문법 (Montague Grammar), 개념의존 (Conceptual Dependency) 가 있다.  
  5. 담화통합 (Discourse Integration) : 각 문장의 의미는 앞선 문장에 의해 영향을 받고 다음 문장에 영향을 미친다. 문장에 포함된 존재들은 명확히 규정되어야 하고 이전의 존재와 관련되어 있어야 한다. 전체적인 discourse (이야기, 담화) 는 긴밀히 밀착되어야 한다.  
  6. 화용분석 (Pragmatic analysis) : 말로써 표현하려던 것이 실제로 무엇을 의미하는 것이었는지를 결정하기위해 재해석되어야 한다.  

term :

자연어이해 (Natural Language Understanding)     자연어처리 (Natural Language Processing)   이해 (Understanding)   인공지능 (Artificial Intelligence)   HAL   언어 (Language) 

site :

AI Topics : Natural Language Understanding

paper :

자연언어의 이해 : 김재희

자연어 이해 : 김화수.고순주

언어이해 : John R. Anderson