워드 임베딩
보이기
기계 학습과 데이터 마이닝 |
---|
워드 임베딩(Word embedding)은 자연어 처리(NLP)에서 단어를 표현하는 것이다. 임베딩은 텍스트 분석에 사용된다. 일반적으로 표현은 벡터 공간에서 더 가까운 단어의 의미가 유사할 것으로 예상되는 방식으로 단어의 의미를 인코딩하는 실수 값 벡터이다. 워드 임베딩은 어휘의 단어나 구문이 실수 벡터에 매핑되는 언어 모델링 및 특징 학습 기술을 사용하여 얻을 수 있다.
이 매핑을 생성하는 방법에는 신경망, 단어 동시 발생 행렬의 차원 축소 (통계학), 확률 모델, 설명 가능한 지식 기반 방법, 단어가 나타나는 맥락에 따른 명시적 표현이 포함된다.
단어 및 구 임베딩을 기본 입력 표현으로 사용할 경우 구문 분석 및 감정 분석과 같은 NLP 작업의 성능을 향상시키는 것으로 나타났다.