자연어 처리(NLP) 공부
자연어 처리 개요
🐱👤지식닌자
2023. 8. 16. 18:39
728x90
- 자연어 이해(NLU): 기계가 자연어를 이해하게 하기 위한 방법을 연구하는 자연어 처리 하위 분야. 텍스트에서 나타나는 의도나 감정, 질문을 이해하게 하는 것이다.
- 자연어 생성(NLG): 기계가 자연어를 직접 생성하도록 하는 방법을 연구하는 자연어 처리 하위 분야.
다양한 자연어 처리 Task
- Text-to-Data and vice versa: 텍스트로부터 정보를 추출하거나, 데이터를 텍스트 형식으로 변환하는 과정을 다룬다. 예를 들어, 텍스트에서 날짜, 위치, 이벤트 등의 정보를 추출하거나, 반대로 표 데이터를 텍스트로 설명하는 것이 이에 속한다.
- Text Preprocessing: 텍스트 데이터를 분석 가능한 형태로 변환하는 단계를 의미한다. 이 작업은 텍스트의 대소문자 조정, 특수 문자 제거, 토큰화 등을 포함한다.
- Fake News and Hate Speech Detection: 텍스트에서 가짜 뉴스나 혐오 표현과 같은 부정적인 내용을 탐지하는 작업이다.
- Text Reasoning(텍스트 추론): 주어진 텍스트 정보를 사용하여 논리적 추론이나 결론 도출을 수행하는 작업이다.
- Chatbots: 사용자와 대화하며 자연스러운 방식으로 응답하는 컴퓨터 프로그램 또는 시스템을 개발하는 작업이다.
- Topics and Keywords: 텍스트 데이터의 주요 주제나 키워드를 식별하고 추출하는 작업이다.
- Knowledge Bases, Entities and Relations: 텍스트에서 개체(entity)를 식별하고, 이들의 관계 및 지식 베이스를 구축하는 작업이다. 지식 베이스는 사전에 정의된 개체와 그들 간의 관계를 나타내는 정보 집합을 말하며, 예를 들어 "Steve Jobs"와 "애플"의 "창립자" 관계와 같은 정보가 포함된다.
- Text-to-Text Generation: 주어진 텍스트나 문장을 기반으로 새로운 텍스트를 생성하는 작업으로, 기계 번역, 요약, 대화 생성 등이 포함된다.
- Information Retrieval and Document Ranking: 주어진 질문이나 키워드에 대해 관련성 있는 문서를 검색하고, 이들을 유사도에 따라 순위를 지정하는 작업이다.
다음과 같은 문서들이 있을 때,
Doc1 = "인공지능의 역사와 발전 과정"
Doc2 = "빅데이터의 활용 분야와 전망"
Doc3 = "컴퓨터 비전 기술의 현황과 동향"
사용자가 "인공지능의 발전 과정"이라는 검색어를 입력했다면, 가장 관련성 높은 문서가 먼저 나오게 함으로써 사용자가 원하는 정보에 빠르게 접근할 수 있도록 한다. - Classification: 텍스트 데이터를 미리 정의된 범주로 분류하는 작업으로, 스팸 메일 필터링, 감정 분석, 주제 분류 등이 이에 속한다.
728x90