728x90
데이터를 탐색하고 분석하는 과정을 "탐색적 데이터 분석(EDA, Exploratory Data Analysis)"이라고 한다.
EDA가 필요한 이유는 무엇일까?
- 데이터분포와 값을 검토함으로써 데이터가 나타내는 현상을 더 잘 이해할 수 있고, 이상치와 같은 데이터의 잠재적인 문제를 발견하여 해결함으로써 데이터의 품질을 높일 수 있다.
- 문제 정의 단계에서 생각치 못한 다양한 패턴을 발견하고 이를 바탕으로 기존의 가설을 수정하거나, 새로운 가설을 세울 수 있다.
- 변수 간의 상관관계를 파악하여 유의미한 변수를 선택하거나 새로운 특성을 도출하는 데 도움이 된다.
- 데이터 시각화를 통해 인사이트를 도출하고, 이를 다른 이해관계자들과 공유함으로써 의사결정에 도움을 줄 수 있다.
728x90
'자연어 처리(NLP) 공부' 카테고리의 다른 글
BPE(Byte Pair Encoding) 알고리즘 (0) | 2023.06.07 |
---|---|
모델 평가 방법? (0) | 2023.06.02 |
웹 크롤링(Web Crawling)시 주의할 점? (0) | 2023.06.02 |
벤치마크 데이터셋(Benchmark Dataset)이란? (0) | 2023.06.02 |
자연어 처리 진행 순서 (0) | 2023.06.02 |