728x90
웹 크롤링(Web Crawling):
데이터를 수집하기 위해 웹 페이지를 자동으로 탐색하고 정보를 추출하는 기술
모델 학습을 위한 데이터 수집 시, 웹 크롤링을 할 경우에 직면할 수 있는 문제에 대해 알아보자.
- 데이터 일관성 및 정확성 문제
- 웹은 동적이고 변화하는 환경이므로, 웹 크롤링을 통해 수집된 데이터의 일관성과 정확성이 보장되지 않는다.
- 정제되지 않은 데이터들이 대부분이고 데이터 편향이 존재할 확률이 높다. - 데이터 양과 처리 복잡성
- 만약 원하는 작업을 하기 위해 레이블이 필요하다면, 방대한 양의 데이터에 레이블을 붙이는 레이블링 작업이 필요하다. 데이터를 수집하는 것부터 레이블링까지 시간과 비용이 많이 소요된다. - 윤리적 고려사항
- 개인정보, 저작권, 민감한 정보 등을 적절히 다루는 것이 중요하다. 이러한 것들을 고려하지 않는다면 저작권을 침해하는 등의 윤리적인 문제가 발생할 수 있다. - 법적 제약 사항
- 해당 사이트의 이용 약관, 로봇 배제 표준 (robots.txt) 등과 같은 법적 제약 사항을 준수해야 한다. 일부 사이트는 웹 크롤링을 금지하거나 특정 조건을 요구할 수 있다. 이러한 법적 제약을 무시하고 웹 크롤링을 진행하는 경우 법적 문제가 발생할 수 있다. - 접근 제한과 차단
- 일부 웹 사이트는 IP 주소, 사용자 에이전트, 쿠키 등을 통해 웹 크롤링을 차단하거나 접근을 제한할 수 있습니다. 이로 인해 원하는 데이터를 얻지 못할 수도 있다.
728x90
'자연어 처리(NLP) 공부' 카테고리의 다른 글
모델 평가 방법? (0) | 2023.06.02 |
---|---|
탐색적 데이터 분석(EDA, Exploratory Data Analysis)이 왜 필요할까? (0) | 2023.06.02 |
벤치마크 데이터셋(Benchmark Dataset)이란? (0) | 2023.06.02 |
자연어 처리 진행 순서 (0) | 2023.06.02 |
여러 가지 자연어 처리 Task를 알아보자! (0) | 2023.06.02 |