웹 크롤링(Web Crawling)시 주의할 점?

🐱‍👤지식닌자 2023. 6. 2. 22:23

2023. 6. 2. 22:23

728x90

웹 크롤링(Web Crawling):
데이터를 수집하기 위해 웹 페이지를 자동으로 탐색하고 정보를 추출하는 기술

모델 학습을 위한 데이터 수집 시, 웹 크롤링을 할 경우에 직면할 수 있는 문제에 대해 알아보자.

데이터 일관성 및 정확성 문제
- 웹은 동적이고 변화하는 환경이므로, 웹 크롤링을 통해 수집된 데이터의 일관성과 정확성이 보장되지 않는다.
- 정제되지 않은 데이터들이 대부분이고 데이터 편향이 존재할 확률이 높다.
데이터 양과 처리 복잡성
- 만약 원하는 작업을 하기 위해 레이블이 필요하다면, 방대한 양의 데이터에 레이블을 붙이는 레이블링 작업이 필요하다. 데이터를 수집하는 것부터 레이블링까지 시간과 비용이 많이 소요된다.
윤리적 고려사항
- 개인정보, 저작권, 민감한 정보 등을 적절히 다루는 것이 중요하다. 이러한 것들을 고려하지 않는다면 저작권을 침해하는 등의 윤리적인 문제가 발생할 수 있다.
법적 제약 사항
- 해당 사이트의 이용 약관, 로봇 배제 표준 (robots.txt) 등과 같은 법적 제약 사항을 준수해야 한다. 일부 사이트는 웹 크롤링을 금지하거나 특정 조건을 요구할 수 있다. 이러한 법적 제약을 무시하고 웹 크롤링을 진행하는 경우 법적 문제가 발생할 수 있다.
접근 제한과 차단
- 일부 웹 사이트는 IP 주소, 사용자 에이전트, 쿠키 등을 통해 웹 크롤링을 차단하거나 접근을 제한할 수 있습니다. 이로 인해 원하는 데이터를 얻지 못할 수도 있다.

728x90

모델 평가 방법? (0)	2023.06.02
탐색적 데이터 분석(EDA, Exploratory Data Analysis)이 왜 필요할까? (0)	2023.06.02
벤치마크 데이터셋(Benchmark Dataset)이란? (0)	2023.06.02
자연어 처리 진행 순서 (0)	2023.06.02
여러 가지 자연어 처리 Task를 알아보자! (0)	2023.06.02

아는 것의 미학 🌼