728x90
웹 크롤링(Web Crawling):
데이터를 수집하기 위해 웹 페이지를 자동으로 탐색하고 정보를 추출하는 기술

 

 

모델 학습을 위한 데이터 수집 시, 웹 크롤링을 할 경우에 직면할 수 있는 문제에 대해 알아보자.


 

  1. 데이터 일관성 및 정확성 문제
    - 웹은 동적이고 변화하는 환경이므로, 웹 크롤링을 통해 수집된 데이터의 일관성과 정확성이 보장되지 않는다.
    - 정제되지 않은 데이터들이 대부분이고 데이터 편향이 존재할 확률이 높다.


  2. 데이터 양과 처리 복잡성
    - 만약 원하는 작업을 하기 위해 레이블이 필요하다면, 방대한 양의 데이터에 레이블을 붙이는 레이블링 작업이 필요하다. 데이터를 수집하는 것부터 레이블링까지 시간과 비용이 많이 소요된다.


  3. 윤리적 고려사항
    - 개인정보, 저작권, 민감한 정보 등을 적절히 다루는 것이 중요하다. 이러한 것들을 고려하지 않는다면 저작권을 침해하는 등의 윤리적인 문제가 발생할 수 있다.


  4. 법적 제약 사항
    - 해당 사이트의 이용 약관, 로봇 배제 표준 (robots.txt) 등과 같은 법적 제약 사항을 준수해야 한다. 일부 사이트는 웹 크롤링을 금지하거나 특정 조건을 요구할 수 있다. 이러한 법적 제약을 무시하고 웹 크롤링을 진행하는 경우 법적 문제가 발생할 수 있다.


  5. 접근 제한과 차단
    - 일부 웹 사이트는 IP 주소, 사용자 에이전트, 쿠키 등을 통해 웹 크롤링을 차단하거나 접근을 제한할 수 있습니다. 이로 인해 원하는 데이터를 얻지 못할 수도 있다.

 

728x90

+ Recent posts