WEB/Study

웹 크롤링과 웹 스크래핑의 개념과 차이점

MoonSta 2023. 8. 10. 18:38

웹 상에서 데이터를 추출하기 위한 방법은 대표적으로 두 가지 방법이 있습니다. 바로 웹 크롤링과 웹 스크래핑입니다. 이 두 가지 데이터 추출 방법의 개념과 차이에 대해 알아보도록 하겠습니다.

 


정보 수집과 데이터 추출

웹에서의 데이터 추출이란 웹 페이지의 HTML 구조를 파싱하고 원하는 정보를 추출하는 과정을 말합니다. 하지만 이러한 데이터 추출 이전에는 반드시 정보 수집 과정이 필요합니다. 따라서 웹 크롤링과 웹 스크래핑에 대한 개념을 알고 있어야 합니다.

 


웹 크롤링(Web Crawling) 이란?

웹 크롤링은 웹 상의 다양한 웹 페이지를 자동으로 탐색하고 수집하는 과정을 의미합니다. 크롤러 혹은 스파이더라고 불리는 프로그램을 사용하여 여러 웹 페이지를 순회하며 링크를 추적하거나 사이트의 내용을 수집합니다. 일반적으로 큰 규모의 데이터 수집이 필요한 경우에만 사용되며, 검색 엔진이나 인덱싱 서비스에서 주로 활용되는 웹 정보 수집 방법입니다.

 

한국을 좋아하는 외국인 이성친구 만드는 "케이메이트"

 

 

웹 스크래핑(Web Scraping) 이란?

웹 스크래핑은 웹 페이지의 내용을 추출하거나 분석하는 과정을 의미합니다. 특정 웹 페이지(단일)에서 필요한 정보를 수집하기 위해 HTML 구조를 파싱 하여 원하는 데이터를 추출하여 필요한 정보를 가져올 수 있으며 웹의 다양한 데이터를 자동으로 수집합니다. 그리고 이러한 수집된 정보(여러 웹의 데이터)를 통해 비교 및 분석이 가능합니다.

 


웹 크롤링과 웹 스크래핑의 차이점

  웹 크롤링 웹 스크래핑
수집 범위 복수 단일
규모 대규모의 데이터 수집 소규모의 데이터 수집

 

위의 내용 이외에도 웹 크롤링은 크롤러라는 자동화된 프로그램을 사용하여 여러 페이지를 탐색하고 데이터를 수집하는 반면에, 웹 스크래핑은 웹 페이지의 HTML 구조를 분석하여 원하는 데이터를 추출합니다. 종합적으로 웹 크롤링은 대규모의 데이터 수집을 하기 위해 사용되고 웹 스크래핑은 웹 페이지의 내용을 조금 더 세부적으로 추출하여 추출된 데이터를 활용하는 과정을 의미합니다.