웹 상에서 데이터를 추출하기 위한 방법은 대표적으로 두 가지 방법이 있습니다. 바로 웹 크롤링과 웹 스크래핑입니다. 이 두 가지 데이터 추출 방법의 개념과 차이에 대해 알아보도록 하겠습니다.
정보 수집과 데이터 추출
웹에서의 데이터 추출이란 웹 페이지의 HTML 구조를 파싱하고 원하는 정보를 추출하는 과정을 말합니다. 하지만 이러한 데이터 추출 이전에는 반드시 정보 수집 과정이 필요합니다. 따라서 웹 크롤링과 웹 스크래핑에 대한 개념을 알고 있어야 합니다.
웹 크롤링(Web Crawling) 이란?
웹 크롤링은 웹 상의 다양한 웹 페이지를 자동으로 탐색하고 수집하는 과정을 의미합니다. 크롤러 혹은 스파이더라고 불리는 프로그램을 사용하여 여러 웹 페이지를 순회하며 링크를 추적하거나 사이트의 내용을 수집합니다. 일반적으로 큰 규모의 데이터 수집이 필요한 경우에만 사용되며, 검색 엔진이나 인덱싱 서비스에서 주로 활용되는 웹 정보 수집 방법입니다.
웹 스크래핑(Web Scraping) 이란?
웹 스크래핑은 웹 페이지의 내용을 추출하거나 분석하는 과정을 의미합니다. 특정 웹 페이지(단일)에서 필요한 정보를 수집하기 위해 HTML 구조를 파싱 하여 원하는 데이터를 추출하여 필요한 정보를 가져올 수 있으며 웹의 다양한 데이터를 자동으로 수집합니다. 그리고 이러한 수집된 정보(여러 웹의 데이터)를 통해 비교 및 분석이 가능합니다.
웹 크롤링과 웹 스크래핑의 차이점
웹 크롤링 | 웹 스크래핑 | |
수집 범위 | 복수 | 단일 |
규모 | 대규모의 데이터 수집 | 소규모의 데이터 수집 |
위의 내용 이외에도 웹 크롤링은 크롤러라는 자동화된 프로그램을 사용하여 여러 페이지를 탐색하고 데이터를 수집하는 반면에, 웹 스크래핑은 웹 페이지의 HTML 구조를 분석하여 원하는 데이터를 추출합니다. 종합적으로 웹 크롤링은 대규모의 데이터 수집을 하기 위해 사용되고 웹 스크래핑은 웹 페이지의 내용을 조금 더 세부적으로 추출하여 추출된 데이터를 활용하는 과정을 의미합니다.
'WEB > Study' 카테고리의 다른 글
분산 데이터 스트리밍 플랫폼 카프카(Kafka와) 카프카 성능 알아 보기 (6) | 2023.10.01 |
---|---|
CSR과 SSR는 어떤 차이가 있을까? (9) | 2023.08.02 |