[AIFFEL 울산 1기] 31. 뉴스기사 크롤링 및 분류

학습 목표

  • HTML 문서의 개념에 대해서 이해한다.
  • 태그의 형식에 대해서 이해한다.
  • 크롤링을 위한 패키지인 BeautifulSoup4의 사용법을 이해한다.
  • 머신 러닝 분류 방법인 나이브 베이즈 분류기의 사용법을 익힌다.

후기


학습 내용

31. 뉴스기사 크롤링 및 분류

31.1 웹 이해하기

(1) HTML과 태그

크롤링(crawling) 이란?

웹 페이지로부터 데이터를 추출하는 행위
-> 크롤러(crawler): 크롤링하는 소프트웨어

HTML과 태그(Tag)

HTML(HyperText Markup Language)
웹사이트를 구성하는 마크업 언어

예시)

<!DOCTYPE html>
<html>
  <head>
    <title> HTML 문서 </title>
  </head>
  <body>
    <h1> 이것은 HTML 문서입니다! </h1>
  </body>
</html>
  • 태그(Tag): 꺾쇠들로 구성된 코드
    -> 위의 HTML 코드는 여러 개의 중첩된 태그로 구성되어 있음

(2) 선택자

선택자(Selector)란?

어떤 특정 태그들에 그룹이나 번호를 주는 기능

-> 선택자의 개념을 이용해서 크롤링을 보다 용이하게 할 수 있다!

31.2 BeautifulSoup 패키지

좋은 웹페이지 즐겨찾기