[AIFFEL 울산 1기] 31. 뉴스기사 크롤링 및 분류
학습 목표
- HTML 문서의 개념에 대해서 이해한다.
- 태그의 형식에 대해서 이해한다.
- 크롤링을 위한 패키지인 BeautifulSoup4의 사용법을 이해한다.
- 머신 러닝 분류 방법인 나이브 베이즈 분류기의 사용법을 익힌다.
후기
학습 내용
31. 뉴스기사 크롤링 및 분류
31.1 웹 이해하기
(1) HTML과 태그
크롤링(crawling) 이란?
웹 페이지로부터 데이터를 추출하는 행위
-> 크롤러(crawler): 크롤링하는 소프트웨어
HTML과 태그(Tag)
HTML(HyperText Markup Language)
웹사이트를 구성하는 마크업 언어
학습 내용
31. 뉴스기사 크롤링 및 분류
31.1 웹 이해하기
(1) HTML과 태그
크롤링(crawling) 이란?
웹 페이지로부터 데이터를 추출하는 행위
-> 크롤러(crawler): 크롤링하는 소프트웨어
HTML과 태그(Tag)
HTML(HyperText Markup Language)
웹사이트를 구성하는 마크업 언어
31.1 웹 이해하기
(1) HTML과 태그
크롤링(crawling) 이란?
웹 페이지로부터 데이터를 추출하는 행위
-> 크롤러(crawler): 크롤링하는 소프트웨어
HTML과 태그(Tag)
HTML(HyperText Markup Language)
웹사이트를 구성하는 마크업 언어
예시)
<!DOCTYPE html>
<html>
<head>
<title> HTML 문서 </title>
</head>
<body>
<h1> 이것은 HTML 문서입니다! </h1>
</body>
</html>
- 태그(Tag): 꺾쇠들로 구성된 코드
-> 위의 HTML 코드는 여러 개의 중첩된 태그로 구성되어 있음
(2) 선택자
선택자(Selector)란?
어떤 특정 태그들에 그룹이나 번호를 주는 기능
-> 선택자의 개념을 이용해서 크롤링을 보다 용이하게 할 수 있다!
31.2 BeautifulSoup 패키지
Author And Source
이 문제에 관하여([AIFFEL 울산 1기] 31. 뉴스기사 크롤링 및 분류), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@jeongkyeongmin/AIFFEL-울산-1기-31.-뉴스기사-크롤링-및-분류저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)