Python: chardet 를 이용 하여 인 코딩 을 검사 합 니 다.

문서 인 코딩 을 검사 하기 좋 은 3 자 라 이브 러 리 chardet다운로드 주소, 문서 주소.
사용법
import urllib
rawdata = urllib.urlopen('http://www.51voa.com/VOA_Standard_English').read()
import chardet
chardet.detect(rawdata)

#{'confidence': 1.0, 'encoding': 'UTF-8'}

문자열 이 라면 바로 뒤에 만 있 으 면 돼 요.
그리고 아래 와 같은 문 구 를 사용 하면 원 하 는 인 코딩 으로 인 코딩 할 수 있 습 니 다.
htm=unicode(text,'gb2312','ignore').encode('utf-8','ignore')

혹은
soup=BeautifulSoup(s,fromEncoding="GBK")

beautifulsoup 의 기본 출력 인 코딩 은 utf - 8 입 니 다.

좋은 웹페이지 즐겨찾기