Python 및 기계 학습으로 가짜 뉴스 탐지.

2100 단어
안녕하세요 👋! 개발자 만나서 반갑습니다 😄. 여기서는 파이썬을 사용하여 가짜 뉴스를 탐지하는 방법에 대해 설명합니다. 이 기사는 가짜 뉴스를 성공적으로 탐지하기 위해 Python과 NLP를 사용하여 기계 학습 모델을 만드는 과정을 안내하는 것을 목표로 합니다.
Python, 데이터 구조 및 알고리즘, Pandas, NumPy와 같은 Python 라이브러리 및 Passive Aggressive Classifier와 같은 데이터 분석 방법의 기본 사항을 알아야 합니다.

핵심 용어



• TfidfVectorizer
• IDF(역 문서 빈도)
• TF(기간 빈도)
• 수동적 공격적 분류기

데이터 세트 및 작업 환경 준비
먼저 지원되는 Python 버전을 설치해야 합니다. 그러기 위해서는 브라우저로 이동하여 'download python 3'을 검색한 다음 다운로드 후 설치하면 됩니다. 이것은 컴퓨터에서 사용할 운영 체제 유형에 따라 다릅니다.
데이터 세트
적절한 데이터 세트를 확보하는 것은 모든 데이터 과학 노력의 가장 중요한 구성 요소 중 하나입니다. 이러한 데이터 세트는 Kaggle 웹사이트에서 액세스할 수 있습니다.

코딩



이제 Python, 라이브러리 및 데이터 세트도 설치한 후 텍스트 편집기(Jupyter 노트북을 사용할 수 있음)를 시작하고 필요한 라이브러리 가져오기를 시작할 차례입니다. 이제 처음 네 개의 레코드를 볼 수 있습니다. Python을 사용하면 데이터 세트가 id, title, author, text 및 label 열로 구분되어 있음을 알 수 있습니다. 관심 있는 기능은 레이블 및 텍스트 열입니다. 텍스트 열에는 기사의 내용이 포함되는 반면 레이블 열은 기사가 사실인지 여부를 나타냅니다. 이것은 '1'('REAL')과 '0'('FAKE')을 사용하여 이진 형식으로 미리 만들어졌습니다.
PassiveAggressiveClassifier는 이제 모델에 통합하기 위해 초기화되며 "y_train"및 "tfidf_train"을 사용할 것입니다.

PassiveAggressiveClassifier 초기화 및 트레이닝 세트 맞추기



pa_classifier=PassiveAggressiveClassifier(max_iter=50)
pa_classifier.fit (tfidf_train, y_train)

마지막으로 벡터라이저를 사용하여 기사가 신뢰할 수 있는지 여부를 예측할 수 있으며 모델의 정확도를 계산할 것입니다.

정확도 예측 및 계산



y_pred=pa_classifier.predict(tfidf_test)
score=accuracy_score(y_test, y_pred)
print(f'Accuracy: {round(score*100,2)} %')

이제 테스트를 수행하는 동안 모델의 정확도를 볼 수 있습니다. 정확도를 보더라도 성공적인 예측 및 실패의 수를 모를 수 있습니다. 이러한 정보에 액세스하기 위해 혼동 매트릭스를 사용하고 결론을 도출할 수 있습니다. 이는 다음과 같이 쉽게 수행할 수 있습니다.

혼동 매트릭스 구축


confusion_matrix(y_test, y_pred, labels=['FAKE','REAL'])

결론.



이러한 어려운 시기에 잘못된 정보에 효과적으로 대처하기 위해서는 이러한 모델을 더욱 발전시키는 것이 필수적입니다.

좋은 웹페이지 즐겨찾기