Python 및 기계 학습으로 가짜 뉴스 탐지.
Python, 데이터 구조 및 알고리즘, Pandas, NumPy와 같은 Python 라이브러리 및 Passive Aggressive Classifier와 같은 데이터 분석 방법의 기본 사항을 알아야 합니다.
핵심 용어
• TfidfVectorizer
• IDF(역 문서 빈도)
• TF(기간 빈도)
• 수동적 공격적 분류기
데이터 세트 및 작업 환경 준비
먼저 지원되는 Python 버전을 설치해야 합니다. 그러기 위해서는 브라우저로 이동하여 'download python 3'을 검색한 다음 다운로드 후 설치하면 됩니다. 이것은 컴퓨터에서 사용할 운영 체제 유형에 따라 다릅니다.
데이터 세트
적절한 데이터 세트를 확보하는 것은 모든 데이터 과학 노력의 가장 중요한 구성 요소 중 하나입니다. 이러한 데이터 세트는 Kaggle 웹사이트에서 액세스할 수 있습니다.
코딩
이제 Python, 라이브러리 및 데이터 세트도 설치한 후 텍스트 편집기(Jupyter 노트북을 사용할 수 있음)를 시작하고 필요한 라이브러리 가져오기를 시작할 차례입니다. 이제 처음 네 개의 레코드를 볼 수 있습니다. Python을 사용하면 데이터 세트가 id, title, author, text 및 label 열로 구분되어 있음을 알 수 있습니다. 관심 있는 기능은 레이블 및 텍스트 열입니다. 텍스트 열에는 기사의 내용이 포함되는 반면 레이블 열은 기사가 사실인지 여부를 나타냅니다. 이것은 '1'('REAL')과 '0'('FAKE')을 사용하여 이진 형식으로 미리 만들어졌습니다.
PassiveAggressiveClassifier는 이제 모델에 통합하기 위해 초기화되며 "y_train"및 "tfidf_train"을 사용할 것입니다.
PassiveAggressiveClassifier 초기화 및 트레이닝 세트 맞추기
pa_classifier=PassiveAggressiveClassifier(max_iter=50)
pa_classifier.fit (tfidf_train, y_train)
마지막으로 벡터라이저를 사용하여 기사가 신뢰할 수 있는지 여부를 예측할 수 있으며 모델의 정확도를 계산할 것입니다.
정확도 예측 및 계산
y_pred=pa_classifier.predict(tfidf_test)
score=accuracy_score(y_test, y_pred)
print(f'Accuracy: {round(score*100,2)} %')
이제 테스트를 수행하는 동안 모델의 정확도를 볼 수 있습니다. 정확도를 보더라도 성공적인 예측 및 실패의 수를 모를 수 있습니다. 이러한 정보에 액세스하기 위해 혼동 매트릭스를 사용하고 결론을 도출할 수 있습니다. 이는 다음과 같이 쉽게 수행할 수 있습니다.
혼동 매트릭스 구축
confusion_matrix(y_test, y_pred, labels=['FAKE','REAL'])
결론.
이러한 어려운 시기에 잘못된 정보에 효과적으로 대처하기 위해서는 이러한 모델을 더욱 발전시키는 것이 필수적입니다.
Reference
이 문제에 관하여(Python 및 기계 학습으로 가짜 뉴스 탐지.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://dev.to/jasonomondi/detecting-fake-news-with-python-and-machine-learning-d8c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
이제 Python, 라이브러리 및 데이터 세트도 설치한 후 텍스트 편집기(Jupyter 노트북을 사용할 수 있음)를 시작하고 필요한 라이브러리 가져오기를 시작할 차례입니다. 이제 처음 네 개의 레코드를 볼 수 있습니다. Python을 사용하면 데이터 세트가 id, title, author, text 및 label 열로 구분되어 있음을 알 수 있습니다. 관심 있는 기능은 레이블 및 텍스트 열입니다. 텍스트 열에는 기사의 내용이 포함되는 반면 레이블 열은 기사가 사실인지 여부를 나타냅니다. 이것은 '1'('REAL')과 '0'('FAKE')을 사용하여 이진 형식으로 미리 만들어졌습니다.
PassiveAggressiveClassifier는 이제 모델에 통합하기 위해 초기화되며 "y_train"및 "tfidf_train"을 사용할 것입니다.
PassiveAggressiveClassifier 초기화 및 트레이닝 세트 맞추기
pa_classifier=PassiveAggressiveClassifier(max_iter=50)
pa_classifier.fit (tfidf_train, y_train)
마지막으로 벡터라이저를 사용하여 기사가 신뢰할 수 있는지 여부를 예측할 수 있으며 모델의 정확도를 계산할 것입니다.
정확도 예측 및 계산
y_pred=pa_classifier.predict(tfidf_test)
score=accuracy_score(y_test, y_pred)
print(f'Accuracy: {round(score*100,2)} %')
이제 테스트를 수행하는 동안 모델의 정확도를 볼 수 있습니다. 정확도를 보더라도 성공적인 예측 및 실패의 수를 모를 수 있습니다. 이러한 정보에 액세스하기 위해 혼동 매트릭스를 사용하고 결론을 도출할 수 있습니다. 이는 다음과 같이 쉽게 수행할 수 있습니다.
혼동 매트릭스 구축
confusion_matrix(y_test, y_pred, labels=['FAKE','REAL'])
결론.
이러한 어려운 시기에 잘못된 정보에 효과적으로 대처하기 위해서는 이러한 모델을 더욱 발전시키는 것이 필수적입니다.
Reference
이 문제에 관하여(Python 및 기계 학습으로 가짜 뉴스 탐지.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://dev.to/jasonomondi/detecting-fake-news-with-python-and-machine-learning-d8c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(Python 및 기계 학습으로 가짜 뉴스 탐지.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/jasonomondi/detecting-fake-news-with-python-and-machine-learning-d8c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)