문과 PG가 Azure ML Studio에서 머신러닝을 시도했습니다(3회)
방 점유율의 분류.점유 여부를 조사하다
이번 조사는 방이 점용되었는지 여부를 조사했다.아래 URL에서 데이터 세트를 가져옵니다.
https://archive.ics.uci.edu/ml/datasets/Occupancy+Detection+
이번에는 zip.압축을 풀면 세 개의 파일이 있습니다.이름만 봐도 하나는 훈련용인 것 같아요.
데이터는 다음과 같다.날짜, 온도, 습도, 빛, CO2, 습도, 점유율이 있습니다.첫 번째 줄이 메인 키인 것 같습니다.실내의 온도, 습도, 이산화탄소 농도에 따라 점유율'0:점유되지 않았다','1:점유됐다'를 판정하는 것 같다.실내에도 이를 측정하는 센서가 설치되어 있겠지.
"date","Temperature","Humidity","Light","CO2","HumidityRatio","Occupancy"
"1",2015-02-11 14:48:00,21.76,31.1333333333333,437.333333333333,1029.66666666667,0.00502101089021385,1
"2",2015-02-11 14:49:00,21.79,31,437.333333333333,1000,0.00500858127480172,1
"3",2015-02-11 14:50:00,21.7675,31.1225,434,1003.75,0.0050215691326541,1
"4",2015-02-11 14:51:00,21.7675,31.1225,439,1009.5,0.0050215691326541,1
"5",2015-02-11 14:51:59,21.79,31.1333333333333,437.333333333333,1005.66666666667,0.00503029777867882,1
이번에는 최대 사이즈의 "datatest2.txt"를 사용합니다.파일 이름이 이해하기 쉬운 "occupancy2.csv"로 변경되었습니다.
열 이름과 값의 편차가 좋지 않기 때문에 첫 번째 열의 열 이름에'id'를 추가하여 ml Studio에 업로드했습니다.
데이터 정리 및 조정
기계 학습 작업은 대부분 데이터 세척(공행 삭제 등)에 쓰인다고 한다.
이번에는 결손치가 없는 것 같으니 이렇게 하면 좋겠다.
그리고 학습에 사용되는 데이터와 사용하지 않는 데이터를 확인합니다.이번 ID는 Primary key이므로 필요 없습니다.또'date'이지만 2015-02-11의 데이터만 있는 것 같습니다.시간과 관련된 환경인지 모르겠지만date를 사용하지 않습니다.
"열의 데이터 세트 선택"을 사용하면 필요하지 않은 열이 아래로 흐르는 것을 방지할 수 있습니다.데이터를 박리한 후에 우리는 다음과 같은 절차를 시도했다.
당장 실험해.
이번에는 둘 중 하나이기 때문에 알고리즘은 Two Class Boosted Decision Tree를 사용합니다.다음과 같습니다.
우리 바로 결과를 봅시다.
이 결과지만 무슨 잘못인지 정확히 예측했다.
먼저 위의 차트를 ROC 커브라고 합니다.이 도표는'y축을 따라 똑바로 올라가서 x로 올라가는 모양인데 완벽하지 않습니까?
다음 그림의 값이지만 아래의 URL은 비교적 상세하다고 생각합니다.
http://ibisforest.org/index.php?F수치
적중률은 0.994, 재현율은 0.989, 포지셔닝(이번 상황에서 1을 1로 정확하게 예측한 수량)은 471, 진네거티브(마찬가지로 0을 0으로 예측)도 1953개였다.False계는 잘못된 개수이기 때문에 어떻게 정확한지 알 수 있다.
이번 총결산
이처럼 센서에서 얻은 데이터 등은 어느 정도 인과관계가 뚜렷한 것이 강하다.
물론 그렇다면 기계학습을 사용할 필요가 없지만 이번 csv의 내용을 보고 이번 결과를 판단하는 프로그램을 쓰라는 요구를 받으면 난처합니다.안 되겠지.
이처럼 데이터량과 판정 항목의 수가 인류의 손에 남아 있는 상황에서 기계학습도 힘을 발휘할 수 있다.아무것도 이미지 식별 같은 게 아니야.
기업 내 데이터베이스 등에 대량의 데이터가 저장되어 있다고 생각할 수 있습니다.그걸 이용해 머신러닝을 하고 어떤 예측을 하면 재밌는 일이 될 것 같아요.
Reference
이 문제에 관하여(문과 PG가 Azure ML Studio에서 머신러닝을 시도했습니다(3회)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/sakaett/items/38139f84be345919281c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)