Kaggle 입문자에게 타이타닉 튜토리얼을 비교해 보았다

kaggle 입문이라고하면



kaggle에 도전하고 싶은 사람이 먼저 해 보는 것이라면, 타이타닉 튜토리얼. 고맙게도, 인터넷에서 검색하면 좋은 품질의 일본어 기사가 많이 나옵니다. 이 기사를 읽는 동안 데이터 분석의 기초를 알 수 있습니다. 그들을 읽으면 일반적인 기술과 자신의 기술을 볼 수 있습니다. 타이타닉 튜토리얼에 다양한 각도에서 접근함으로써 초보자는 더 깊은 이해를 얻을 수 있습니다.

실제 코드 등은 각 기사에 액세스하여 확인해 보세요.

이 기사의 대상 독자



· 데이터 분석의 기초를 알고 싶습니다.
· Kaggle에 도전하고 싶습니다.
· 기계 학습의 기초를 알고 있기 때문에 사용하고 싶습니다.

이런 희망을 가진 분들을 위한 기사가 되고 있습니다. 새로운 분야에 입문할 때는 입문서를 3권 읽을 수 있다고 합니다. 이런 식으로 일부 관점에서 정보를 넣는 것은 균형 잡힌 입문이되어야합니다.

데이터 확인



우선, 어떤 데이터를 분석하게 될지 확인해 봅시다.

데이터를 보면 다음을 볼 수 있습니다.
· 숫자가 아닌 문자열 데이터가 있습니다.
· 데이터가 걸려있는 장소가 있습니다.

정밀도가 높은 분석을 하기 위해서, 이것들을 어떻게 처리해 나가는가 중요하게 됩니다. 몇 가지 튜토리얼 기사를 보면서
・결손값의 취급
· 문자열 데이터 처리
・특징량의 취급
· 어떤 기계 학습 알고리즘을 사용하는가
등을 비교하면서 공부합시다.

1. 【Kaggle 초보자 입문편】타이타닉호로 살아남는 것은 누구?



【Kaggle 초보자 입문편】타이타닉호로 살아남는 것은 누구?

・결손값
Age는 중앙값을
Embarked에서 가장 많은 S
Cabin은 사용하지 않습니다.

· 문자열에서 숫자로
Sex 0,1
Embarked 0, 1, 2

· 모델 작성
"Pclass","Age","Sex","Fare", "SibSp", "Parch", “Embarked”를 특징량으로 하고 결정목을 사용.

2. Kaggle의 titanic 문제로 상위 10%에 들어갈 때까지의 데이터 해석과 소감



Kaggle의 타이타닉 문제로 상위 10%에 들어갈 때까지의 데이터 해석과 소감

・결손값
생존이 성별, 연령과 상관이 높다는 점에 주목. 경칭 "mr", "master", "miss", "mrs"와 연령의 관계를 사용하여 누락된 연령을 추정한다.

· 모델 작성
SVM

3. Kaggle 자습서 Titanic에서 상위 3% 이내에 들어가려면. (0.82297)



Kaggle 튜토리얼 Titanic에서 상위 3% 이내에 들어가려면. (0.82297)
・결손값
Age의 평균값
Embarked의 평균
Cabin은 사용하지 않습니다.

· 문자열에서 숫자로
Name 경칭에 따라 분류
Ticket 선두의 캐릭터, 캐릭터 라인의 길이로 분류
Cabin 선두 문자로 분류

・새로운 특징량 추가
FamilySize 몇몇 가족인가?
IsAlone 혼자인지 여부

· 모델 작성
랜덤 포리스트 그리드 검색을 통한 파라미터 최적화

요약



・결손값의 취급
· 문자열 데이터 처리
・특징량의 취급
· 어떤 기계 학습 알고리즘을 사용하는가

이러한 관심 포인트를 확인할 수 있었습니까?
이 흐름을 건드리는 것이 데이터 분석의 한 단계가 될 것입니다.

좋은 웹페이지 즐겨찾기