【Pandas】DataFrame에서 칼럼을 추출 (영화 머니 볼 같은 것을 해 보았다) no.11


안녕하세요, 마유미입니다.

Pandas에 대한 기사를 시리즈로 작성하고 있습니다.

이번 기사는 11번째로

제 1 회부터 제 9 회째는 Pandas의 Series에 대해,

10번째부터는 DataFrame에 대해 썼습니다.

이번은 이전과 같은 데이터 를 사용해 『 영화 머니볼 』같은 일을 해 나가려고 생각합니다. (웃음)

덧붙여서, 머니볼을 본 적이 없는 분들을 위해 어떤 영화를 조금 소개하네요.

머니볼은 실화를 바탕으로 만들어진 영화입니다.

가난하고 약한 팀이었던 '오클랜드 운동'이 양질의 선수를 돈을 내고 사는 것이 아니라 통계적 방법을 사용하여 시장에서 과소 평가되는 선수를 싸게 사는 야구의 싸움 방법 시작했습니다.

그리고 그 결과는. . .


인용 소스 : Netflix

넷플릭스에서도 전달되고 있으므로, 본 적이 없는 분은 꼭! (덧붙여서 넷플릭스에서는 어떤 광고료도 받지 않지만 좋은 영화이므로 선전합니다!)

CSV 파일 불러오기



CSV 파일을 읽는 방법은 이 기사에서 소개합니다.

이번에는 CSV 데이터에서 'Series가 아닌 DataFrame 객체를 만들고 싶기 때문에' 읽는 곳까지 해보십시오.

나는이 데이터를 "baseball_data.csv"로 파일 이름을 변경했으므로,
import pandas as pd
baseball_data = pd.read_csv("baseball_data.csv")

그리고 코드를 썼습니다.

실행 결과는 다음과 같습니다.



맨 위 행이 선수의 각 데이터 항목입니다 (컬럼 이름).

『POS』라든가 『PA』라고 해서 쓰여져 있습니다만, 각각의 것이 의미하는 것은 이 페이지 에 쓰여져 있습니다.
(계속 영어 문장이 줄지어 있습니다.)



추출할 칼럼을 선택



위의 프로세스로 만든 DataFrame은 134columns로, 134열도 있는 데이터가 됩니다.

이것은 야구 선수의 스카우트맨이 되는 「연습」이므로, 모든 칼럼을 사용하는 것이 아니라, 5~6개 정도의 칼럼을 선택해 봅시다

시장에서 과소평가되고 있는 선수를 찾고 싶은 것도 물론 「PLAYER」와 「SALARY」의 칼럼은 필요하네요.

내가 선택한 칼럼은

PLAYER 선수명

SALARY 연봉

POS 위치

TB 토탈 베이스(1루까지라면 1, 2루까지라면 2…홈런이라면 4로 계산한 합계)

SF 희생 플라이

SB 도루

됩니다.

칼럼에는 「HR」홈런이라고 하는 꽃 모양 선수를 상징하는 것도 있습니다만, 그러한 선수는 연봉도 높기 때문에, 희생 플라이를 잘 치는 선수를 싸게 사, 수수하게 싸웁니다

칼럼 추출



이제 DataFrame에서 실제로 열을 추출합시다.

Pandas의 DataFrame에서 둘 이상의 열을 추출하는 방법은 여기 StackOverflow 기사을 참조했습니다.


인용 소스 : s 그 외 c자 verfぉw. 작은 m

리스트로 하고 나서, 빼낸다고 하는 느낌이군요.



실행 결과는 다음과 같습니다.



덧붙여서, 칼럼을 하나만 꺼내고 싶을 때는
baseball_data["PLAYER"]

와 [ ]안에 칼럼명만 쓰면 괜찮습니다.

실행 결과는 다음과 같습니다.



그리고 파이썬에 내장 된 데이터 유형을 검사하는 'type()'

를 사용해 데이터형을 조사하면 제대로 「Series」가 되어 있는 것을 알 수 있습니다.

요약



여기까지 읽어 주셔서 감사합니다. <(_ _)>

이번 기사는 이 정도로 끝내려고 생각합니다.

이번은 데이터를 추출하는 곳까지는 끝났으므로, 데이터의 분석이나 계산의 방법을 또 다음번 이후에 정리해 나가려고 생각합니다.

잘 부탁드립니다!

좋은 웹페이지 즐겨찾기