• Image placeholder
  • 홈 페이지
  • 블로그 센터
  • 범주
Image placeholder

pandas

'Kaggle 비망록' One-hot 벡터로 변환

질적 변수(카테고리 변수)를 One-hot 벡터로 변환 데이터 : kaggle 데이터 환경: kaggle notebook onehot_encoding.py 데이터 로드 onehot_encoding.py 데이터를 살펴보기 onehot_encoding.py 카테고리 변수의 데이터 프레임이 몇 가지 있음을 알 수 있습니다. 이것들을 One-hot 벡터로 변환하는 것을 목표로합니다. 첫째, 문자열을...

pandas파이썬scikit-learnKaggle

파이썬으로 폭락 직후 상하이 종합주가지수 예측

여기까지 무자비하게 내려가면 정부가 아마 돈을 넣어 오기 때문에, 이 후 단기적으로 다소 돌아갈 것 같은 생각이 드네요. 알고 싶은 것은, 「대폭락한 다음날~다음 달의 반동으로 돈을 벌지 여부」. 그리고 그 날 다음날, 1주 후, 2주 후, 3주 후, 1개월 후의 리턴과의 관계를 구합니다. 우선 자기 상관을 살펴 보겠습니다. 상하이 종합은 중국답게 특이치 뿐이며, 통상의 pearson의 적율...

pandas파이썬scikit-learnnumpy

scikit-learn의 MultiLabelBinarizer에서 개별 구매 데이터를 표에 요약

각 행은 사용자 ID, 각 열은 사용자가 구입 한 항목을 나타냅니다. 열수는 가장 구매 아이템이 많은 사용자의 구입 수가된다. 따라서 공란에는 NaN이 들어 있다. 각 열을 특정 항목에 고정하여 각 사용자가 구매했는지 1/0으로 표시 scikit-learn의 MultiLabelBinarizer를 사용한다. 변환 전의 데이터 프레임을 df로한다. 변환 후의 출력은 df_trans로한다. 데이터...

sklearnpandas파이썬scikit-learn

[Pandas 입문] 칼럼명이 없는 csv파일을 불러와 칼럼명을 붙인다

칼럼명이 없는 csv파일을 읽어들여 칼럼명을 붙이는 작업을 가끔 하는데도, 방법을 잘 잊기 때문에 비망록으로서 메모해 둡니다. 사용한 데이터는 UCI machine learning repository에서 공개된 주택 데이터를 사용했습니다. 먼저 데이터를 읽습니다. 데이터는 쉼표가 아닌 공백으로 구분되므로 sep에서 공백을 지정합니다. 또, housing.data에는 컬럼명이 없기 때문에, 보...

pandas파이썬선형 회귀 분석DataFramescikit-learn

NBA 선수 클러스터링

· 미국 프로 농구 리그 NBA의 플레이어 데이터를 스크래핑하고 k-means를 사용하여 플레이 스타일별로 플레이어를 클러스터링합니다. · 클러스터링한 데이터를 PCA로 차원 삭감하여 가시화한 후 코사인 유사도로 선수끼리의 유사도를 구한다. 내용으로는, 팀의 에이스 Kevin Durant 선수가 트레이드 되고, 대신에 들어온 D'Angelo Russell 선수가 팀에 얼마나 맞는지의 지표로서...

데이터 분석pandas파이썬scikit-learn

【python】Jupyter-notebook + pandas + multiprocessing(Pool)를 이동하는 방법 【pandas】 메모

많은 양의 CSV 데이터를 분석하기 위해 많은 데이터를로드해야했습니다. 루프를 돌리면 너무 느려서 좌절했습니다. Jupyter-notebook에서 multiprocessing(Pool)을 이용한 pandas의 read_csv의 병렬화를 할 수 없다. 라든지 에도 같은 것이 쓰여 있었다. Windows 기기에서만 발생하는 문제다? 해결 방법은 함수를 func.py로 저장하고 Jupyter-no...

multiprocessingpandas파이썬Jupyter-notebook

pandas 형식의 파일 로드

이 기사는 데이터 분석을위한 파일을 읽고 출력 방법을 메모로 남깁니다. csv 파일의 읽기는 read_csv(), tsv 파일(탭 구분)의 읽기는 read_table() 콤마도 탭도 아닌 데이터의 단락의 경우, 인수(sep 또는 delimiter)로 단락 문자의 지정이 가능. 표준으로 읽기 데이터의 1행째는 header로서 취급된다. 읽기 데이터에 header가 없는 경우는, header =...

GoogleColaboratorypandas파이썬Jupyter-notebook

Prophet에서 인스턴트 기계 학습

현재 마이크로 애드에서 내정자로 아르바이트를하고 있습니다. 최근 Prophet을 알았으므로, 그에 대해 조금만 써 드리겠습니다. 슈퍼 간단하게 쓸 수 있는 시계열 데이터 전용의 페이스북이 만든 기계 학습 라이브러리입니다. 현시점에서는 python과 R에 대응하고 있는 것 같습니다. 이번에는 파이썬으로 버전 fbprophet==0.2.1을 사용해 보겠습니다. 최근 난고하의 격렬한 BTC를 주제...

Python3BitcoinpandasprophetVSCode

파이썬으로 100 계산 프린트 만든 이야기

가정 교사의 아르바이트에서 사용하는 백계 계산 의 프린트를, Python의 Pandas를 사용해 latex 소스로서 뱉어내려고 생각했다. source.py 벌써 조금 테이블을 크게 하고 싶었습니다(geometry 패키지를 사용해 여백 조정도 해 보았습니다만 잘 가지 않습니다, 어드바이스 기다리고 있습니다.). 글꼴이 깨끗하지 않기 때문에 묻는 것이 좋을지도 ... 약간의 생각과 Python의...

pandas파이썬Python3TeX

XML을 pandas.DataFrame으로 만들기

데이터 분석 과정에서 API를 이용하는 경우가 많다고 생각합니다. API의 결과가 XML로 되돌아올 때, 취급에 조금 쌓여 시간이 걸렸으므로 방법을 메모해 둡니다. 예로서, 이런 느낌의 XML 같은 데이터가 있었다고 합니다. 다음 코드로 pd.DataFrame으로 변환할 수 있습니다. 결과는 이런 느낌이 듭니다. pd.io.json.json_normalize() 의 인수 등은 원래의 XML의...

pandas파이썬XML

국토 지리원의 고도 타일을 파이썬으로 가져옵니다.

이전 기사에서 지리원 타일을 자바 스크립트로 얻는 방법을 썼다. 지리원 타일 및 고도 타일의 사양 · 타일 좌표의 조사 방법 등에 대해서는 상기의 기사를 참조. 파이썬에서도 본질적으로 변하지 않지만, Pandas를 사용하면 편하기 때문에 여기에 적는다. 또한, 복수의 타일 좌표에 걸쳐 타일을 취득 및 결합하는 방법도 소개한다. 원래는 다음 기사에서 사용하기 위해 썼다. 기본적으로는 타일 좌표...

GISpandas파이썬지리원 지도

세부 사항 요약

파이썬에서의 여러가지 조작을 잊어 버리므로 정리해 가고 싶습니다! 공부하면 업데이트 할 예정입니다 google colaboratry 등의 노트북을 사용했을 때 데이터 세트 등의 zip을 압축 해제하는 방법입니다 zip 등으로 압축된 csv 파일을 그대로 읽을 수도 있다. 열 이름(열 이름)을 지정하여 특정 열을 추출할 수 있습니다. 이것은 100 개의 데이터 처리 노크에서 처음으로 사용되었습...

GoogleColaboratorypandasPython3

【초보자용】Google Colaboratory로 DataFrame에 Excel·CSV 파일을 읽어들인다

아무래도 입니다. 파이썬을 사용하여 데이터 분석을 원합니다. 분석하고 싶은 데이터가 테이블 데이터(Excel 데이터나 CSV 데이터 등)인 경우는 어떻게 하면 좋을까요? 이번에는 가장 자주 사용할 Excel 파일(.xlsx)과 CSV 파일(.csv)의 로딩을 간단하게 설명해 갑니다. 실제 코드는 단 두 줄입니다. 자꾸 끝내고 데이터 분석의 세계로 넘어갑니다. · Google 공동체 Googl...

GoogleColaboratorypandas파이썬

최강의 공부법 「Retrieval Practice」에 의한 Pandas의 학습(수시 갱신)

가장 효율적이라고 하는 가장 강한 공부법 그것이 Retrieval Practice Retrieval Practice는 검색 연습이라고 불리며 기억하는 것에 중점을 두는 것이 아니라 기억하는 것에 중점을 둔 학습법입니다. 그런데 단어장을 만드는 것은 시간이 많이 걸리는군요... 그러나 지금의 시대는 단어장 앱을 사용하면 간단하게 만들거나, 어디서나 곧바로 사용하는 등으로 편리하게 되어 있습니다...

신인 프로그래머 응원pandas파이썬quizlet학습

Kaggle 커널에서 PixieDust 사용

Kaggle Kernel에서 PixieDust를 사용해 보았습니다. 갑자기 import pixiedust 를 넣어도 움직이지 않았습니다. (*2019년 5월) 우선 설치가 필요하므로 커널 화면 오른쪽의 Settings➡Internet을 ON으로 합니다. 이제 pip install 등을 사용할 수 있습니다. 에서 pixiedust를 설치하고, 에서 사용 준비 완료입니다. 사용할 때는 입니다. ...

커널pandas파이썬KagglePixieDust

【비망록】Python

암시적 유형 변환 다음과 같이 文字列+数値를 실행하면 오류가 발생합니다. 색인 [::2]은 두 단계마다 ipython // 는 정수 나누기(자르기) ipython 문자열 리터럴을 정렬하면 결합됩니다. Ipython 편리한 기능입니다만 이 덕분에, 「후미 콤마를 잊어도 에러가 나오지 않는다」라고 하는 현상이 발생합니다. itertools.groupby pandas를 사용하지 않고도 groupb...

Pycharmpandas파이썬비망록

pandastable에서 빠진 것

OS: Windows7 Python3.6.1 pandas 0.24.1 pandastable 0.11.0 Tkinter에 테이블을 제공하는 모듈. 아래 이미지 열의 라벨 클릭으로 소트 하거나, 오른쪽 카와의 버튼 포치포치로 csv 임포트도 할 수 있는 것 같다. 편리한 것처럼. 다음과 같이 Table이라는 pandastable의 핵심 기능을 가져오려고 하면 에러가 반환된다. pandas.too...

pandaspandastablePython3Tkinter

시계열 데이터 보간

x축이 시계열 데이터를 보완하고 싶어서 생각해 보았다. pandas를 사용하여 날짜 형식을 로 변환하여 보간을 수행했습니다. x 시간은 2시간마다이며, 1일 분 sin 곡선, 하루에 2주기 보간 데이터는 10분마다 했다. 시계열 데이터의 작성은 를 참조. x는 줄리안 데이로 변환합니다...

pandas파이썬scipy

파이썬으로 만드는 샘플 데이터

등고선 표시 컬러맵 표시 sin파 노이즈를 얹은 np.random.randint(-1, 2, n)에서 (-1, 0, 1) 중 하나를 랜덤하게 n개 생성하고 cumsum()으로 쌓아 합계해 나가는 것으로 랜덤 워크를 그린다. 단순 이동 평균선(Simple Moving Average)과 지수 이동 평균선(Exponential Moving Average)을 동시에 묘화하였다. EMA 쪽이 SMA에...

scipypandas파이썬matplotlibnumpy

【Python 환경 정비】탈 NeoBundle. 매우 편리한 보완 플러그인 jedi-vim의 환경을 dein으로 정돈해 쾌적하게 되는 설정까지 한다

jedi-vim 설정에 대한 기사는 많지만 NeoBundle이나 neocomplete와 맞춘 설정 기사뿐이었으므로 dein.vim 버전을 씁니다. jedi-vim 설정은 NeoBudle 대신 dein.vim에서 수행 jedi-vim을 저장할 때 팝업을 표시하지 않도록 설정 neovim으로 편안하게 Python 프로그래밍 가능 OS OS X Yosemite Python2.7.10 을 참조하여 ...

Vimpandas파이썬neovimneobundle

여러 사이트의 Tech 기사 제목과 URL을 하나의 Excel로 결합

첫 투고입니다. 타이틀대로, Tech계 유명 사이트의 신착 기사 타이틀과 그 URL을 1장의 엑셀로 할 수 있는 코드를 썼습니다. 실행 결과↓ 타이틀을 한 장의 시트로 확실히 나열 할 수 있다면 좋습니다. 1.WEB_scraping이라는 클래스 안에 4개의 인스턴스 변수를 가지는 인스턴스를 생성(이것이 크롤링하는 사이트) web_scraping.py response는 self의 HTML을 반...

pandas파이썬Excelscraping

【편리! ]pandas-profiling(Python)에 의한 간이 데이터 해석

pandas-profiling은 pandas의 DataFrame 프로파일링 결과를 함께 출력할 수 있는 라이브러리입니다. DataFrame 의 기본적인 통계량이나 상관계수 등을 한 번에 정리해 확인할 수 있어 매우 편리합니다. 특징 · 사용하기 쉽다 (한 줄의 코드로 실행 가능 · 파라미터 설정 불필요) ・ 손쉽게 다각적으로 데이터를 해석해 준다 ・ 그래프를 출력해 비주얼면에서도 알기 쉽다 ...

Python3pandas파이썬DataVisualization데이터 과학

pandas의 시계열 데이터 처리로 누적 합을 일정 기간마다 산출하는 방법

pandas에서 시계열 데이터 등의 분석을 할 때, 매일이나 분마다 등으로 누적 합을 산출하고 싶은 경우가 있다고 생각합니다. 예를 들어, 다음과 같은 1개월분의 틱 데이터를 1T로 resampling한 ohlcv로 변환하고 싶다고 합니다. 그래서 다음과 같은 처리로 code 마다 ohlcv를 작성합니다. 당연히 해당 시간에 데이터가 없는 경우는 결측값이 됩니다. 여기서 결측값은 직전의 값으...

pandas파이썬Finance데이터 과학TimeSeriesAnalysis

Pandas 소개

준비: + 파이썬 + Pandas + Numpy 참조: DataFrame 만들기 Series 작성 다음과 같이 Series 만들기 Csv 파일 로드 Xsl 파일 로드 Sqlite 파일 로드 데이터 쓰기 열의 데이터 선택 행 데이터 선택 중앙값(median) 고유한 값(unique) 자주 나오는 값 (value_counts) 칼럼으로서 메소드 적용(apply) 열을 바탕으로 그룹 데이터 유형 ...

pandas파이썬DataFrame데이터 과학

© 2022 intrepidgeeks.com

Privacy Policy Contact US Sitemap
🍪 This website uses cookies to ensure you get the best experience on our website. Learn more