통계 데이터 시각화가 가능한 seaborn 개요 및 Tips

seaborn : 파이썬 데이터 시각화 라이브러리. 고수준 API. 예쁘다.



0. matplotlib과의 구분


  • seaborn 로 준비되어 있다면 seaborn 그렇지 않다면 matplotlib 로 그린다.
  • matplotlib 로 그려도 스타일은 seaborn 를 사용하는 것이 좋다 (import만으로 설정된다)

  • 1. 스타일 설정



    style는 default 또는 "white"를 자주 사용한다. font_scale은 그림을보고 조정.
    import seaborn as sns
    sns.set(style="white", font_scale=1.3, palette="muted", color_codes=True)
    

    2. seaborn에서 원하는 것을 확인



    official doc. 의 갤러리 페이지를 본다. (사용할 수 있는 함수는 아래에 한정되므로 함수명으로 무엇을 할 수 있는지 이미지할 수 있으면 링크를 보지 않아도 된다. 인수의 자세한 내용은 ipython의 도움말 기능으로 확인하면 된다.)

    분포 시각화

    기능
    * distplot : 1-dim.
    * jointplot : 2-dim.
    * pairplot : k-dim.
    * heatmap: 상관 행렬

    인수
    - kde: 커널 밀도 추정
    - hist: 히스토그램
    - hue: 조건별 분포 추정

    회귀

    기능
    * lmplot: 신뢰 구간이 있는 회귀

    인수
    - order: 다항식 회귀
    - logistic: 로지스틱 회귀
    - hue: 조건별 회귀 (col, row)

    범주형 데이터

    기능
    * stripplot, swarmplot: 산점도
    * boxplot, violinplot: 분포 시각화
    * barplot, countplot, pointplot: 통계적 특성 시각화
    * factorplot(hue='key'): 조건별 통계적 특성 시각화

    3. 기타



    seaborn에서 제공하는 데이터 세트 읽기
    # datasetリスト: https://github.com/mwaskom/seaborn-data
    sns.load_dataset('titanic')
    

    축 제거
    sns.despine() # 上と右
    sns.despine(left=True) # 左も
    

    color palettes
    # 現在のカラーマップ
    cmap_current = sns.color_palette()
    sns.palplot(cmap_current)
    # 新しいカラーマップ
    # 参考: http://seaborn.pydata.org/tutorial/color_palettes.html
    # 例: key = "set1" (categorical), "Blues" (sequential)
    num = 8
    cmap = sns.color_palette(key, num)
    sns.palplot(cmap)
    

    좋은 웹페이지 즐겨찾기