Python 데이터 분석 에 자주 사용 되 는 8 가지 도 구 를 공유 합 니 다.

Python 은 데이터 처리 에 자주 사용 되 는 도구 로 수량 급 이 몇 K 에서 몇 T 까지 다른 데 이 터 를 처리 할 수 있 고 비교적 높 은 개발 효율 과 유지 가능성 을 가 지 며 비교적 강 한 유 니 버 설 성과 크로스 플랫폼 성 을 가진다.Python 은 데이터 분석 에 사용 할 수 있 지만 단순히 Python 자체 가 가지 고 있 는 라 이브 러 리 에 의존 하여 데이터 분석 을 하 는 것 은 한계 가 있 기 때문에 제3자 확장 라 이브 러 리 를 설치 하여 분석 과 발굴 능력 을 강화 해 야 한다.

파 이 썬 데이터 분석 에 설치 해 야 할 제3자 확장 라 이브 러 리 는 Numpy,Pandas,Scipy,Matplotlib,Scikit-learn,Keras,Gensim,Scrapy 등 이 있 습 니 다.다음은 천 봉 무한 파 이 썬 교육 선생님 이 이 제3자 확장 라 이브 러 리 에 대한 간략 한 소개 입 니 다.
1. Pandas
Pandas 는 Python 의 강력 하고 유연 한 데이터 분석 과 탐색 도구 로 Series,DataFrame 등 고급 데이터 구조 와 도 구 를 포함 하고 Pandas 를 설치 하면 Python 에서 데 이 터 를 매우 빠 르 고 간단하게 처리 할 수 있 습 니 다.
Pandas 는 Python 의 데이터 분석 패키지 로 Pandas 가 최초 로 금융 데이터 분석 도구 로 개발 되 었 기 때문에 Pandas 는 시간 서열 분석 에 좋 은 지원 을 제공 했다.
Pandas 는 데이터 분석 임 무 를 해결 하기 위해 만 든 것 으로 Pandas 는 대량의 라 이브 러 리 와 일부 표준 데이터 모델 을 포함 시 켜 대형 데이터 세트 를 효율적으로 조작 하 는 데 필요 한 도 구 를 제공 했다.Pandas 는 우리 가 데 이 터 를 신속 하고 편리 하 게 처리 하 는 함수 와 방법 을 대량으로 제공 했다.Pandas 는 고급 데이터 구조 와 데이터 분석 을 빠 르 고 간단하게 하 는 도 구 를 포함한다.그것 은 Numpy 위 에 세 워 져 Numpy 응용 을 간단하게 만 들 었 다.
좌표 축 이 있 는 데이터 구 조 는 자동 또는 명확 한 데이터 정렬 을 지원 합 니 다.이 는 데이터 구조 가 정렬 되 지 않 고 서로 다른 소스 를 처리 하 며 서로 다른 색인 을 사용 하 는 데이터 로 인해 발생 하 는 흔 한 오 류 를 방지 할 수 있다.
Pandas 를 사용 하면 데 이 터 를 잃 어 버 리 는 것 을 쉽게 처리 할 수 있 습 니 다.
유행 데이터베이스 통합(예:SQL 기반 데이터베이스)
Pandas 는 데이터 선명/정 리 를 하 는 가장 좋 은 도구 입 니 다.
2. Numpy
Python 은 배열 기능 을 제공 하지 않 았 습 니 다.Numpy 는 배열 지원 과 해당 하 는 효율 적 인 처리 함 수 를 제공 할 수 있 습 니 다.Python 데이터 분석의 기초 이자 Scipy,Pandas 등 데이터 처리 와 과학 컴 퓨 팅 라 이브 러 리 의 가장 기본 적 인 함수 기능 라 이브 러 리 이 며 데이터 유형 은 Python 데이터 분석 에 매우 유용 합 니 다.
Numpy 는 두 가지 기본 대상 을 제공 합 니 다:ndarray 와 ufunc.ndarray 는 단일 데이터 형식 을 저장 하 는 다 차원 배열 이 고 ufunc 는 배열 을 처리 할 수 있 는 함수 입 니 다.Numpy 기능:
4.567917.N 차원 배열 은 메모리 의 빠 르 고 효율 적 인 다 차원 배열 로 그 는 벡터 수학 연산 을 제공한다4.567917.순환 을 사용 하지 않 아 도 전체 배열 안의 데 이 터 를 표준 수학 연산 할 수 있다
  • 저급 언어 로 작 성 된 외부 라 이브 러 리 로 데 이 터 를 전송 하 는 데 매우 편리 하고 외부 라 이브 러 리 가 Numpy 배열 로 데 이 터 를 되 돌려 주 는 데 도 편리 합 니 다
  • Numpy 는 고급 데이터 분석 기능 을 제공 하지 않 지만 Numpy 배열 과 배열 을 위 한 계산 을 더욱 깊이 이해 할 수 있 습 니 다.
    3. Matplotlib
    Matplotlib 는 강력 한 데이터 시각 화 도구 와 갤러리 입 니 다.주로 데이터 도 표를 그 리 는 Python 라 이브 러 리 입 니 다.각종 시각 화 된 도형 을 그 리 는 명령 라 이브 러 리,간단 한 인 터 페 이 스 를 제공 하여 사용자 가 도형 의 형식 을 쉽게 파악 하고 각종 시각 화 된 도형 을 그 릴 수 있 습 니 다.
    Matplotlib 는 Python 의 시각 화 모듈 로 라인 그림,떡 그림,기둥 모양 그림 과 다른 전문 도형 만 편리 하 게 만 들 수 있 습 니 다.
    Matplotlib 를 사용 하면 도표 의 모든 면 을 맞 출 수 있 습 니 다.그 는 모든 운영 체제 에서 서로 다른 GUI 백 엔 드 를 지원 하고 PDF SVG JPG PNG BMP GIF 와 같은 일반적인 벡터 그림 과 그래 픽 테스트 로 그래 픽 을 출력 할 수 있 습 니 다.데이터 그래 픽 을 통 해 우 리 는 지루 한 숫자 를 사람들 이 쉽게 받 을 수 있 는 도표 로 바 꿀 수 있 습 니 다.
    Matplotlib 는 Numpy 를 기반 으로 한 Python 패키지 입 니 다.이 패 키 지 는 분 부 된 데이터 그래 픽 도 구 를 제공 합 니 다.주로 통계 도형 을 그 리 는 데 사 용 됩 니 다.
    Matplotlib 는 다양한 속성 을 설정 할 수 있 는 기본 설정 이 있 습 니 다.Matplotlib 의 모든 기본 속성 을 제어 할 수 있 습 니 다.이미지 크기,인치 당 포인트,선 너비,색채 와 스타일,서브 맵,좌표 축,네트워크 속성,문자 와 문자 속성 입 니 다.
    4. SciPy
    Scipy 는 과학 계산 에서 각종 표준 문제 도 메 인 을 전문 적 으로 해결 하 는 가방 의 집합 으로 최 적 화 된 기능,선형 대수,포인트,삽입 값,의합,특수 함수,빠 른 푸 리 엽 변환,신호 처리 와 이미지 처리,상 미분 방정식 의 풀이 와 다른 과학 과 공정 에서 자주 사용 하 는 계산 등 이 있 는데 이런 것들 은 데이터 분석 과 발굴 에 매우 유용 하 다.
    Scipy 는 편리 하고 사용 하기 쉬 우 며 과학 과 공정 을 위 한 Python 패키지 로 통계,최적화,통합,선형 대수 모듈,푸 리 엽 변환,신호 와 이미지 처리,상 미분 방정식 풀이 기 등 을 포함한다.Scipy 는 Numpy 에 의존 하고 사용자 에 게 우호 적 이 고 효과 적 인 수치 루틴 을 제공 합 니 다.예 를 들 어 수치 적분 과 최적화 등 입 니 다.
    Python 은 Matlab 처럼 강력 한 수치 계산 키 트 Numpy 를 가지 고 있 습 니 다.그림 그리 기 도구 꾸러미 Matplotlib 가 있 습 니 다.과학적 계산 도구 꾸러미 Scipy 가 있 습 니 다.
    Python 은 데 이 터 를 직접 처리 할 수 있 고 Pandas 는 SQL 처럼 데 이 터 를 제어 할 수 있 습 니 다.Matplotlib 는 데이터 와 기록 을 시각 화하 고 데 이 터 를 신속하게 이해 할 수 있 습 니 다.Scikit-learn 은 기계 학습 알고리즘 을 지원 하고 Theano 는 승 독 학습 프레임 워 크 를 제공 합 니 다(CPU 가속 도 사용 할 수 있 습 니 다).
    5. Keras
    Keras 는 딥 러 닝 라 이브 러 리,인공 신경 망 과 딥 러 닝 모델 로 Theano 를 바탕 으로 Numpy 와 Scipy 에 의존 하고 이 를 이용 하여 언어 처리,이미지 인식,자체 인 코더,순환 신경 망,재 귀 감사 망,볼 륨 신경 망 등 일반적인 신경 망 과 각종 딥 러 닝 모델 을 구축 할 수 있다.
    6. Scikit-Learn
    Scikit-learn 은 Python 에서 자주 사용 하 는 머 신 러 닝 툴 백 으로 완벽 한 머 신 러 닝 툴 박스 를 제공 하고 데이터 전처리,분류,회귀,집합,예측 과 모델 분석 등 강력 한 머 신 러 닝 라 이브 러 리 를 지원 하 며 Numpy,Scipy,Matplotlib 등에 의존한다.
    Scikit-learn 은 Python 머 신 러 닝 기반 모듈 로 BSD 오픈 라이선스 기반 입 니 다.
    Scikit-learn 의 설 치 는 Numpy Scopy Matplotlib 등 모듈 이 필요 합 니 다.Scikit-learn 의 주요 기능 은 6 개 부분 으로 나 뉘 는데 분류,회귀,집합,데이터 하락,모델 선택,데이터 예비 처리 입 니 다.
    Scikit-learn 은 분류 에 사용 되 는 iris 와 digits 데이터 세트,그리고 회귀 분석 에 사용 되 는 boston house prices 데이터 세트 등 전형 적 인 데이터 세트 를 가지 고 있 습 니 다.이 데이터 세트 는 사전 구조 로 데 이 터 는'data 멤버'에 저장 되 고 출력 탭 은'target 멤버'에 저 장 됩 니 다.Scikit-learn 은 Scipy 위 에 세 워 져 자주 사용 하 는 기계 학습 알고리즘 을 제공 하고 통 일 된 인 터 페 이 스 를 통 해 사용 하 며 Scikit-learn 은 데이터 세트 에서 유행 하 는 알고리즘 을 실현 하 는 데 도움 이 된다.
    Scikit-learn 에는 자연 언어 처리 에 사용 되 는 Nltk,사이트 데이터 캡 처 에 사용 되 는 Scrappy,인터넷 발굴 에 사용 되 는 Pattern,깊이 있 는 학습 에 사용 되 는 Theano 등 도 있다.
    7. Scrapy
    Scrapy 는 파충 류 를 위 한 도구 로 URL 읽 기,HTML 분석,데이터 저장 등 기능 이 있 으 며 Twisted 비동기 네트워크 라 이브 러 리 로 네트워크 통신 을 처리 할 수 있 고 구조 가 뚜렷 하 며 각종 미들웨어 인 터 페 이 스 를 포함 하여 다양한 수 요 를 유연 하 게 수행 할 수 있다.
    8. Gensim
    Gensim 은 텍스트 테마 모델 을 만 드 는 라 이브 러 리 로 언어 적 인 작업 을 처리 하 는 데 자주 사용 되 며 TF-IDF,LSA,LDA 와 Word2Vec 를 포함 한 다양한 테마 모델 알고리즘 을 지원 하고 스 트림 트 레이 닝 을 지원 하 며 싱크로 율 계산,정보 검색 등 자주 사용 되 는 작업 의 API 연결 을 제공 합 니 다.
    이상 은 Python 데이터 분석 에 자주 사용 되 는 도구 에 대한 간단 한 소개 입 니 다.관심 이 있 으 면 관련 사용 방법 을 깊이 연구 할 수 있 습 니 다!

    좋은 웹페이지 즐겨찾기