5분 동안의 데이터 과학: 데이터 정리란 무엇입니까?

데이터를 처리할 때, 당신의 분석과 견해는 당신이 사용하는 데이터만큼만 좋습니다.만약 더러운 데이터를 사용하여 데이터 분석을 실행한다면, 당신의 조직은 이 데이터를 사용하여 효율적인 결정을 할 수 없을 것입니다.데이터 정리는 데이터 관리의 관건적인 부분으로 사용자가 고품질의 데이터를 가지고 있는지 검증할 수 있도록 합니다.
데이터 정리는 맞춤법이나 문법 오류를 복구하는 것만은 아니다.이것은 데이터 과학 분석의 기본적인 방면이자 중요한 기계 학습 기술이다.오늘 우리는 데이터 정리, 그 장점, 데이터에 발생할 수 있는 문제, 그리고 학습의 다음 단계를 더욱 이해할 것이다.
다음과 같은 내용을 설명합니다.
  • What is data science cleaning?
  • Benefits and steps of data cleaning

  • Next steps for your learning

  • 무엇이 데이터 과학 세척입니까?
    데이터 정리 또는 데이터 정리는 데이터 세트의 부정확함, 불완전함 또는 중복을 수정하거나 제거하는 중요한 프로세스입니다.데이터 정리는 작업 절차의 첫걸음이어야 한다.대형 데이터 집합을 처리하고 각종 데이터 원본을 조합할 때 데이터를 복사하거나 잘못 표시할 수 있습니다.만약 당신이 부정확하거나 부정확한 데이터를 가지고 있다면, 그것은 질을 잃고, 당신의 알고리즘과 결과는 믿을 수 없게 될 것이다.
    데이터 정리는 데이터 변환과 다르다. 사실상 데이터 집중에 속하지 않는 데이터를 삭제하는 것이기 때문이다.데이터 변환을 통해 데이터를 다른 형식이나 구조로 변경할 수 있습니다.데이터 변환 과정은 때때로 데이터 쟁용이나 데이터 사기라고 불린다.데이터 정리 과정은 우리가 오늘 주목해야 할 것이다.
    그렇다면, 나는 어떻게 나의 데이터가 깨끗한지 알 수 있습니까?
    데이터의 질을 확정하기 위해서, 당신은 그 특성을 연구하고, 당신의 조직과 프로젝트에 대한 중요한 내용에 따라 그것들을 평가할 수 있습니다.
    데이터를 평가할 때 다음과 같은 5가지 주요 기능이 필요합니다.

  • 일치성: 당신의 데이터는 당신의 데이터 집중에서 일치합니까?

  • 정확도: 당신의 데이터는 실제 값에 가깝습니까?

  • 완전성: 데이터에 필요한 모든 정보가 포함되어 있습니까?

  • 유효성: 데이터가 비즈니스 규칙 및/또는 제한 사항에 부합됩니까?

  • 일치성: 데이터가 일치된 측정 단위로 지정됩니까?
    우리가 고품질의 데이터를 어떻게 식별하는지 알게 된 이상 데이터 과학적으로 정리하는 과정, 왜 그것이 중요한지, 그리고 어떻게 효과적으로 정리하는지를 더욱 깊이 있게 이해하도록 하자.

  • 데이터 정리의 이점과 절차
    고품질의 데이터 사용을 확보하기 위해 취할 수 있는 정리 절차에 대해 토론합시다.데이터 과학자들은 데이터를 정리하는 데 많은 시간을 들인다. 왜냐하면 그들의 데이터가 깨끗이 정리되면 데이터 분석과 모델 구축을 실행하는 것이 훨씬 쉽기 때문이다.
    우선, 우리는 당신이 데이터를 사용할 때 직면할 수 있는 몇 가지 문제, 그리고 이 문제들을 어떻게 처리하는지 토론할 것입니다.

    손실된 데이터 처리
    대형 데이터 집합은 통상적으로 약간의 값이 부족할 수 있다.데이터를 기록하는 사람들이 데이터를 입력하는 것을 잊어버리거나 데이터 수집 과정의 후기에 부족한 데이터 변수를 수집하기 시작했을 수도 있다.어쨌든 데이터 집합을 사용하기 전에 잃어버린 데이터를 관리해야 한다.

    필요 없는 예외 값 필터링
    그룹 값은 데이터에 대한 기본적인 정보를 포함하지만, 동시에 당신의 주의력을 주요 그룹에서 옮기게 한다.이상 값이 있는지 없는지를 검사하는 것은 좋은 생각이다.만약 당신이 그것을 사용하고 싶다는 것을 발견한다면, 반드시 당신의 이상치를 처리할 건장한 방법을 선택해야 한다.만약 네가 그것들을 사용하지 않기로 결정한다면, 너는 직접 그것들을 버릴 수 있다.
    다음 방법을 사용하여 필요하지 않은 예외 값을 필터링할 수도 있습니다.
    # Get the 98th and 2nd percentile as the limits of our outliers
    
    upper_limit = np.percentile(train_df.logerror.values, 98)
    lower_limit = np.percentile(train_df.logerror.values, 2)
    
    # Filter the outliers from the dataframe
    
    data[‘target’].loc[train_df[‘target’]>upper_limit] = upper_limit
    data[‘target’].loc[train_df[‘target’]<lower_limit] = lower_limit
    

    표준화된 데이터
    특징 변수 중의 데이터는 표준화되어야 한다.그것은 검사와 모델링 데이터를 더욱 쉽게 한다.예를 들어'animal'변수 중의 두 가지 값을 살펴보자. 우리는'dog'과'cat'이라고 부른다.만약 당신이 데이터를 수집했다면, 당신은 예상하지 못한 다른 데이터 값을 받을 수 있습니다. 예를 들어:
  • 개, 고양이(전체 대문자)
  • 개, 고양이(이니셜 대문자 입력)
  • 자유도, 카트(타자 오류로 입력)
  • 만약 우리가 기능 변수를 분류 부동점으로 변환한다면, 우리는 우리가 원하는 0과 1의 값을 얻을 수 없을 것이다. 우리는 더욱 이와 같은 값을 얻을 것이다.
    {
       'dog': 0,
       'cat': 1,
       'DOG': 2,
       'CAT': 3,
       'Dog': 4,
       'Cat': 5,
       'dof': 6,
       'cart': 7
    }
    
    자본 문제를 효과적으로 처리하고 데이터를 표준화하는 데 도움을 주기 위해 다음과 같은 작업을 수행할 수 있습니다.
    # Make the string lowercase
    s.lower()
    
    # Make the first letter capitalized
    s.capitalize()
    
    타자 오류 문제가 있는 경우 매핑 기능을 사용할 수 있습니다.
    value_map = {'dof': 'dog', 'cart': 'cat'}
    
    pd_dataframe['animals'].map(value_map)
    

    Note: Another way to deal with typos is to run a spelling and grammar check in Microsoft Excel.



    불필요한 관찰을 없애다
    때때로 당신은 관련되지 않은 데이터를 삭제해야 할 수도 있습니다.만약 네가 잡지 한 권의 판매량을 예측하고 싶다면.아마존이 작년에 주문한 잡지 데이터 세트를 보고 있는데, 책에 사용된 글씨체를 기록하는 '글씨체 유형' 이라는 기능 변수를 발견했다.
    이것은 매우 상관없는 기능으로 잡지의 판매량을 예측하는 데 도움이 되지 않을 수도 있다.이렇게 제거할 수 있는 기능입니다.
    df.drop('feature_variable_name', axis=1)
    
    이런 불필요한 관찰을 삭제하면 데이터 탐색이 쉬울 뿐만 아니라 기계 학습 모델을 훈련시키는 데도 도움이 된다.
    더러운 데이터는 오류나 존재하지 말아야 할 데이터 포인트를 포함한다.데이터 세트에서 데이터 포인트를 반복하면 중복이 발생합니다.만약 네가 복제품을 많이 가지고 있다면, 그것은 너의 기계 학습 모형을 훈련을 잃게 할 것이다.
    더러운 데이터를 처리하려면 삭제하거나 교체 데이터(예를 들어 부정확한 데이터 점을 정확한 데이터 점으로 바꾸는 것)를 사용할 수 있다.
    중복 문제를 처리하려면 데이터에서 제거하기만 하면 된다.

    빈 데이터 삭제
    분명히 공백 데이터로 데이터 분석을 할 수 없다.공백 데이터는 분석가들에게 중요한 문제이다. 왜냐하면 데이터의 질을 약화시킬 수 있기 때문이다.이상적인 경우, 데이터 수집 단계에서 공백 데이터를 삭제해야 하지만, 프로그램을 만들어서 이 작업을 완성할 수도 있습니다.

    공백을 없애다
    많은 데이터 구조에서 공백은 매우 작지만 흔히 볼 수 있는 문제이다.클립 기능은 공백을 없애는 데 도움을 줄 것입니다.

    Note: The TRIM function is categorized under Excel text functions. It helps remove extra spaces in data. You can use the =TRIM(text) formula.



    변환 오류 수정
    때때로 데이터를 내보낼 때 수치가 텍스트로 변환됩니다.가치법은 이 문제를 해결하는 아주 좋은 방법이다.
    데이터 정리 과정은 시간이 많이 걸리지만, 데이터 처리를 더욱 쉽게 하고, 데이터를 최대한 활용할 수 있도록 합니다.깨끗한 데이터를 가지고 있으면 효율을 높일 수 있고 고품질의 데이터를 사용할 수 있다.
    데이터 정리의 이점은 다음과 같습니다.
  • DemandTools나 Oracle Enterprise data Quality와 같은 데이터 정리 도구는 효율을 높이고 의사 결정 과정을 가속화하는 데 도움을 줄 수 있다.
  • 오류를 보다 잘 모니터링하여 부정확하거나 손상되거나 일관성이 없는 데이터를 제거할 수 있습니다.
  • 전반적으로 말하면 당신은 더 적은 실수를 범할 것이다.
  • 당신은 서로 다른 함수와 데이터를 비추어 무엇을 해야 하는지를 나타낼 수 있습니다.
  • 여러 데이터 소스에 걸쳐 오류를 제거하는 것은 매우 쉽다.
  • 등.

  • 학습의 다음 단계
    데이터 정리는 데이터 관리 업무 절차를 조직하는 중요한 구성 부분이다.이제 이 과정에 대한 더 많은 정보를 알고 기계 학습에서 더 많은 고급 개념을 배울 준비가 되어 있습니다.다음은 몇 가지 배울 만한 건의입니다.
  • 이미지 인식
  • Natural language processing
  • 응용기계학습
  • 기계 학습 중의 현대 기술을 이해하려면 Educative의 학습 경로Become a Machine Learning Engineer를 보십시오.본 학습 경로에서 당신은 기본적인 기계 학습 기술을 탐색하여 당신이 경쟁에서 뛰어나도록 도울 것입니다.마지막으로 데이터 파이프 생성, 모델 배치, 추리에 대한 작업 준비 기술을 갖추게 됩니다.
    즐겁게 공부하세요!

    데이터 과학 계속 읽기
  • How to ace the Facebook data scientist interview
  • The top 10 ML algorithms for data science in 5 minutes
  • Applied Data Science: serverless functions, pipelines and PySpark
  • 좋은 웹페이지 즐겨찾기