데이터 창고에서 PII 스캔하는 두 가지 방법

6357 단어 securitydatabasenlp
데이터 프라이버시와 보호의 중요한 요구 사항 중 하나는 PII가 포함된 테이블과 열을 찾고 편집하는 것이다
또는 데이터 웨어하우스의 PHI 데이터입니다.Datahub
Amundsen 데이터 창고의 정보를 분류할 수 있습니다.이외에 표와 열
PII 및 PII 태그 유형을 포함하여 태그를 지정할 수 있습니다.
부족한 부분은 PII를 사용하여 테이블과 열을 스캔, 체크 및 태그하는 것입니다.
이 글은 두 가지 문제 해결 전략을 묘사하였다.
PII 검색 및 감지 및 검색을 위한 소스 오픈 애플리케이션 도입
데이터 창고.

PII 데이터란?


PII 또는 개인 식별 정보는 일반적으로 사용 가능한 것으로 정의됩니다.
한 사람의 신분을 확정하다.전통적으로 SSN, 메일, 이메일 또는 전화번호 등의 정보는 PII로 간주된다.... 로 삼다
기술의 발전에 따라 PII의 범위는 로그인 ID, IP 주소, 지리적 위치와 생물 특징 데이터까지 확대되었다.
PII 데이터 유형은 다음과 같습니다.

  • 민감성: 이름, 전화번호, 이메일, 이메일 등 개인에 직접 연결할 수 있는 모든 데이터를 가리킨다
    우편 주소.

  • 비민감성: 위치와 인종 등 개인에 간접적으로 연결할 수 있는 모든 데이터를 가리킨다.
  • 구체적으로 규정 준수 정의의 PII는 다음과 같습니다.

  • GDPR: PII는 개인의 신분을 명확하게 식별할 수 있는 모든 데이터입니다.여기에 IP 주소도 포함됩니다.
    로그인 ID 상세 정보, 소셜미디어 게시물, 디지털 이미지, 지리적 위치 등.

  • CCPA: 개인정보는 식별, 연관, 설명, 합리적 능력으로 정의된 정보
    특정 소비자나 가정과 직간접적으로 관련되거나 직간접적으로 관련될 수 있다.

  • HIPAA: HIPAA는 PII를 개인과 직간접적으로 관련된 모든 유형의 정보로 정의합니다.
  • 이러한 정의 외에 도메인 및 기업은 특정 PII 데이터를 수집할 수 있습니다.간단한 예는
    건강 업계에서 수집한 PHI(개인 건강 정보).마찬가지로 은행 계좌나 암호화폐 지갑 ID
    개인을 식별하는 데도 사용할 수 있다.
    다음 목록은 모든 업계에서 관리해야 하는 기본 또는 일반 PII 정보로 간주됩니다.
  • 전화
  • 이메일
  • 신용카드
  • 주소
  • 개인/이름
  • 위치
  • 날짜
  • 성별
  • 국적
  • IP 주소
  • SSN
  • 사용자 이름
  • 비밀번호
  • 도전하다


    의 환자 테이블에 있는 샘플 레코드
    Synthetic Patient Records with COVID-19:
    열명
    데이터
    신분증
    f0f3bc8d-ef38-49ce-a2bd-dfdda982b271
    생일 축하합니다
    2017-08-24
    SSN
    999-68-6630
    첫째
    저신토
    최후
    크리스249
    시합
    백색
    종족
    아프리카계
    성별 명사
    M
    출생지
    미국 마사추세츠 주 베플리 호텔
    소재지
    888 히클 나룻배 38호 스위트룸
    도시.
    스플린필드
    프레젠테이션
    매사추세츠 주
    군, 군
    한푸덴 현
    지퍼
    01106
    라트
    42.151961474963535
    낭랑하다
    -72.59895940376188
    의료비
    8446.49
    의료 보험
    1499.08
    대부분의 수열은 PII 데이터를 저장합니다.그러나 체크 열에 PII 데이터 및
    PII 데이터의 유형입니다.예를 들어, 스캐너가 SSN의 데이터만 검색하면 전화 번호로 감지될 수 있습니다.
    마찬가지로, 성별 표시줄의 M 또는 F 또는 인종 표시줄의 화이트도 PII인지 확인할 수 있는 상하문을 제공할 수 없습니다
    및 PII 데이터의 유형입니다.이 두 가지 상황에서 열 이름을 스캔하기가 더욱 쉽다.
    반대로payers표는name열에 건강보험회사의 이름을 저장합니다.이런 상황에서
    스캐너는 이름 열에 PII 데이터가 포함되지 않도록 데이터를 검사해야 합니다.

    PII 데이터 검색 및 감지 기술


    이전 섹션을 기준으로 PII 데이터를 검색하는 두 가지 주요 정책은 다음과 같습니다.
  • 스캐너 열과 테이블 이름
  • 열에 저장된 데이터 검색
  • 데이터 웨어하우스 메타데이터 검색


    데이터 엔지니어는 테이블과 열에 대해 묘사적인 이름을 사용하여 사용자가 그 안에 저장된 데이터를 이해하도록 돕는다.그래서
    테이블과 열의 이름은 저장된 데이터 형식에 대한 단서를 제공합니다.예를 들어,

  • 이름, 성, 전체 이름, 이름은 한 사람의 이름을 저장하는 데 사용할 수 있습니다.

  • ssn 또는 사회 안전은 우리의 ssn 번호를 저장하는 데 사용될 수 있습니다.

  • 전화 또는 전화 번호는 전화 번호를 저장하는 데 사용될 수 있습니다.
  • 모든 데이터 창고는 패턴, 테이블, 열 정보를 추출하기 위한 정보 모드를 제공합니다.예컨대
    Snowflake에서 메타데이터를 가져오는 데 사용할 수 있는 쿼리는 다음과 같습니다.
    SELECT
        lower(c.column_name) AS col_name,
        c.comment AS col_description,
        lower(c.data_type) AS col_type,
        lower(c.ordinal_position) AS col_sort_order,
        lower(c.table_catalog) AS database,
        lower({cluster_source}) AS cluster,
        lower(c.table_schema) AS schema,
        lower(c.table_name) AS name,
        t.comment AS description,
        decode(lower(t.table_type), 'view', 'true', 'false') AS is_view
    FROM
        {database}.{schema}.COLUMNS AS c
    LEFT JOIN
        {database}.{schema}.TABLES t
            ON c.TABLE_NAME = t.TABLE_NAME
            AND c.TABLE_SCHEMA = t.TABLE_SCHEMA
    
    정규 표현식은 테이블 이름이나 열 이름과 일치하는 데 사용할 수 있습니다.예를 들어 아래의 정규 표현식 검사
    사회 보험 번호가 저장된 열:
    ^.*(ssn|social).*$
    

    열에 저장된 데이터 검색


    두 번째 정책은 열에 저장된 데이터를 스캔하는 것이다.이 정책에는 두 개의 하위 정책이 있습니다.
  • 정규 표현식
  • NLP 라이브러리 Stanford NER Detector
    Spacy
  • 이러한 전략의 주요 단점은 NLP 라이브러리가 계산 집약적이라는 것이다.이 가능하다, ~할 수 있다,...
    중간 크기의 시계에서 NLP 스캐너를 실행해도 수백만 줄이나 수십억 줄의 시계는 말할 것도 없다.그러므로
    스캔해야 할 줄의 무작위 샘플입니다.예상보다 무작위 견본을 선택하는 것이 어렵다.다행히도 데이터베이스가 몇 개 있다
    랜덤 샘플을 선택할 수 있는 내장 함수를 제공합니다.예를 들어, 다음 스노우 쿼리에서는 무작위 샘플을 제공합니다.
    select {column_list} from {schema_name}.{table_name} TABLESAMPLE BERNOULLI (10 ROWS)
    
    행을 추출한 후에는 정규 표현식 또는 NLP 라이브러리를 사용하여 체크할 수 있습니다.
    PII 컨텐트.

    관계를 끊다


    challenges에 설명된 대로 PII 데이터를 테스트하려면 두 가지 기술이 필요합니다.그러나 이 두 가지 기술은
    오보와 누보가 발생하기 쉽다.일반적인 상황에서 서로 다른 기술은 충돌을 일으킬 수 있다
    PII 유형입니다.정확한 유형을 탐지하는 것은 매우 어렵고 미래 블로그 글의 주제이기도 하다.

    PICatcher:데이터 웨어하우스의 PII 데이터 검색


    데이터 웨어하우스의 PII 데이터를 검색하고 검색하는 두 가지 정책을 구현합니다.

    특징.


    이 두 가지 정책을 사용하여 데이터 창고를 스캔할 수 있습니다.PICatcher는 점점 더 많은 배터리를 포함하는 배터리입니다.
    열 이름과 데이터를 스캔하는 데 사용되는 정규 표현식입니다.그것도 포함된다Spacy.
    PICatcher는 새로 또는 아직 검색되지 않은 열만 검색하는 델타 검색을 지원합니다.변동분 검색을 통해 간편한 작업 수행
    계획을 검색합니다.그것 또한 계산 자원을 관리하기 위해 패턴과 표를 포함하거나 배제할 수 있는 강력한 옵션을 제공했다.
    Datahub과 Amundsen은 PII와 데이터 형식으로 열과 표를 표시하는 수신 기능을 가지고 있다
    PII 태그.

    샘플 보기 AWS Glue & Lake Formation Privilege Analyzer
    PIIcatcher의 생산에서의 응용

    결론


    열 이름과 데이터를 검색하여 데이터베이스에서 PII를 검색할 수 있습니다.두 정책 모두 PII를 안정적으로 테스트해야 함
    데이터PIIcatcher는 이 두 가지 정책을 구현하는 오픈 소스 응용 프로그램입니다.얘는 PII랑
    PII의 유형은 데이터 관리자가 데이터의 프라이버시와 안전에 대해 더욱 현명한 결정을 할 수 있도록 한다.

    좋은 웹페이지 즐겨찾기