거래 스코어링 - 1부: MySQL의 데이터 전처리

지난번 블로그에서 ;에 대해 썼습니다. 오늘부터 판매 데이터 분석 프로세스를 시작하겠습니다. 나는 회사가 잠재적인 거래를 목표로 삼는 데 사용할 수 있는 각 잠재 고객에 점수를 할당하기 위해 logistic regression model을 구축할 것입니다. 점수가 높을수록 거래가 뜨겁고 전환 가능성이 가장 높다는 것을 의미하는 반면, 점수가 낮으면 거래가 냉담하고 대부분 전환되지 않음을 의미합니다.

When closing deals, a salesperson with a rich pipeline of potential clients must decide where to focus their time to close a particular deal. Often, salespeople make decisions based on their intuition and incomplete information. Using AI, data scientists compile historical information about a client, company, social media postings and the salesperson’s customer interaction history (e.g. emails sent, calls made, text sent etc. ); and rank the opportunities or leads in the pipeline according to their chances (probability) of closing successfully. One tool built on this methodology is Dealcode GmbH.



얻은 데이터는 여러 CSV 파일에 있었습니다. MySQL을 사용하여 데이터를 검사하고 전처리했습니다.

-- Creating NEW Table
DROP TABLE IF EXISTS crm_activity;

CREATE TABLE crm_activity (
    id INT PRIMARY KEY,
    crmId INT,
    crmUserId INT,
    crmDealId INT,
    crmLeadId INT,
    crmDuration TIME NULL,
    crmType VARCHAR(255),
    crmDueTime TIME NULL,
    crmAddTime VARCHAR(255),
    crmUpdateTime VARCHAR(255),
    crmDueDate DATE,
    crmSubject VARCHAR(255),
    crmDone INT,
    isDeleted INT,
    createDate VARCHAR(255),
    companyId INT
);

LOAD DATA LOCAL INFILE 'path/crm_activity.csv' IGNORE 
INTO TABLE crm_activity
FIELDS TERMINATED BY ',' 
LINES TERMINATED BY '\n';

SELECT * FROM crm_activity
LIMIT 100;

createDate와 같은 필드의 데이터 유형은 (VARCHAR) 다양한 문자 데이터로 표시됩니다. timestamp 를 사용하여 데이터 유형을 str_to_date로 변환하고 변환된 string-to-date를 새 열에 삽입합니다. 문자열 date-time 열은 DROP 를 사용하여 삭제할 수 있습니다.

ALTER TABLE crm_activity ADD (
    crmAddTime_ts TIMESTAMP,
    crmUpdateTime_ts TIMESTAMP,
    createDate_ts TIMESTAMP
);

UPDATE crm_activity SET  crmAddTime_ts = str_to_date( crmAddTime, '"%Y-%m-%d %H:%i:%s"');
UPDATE crm_activity SET crmUpdateTime_ts = str_to_date( crmUpdateTime, '"%Y-%m-%d %H:%i:%s"');
UPDATE crm_activity SET  createDate_ts = str_to_date(  createDate, '"%Y-%m-%d %H:%i:%s"');

DELETE FROM crm_activity WHERE id=0;

COMMIT;


MySQL은 생성된(현재 존재하는) 데이터베이스에서 자동으로 데이터베이스 스키마 보기를 생성합니다( From the interface --> Database --> Reverse Engineer --> Follow the instructions ).

생성된 데이터베이스 스키마


데이터베이스 스키마는 개발자가 데이터베이스 구성 방법을 시각화하고 프로젝트에 포함된 테이블 및 필드에 대한 명확한 참조 지점을 제공하는 데 도움이 되기 때문에 필수적입니다.

데이터 처리



MySQL에서 Anaconda(python)으로 데이터를 가져오려면 mysql.connector 패키지가 필요하고 pip install mysql-connector-python에서 설치했습니다.

mydb = mysql.connector.connect(
  host="localhost",
  user="myuser",
  password="yourpassword",
  database="name_of_the_database"
)

# Loading and visualizing in Anaconda
crm_deal = mydb.cursor()
crm_deal.execute("SELECT * FROM crm_deal ")
crm_deal_results = crm_deal.fetchall()
for leads in crm_deal_results:
  print(leads[:10])


계속 읽기 -

좋은 웹페이지 즐겨찾기