독서 노트 3: 데이터 의 관리 와 이해

3282 단어 기계 학습
모든 기계 학습 프로젝트 초기의 핵심 부분 은 수 집 된 데 이 터 를 관리 하고 이해 하 는 것 과 관련 이 있다.
R 데이터 구조: 벡터, 인자, 목록, 배열 과 데이터 상자
벡터 (R 의 기본 데이터 구조):
(하나의 벡터 는 임의의 수량의 요 소 를 포함 할 수 있 으 며 모든 요 소 는 같은 유형 이 어야 합 니 다)
벡터 는 질서 있 는 값 을 저장 합 니 다.
원소
벡터 종류:
integer (정형), numeric (수치 형), character (문자 형), logical (논리 형), NULL (아무런 값 도 없 음), NA (결 여 된 값)
> name  value  name[1]
[1] "a"
> name[3]
[1] "c"
> name[2,3]
Error in name[2, 3] :       
> name[2:3]
[1] "b" "c"
> name[-2]
[1] "a" "c"
> name[c(TRUE,FALSE,TRUE)]
[1] "a" "c"

인자: (벡터 의 특례)
> gender  gender
[1] MALE   FEMALE MALE  
Levels: FEMALE MALE

목록: (특수 유형의 벡터) (서로 다른 유형의 값 을 수집 할 수 있 습 니 다)
> bbz  bbz
$name
[1] "ahaha"
$age
[1] "22"
$time
[1] "2015"
> bbz[2]
$age
[1] "22"
> bbz$age
[1] "22"

데이터 상자: (가장 중요 한 R 데이터 구조) (스프 레 드 시트 나 데이터베이스 와 유사)
(데이터 상 자 는 벡터 목록 이나 인자 목록 으로 정의 되 며, 열 마다 같은 수량의 값 이 있 습 니 다)
> pt_data  pt_data
  name value gender name.1 age time stringAsFactors
1    a   100   MALE  ahaha  22 2015           FALSE
2    b   200 FEMALE  ahaha  22 2015           FALSE
3    c   300   MALE  ahaha  22 2015           FALSE
> pt_data$name
[1] a b c
Levels: a b c
> pt_data[c("name","value")]
  name value
1    a   100
2    b   200
3    c   300
> pt_data[1:2]
  name value
1    a   100
2    b   200
3    c   300
> pt_data[1,2]
[1] 100
> pt_data[c(1,2),c(2,3)]
  value gender
1   100   MALE
2   200 FEMALE
> pt_data[,2]
[1] 100 200 300
> pt_data[1,]
  name value gender name.1 age time stringAsFactors
1    a   100   MALE  ahaha  22 2015           FALSE
> pt_data[,]
  name value gender name.1 age time stringAsFactors
1    a   100   MALE  ahaha  22 2015           FALSE
2    b   200 FEMALE  ahaha  22 2015           FALSE
3    c   300   MALE  ahaha  22 2015           FALSE

매트릭스 와 배열: (표 형식 데 이 터 를 저장 하 는 전용 데이터 구조) (줄 과 열 데 이 터 를 나타 내 는 2 차원 표 데이터 구조)

행렬 은 수학 연산 을 하 는 데 쓰 이 며, 일반적으로 수치 형 데 이 터 를 저장한다)
> m  m
     [,1] [,2]
[1,] "a"  "c" 
[2,] "b"  "d" 
> m  m
     [,1] [,2]
[1,] "a"  "c" 
[2,] "b"  "d" 
> m  m
     [,1] [,2] [,3]
[1,] "a"  "c"  "e" 
[2,] "b"  "d"  "f" 
> m  m
     [,1] [,2]
[1,] "a"  "d" 
[2,] "b"  "e" 
[3,] "c"  "f" 
> m[1,]
[1] "a" "d"
> m[,1]
[1] "a" "b" "c"


배열: 행렬 구조 와 매우 가 깝 고 다 차원 데이터 시트)
(행렬 은 줄 과 열 값 을 포함 하고 배열 은 줄, 열 과 임 의 다 층 값 을 포함한다)
R 로 데이터 관리:
1. R 데이터 구조 저장 및 불 러 오기
save () 함 수 는 R 데이터 구 조 를 file 매개 변수 가 설정 한 위치 에 기록 합 니 다.R 데이터 파일 에 파일 확장자 가 있 습 니 다. RData
> save(name,value,gender,bbz,m,file="mydata.RData")
> load("mydata.RData")
> save.image()

2. CSV 파일 로 데이터 가 져 오기 및 저장
3. SQL 데이터베이스 에서 데이터 가 져 오기
RODBC 추가 패 키 지 를 설치 하고 불 러 옵 니 다.
install.packages("RODBC")
library(RODBC)

데이터베이스 연결 만 들 기 (약)

좋은 웹페이지 즐겨찾기