VW 명령 행 인자

6349 단어 계산 도구
트 레이 닝
모형 을 훈련 할 때 가장 간단 한 명령 은 다음 과 같다.
vw train_file –cache_file cache_train -f model_file
  • train_file: 훈련 데이터, 형식 참조http://blog.csdn.net/zc02051126/article/details/47005229혹은https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format
  • –cache_file: 캐 시 파일 을 설정 합 니 다. VW 는 train 을 불 러 옵 니 다.file 시 속도 가 느 립 니 다. 캐 시 파일 인 자 를 설정 하면 첫 번 째 실행 시 VW 가 더 잘 읽 는 바 이 너 리 캐 시 파일 을 생 성하 여 읽 기 속 도 를 빠르게 합 니 다.
  • - f: 출력 모델 파일 설정
  • 예측 하 다.
    vw -t –cache_file cache_test -i model_file -p result.txt test_file
  • - t: 데이터 중의 라벨 정 보 를 무시 하고 샘플 데 이 터 를 예측 합 니 다.
  • –cache_file: 캐 시 파일 이 같 습 니 다.
  • i: 알 수 없 는 데 이 터 를 예측 하 는 모델 을 설정 합 니 다.
  • p: 예측 데이터 의 결과 파일 을 설정 합 니 다.
  • test_file: 예 측 된 견본 의 데이터 파일.

  • 기타 매개 변수 상세 설명
    1 VW 선택 가능 한 매개 변수
  • - h [– help]: 도움말 정 보 를 봅 니 다.
  • – version: 버 전 정보 보기.
  • –random_seed arg: 무 작위 피 드 를 설정 합 니 다.
  • – noop: 공부 안 해 요.

  • 2 입력 매개 변수
  • - d [– data]: 샘플 데이터 파일 을 설정 합 니 다.
  • –ring_size arg size of example ring
  • –examples arg number of examples to parse
  • –daemon read data from port 26542
  • – port: 감청 포트.
  • –num_children arg (=10) number of children for persistent daemon mode
  • –pid_file arg Write pid file in persistent daemon mode
  • –passes arg (=1): , 。
  • - c [– cache]: 캐 시 를 사용 합 니 다. 기본 적 인 상황 에서 캐 시 파일 은. cache 에 저 장 됩 니 다.
  • –cache_file arg: 캐 시 파일 을 설정 합 니 다.
  • – copressed: 압축 이 필요 할 때 gzip 압축 형식 을 사용 하고 캐 시 파일 이 필요 할 경우 압축 형식 으로 저장 합 니 다.자동 검색 모드 에서 파일 지원 텍스트 와 압축 형식의 혼합 을 입력 하 십시오.
  • –no_stdin do not default to reading from stdin
  • –save_resume save extra state so learning can be resumed later with new data

  • Raw training/testing data (in the proper plain text input format) can be passed to VW in a number of ways:
    Using the -d or --data options which expect a file name as an argument (specifying a file name that is not associated with any option also works);
    Via stdin;
    Via a TCP/IP port if the --daemon option is specified. The port itself is specified by --port otherwise the default port 26542 is used. The daemon by default creates 10 child processes which share the model state, allowing answering multiple simultaneous queries. The number of child processes can be controlled with --num_children, and you can create a file with the jobid using --pid_file which is later useful for killing the job.
    

    Parsing raw data is slow so there are options to create or load data in VW’s native format. Files containing data in VW’s native format are called caches. The exact contents of a cache file depend on the input as well as a few options (-b, –affix, –spelling) that are passed to VW during the creation of the cache. This implies that using the cache file with different options might cause VW to rebuild the cache. The easiest way to use a cache is to always specify the -c option. This way, VW will first look for a cache file and create it if it doesn’t exist. To override the default cache file name use –cache_file followed by the file name.
    –compressed can be used for reading gzipped raw training data, writing gzipped caches, and reading gzipped caches.
    –passes takes as an argument the number of times the algorithm will cycle over the data (epochs).
    6 가중치 설정 매개 변수
  • -b [ –bit_precision ] arg number of bits in the feature table
  • -i [ –initial_regressor ] arg Initial regressor(s) to load into memory (arg is filename)
  • -f [ –final_regressor ] arg:
  • –random_weights arg make initial weights random
  • –initial_weight arg (= 0): 모든 가중치 를 초기 값 1 로 설정 합 니 다.
  • –readable_model arg:
  • –invert_hash arg:
  • –save_per_pass:
  • –input_feature_regularizer arg Per feature regularization input file
  • –output_feature_regularizer_binary arg Per feature regularization output file
  • –output_feature_regularizer_text arg Per feature regularization output file, in text

  • VW hashes all features to a predetermined range [0,2^b-1] and uses a fixed weight vector with 2^b components. The argument of -b option determines the value of (b) which is 18 by default. Hashing the features allows the algorithm to work with very raw data (since there’s no need to assign a unique id to each feature) and has only a negligible effect on generalization performance (see for example Feature Hashing for Large Scale Multitask Learning.
    훈련 모델 을 사용 할 때 - f 로 모델 파일 을 지정 하고 모델 을 재 훈련 (이 어 기 존 훈련 결과 계속 훈련) 할 때 - i 로 기 존 모델 을 지정 할 수 있 습 니 다.
    – readable model 의 기능 은 - f 와 같 고 모델 을 저장 하 는 파일 을 지정 합 니 다. 저 장 된 결 과 는 바 이 너 리 가 아니 라 읽 기 에 더욱 적합 한 텍스트 모드 입 니 다. 형식 은 hash : 입 니 다.
    – invert hash 는 – readable model 의 기능 과 유사 하지만 출력 모델 은 읽 기 습관 에 더욱 적합 합 니 다. : hash : 각 특징 이름 뒤에 특징의 hash 값 이 있 고, 그 다음 에 특징 값 이 있 습 니 다. - invert hash 매개 변 수 를 사용 하면 더 많은 계산 자원 이 필요 하 며, 시간 복잡 도 를 계산 하 는 것 도 커 집 니 다. 이 때 특징 이름 은 캐 시 파일 에 저장 되 지 않 습 니 다.(- c 매개 변수 가 존재 하고 캐 시 파일 이 존재 하 며 – invert hash 매개 변 수 를 사용 하려 면 프로그램 이 캐 시 파일 을 삭제 하거나 매개 변수 - k 로 프로그램 을 자동 으로 감지 하여 처리 합 니 다)다 중 분류 학습 에 있어 서 매개 변수 - c 가 존재 해 야 합 니 다. 먼저 매개 변수 - invert hash 를 설정 하지 않 고 모델 을 훈련 한 다음 에 매개 변수 - t 를 제거 하고 – invert hash 매개 변 수 를 추가 하여 프로그램 을 다시 실행 하 는 것 을 권장 합 니 다. 이 때 프로그램 은 이전 바 이 너 리 모델 (- i 매개 변수 제어) 을 읽 고 텍스트 형식 (- invert hash 매개 변수 제어) 으로 변환 하 는 것 입 니 다.
    – save per pass saves: 이 인 자 를 설정 하면 계산 이 끝 날 때마다 모델 결 과 를 저장 합 니 다.
    –input_feature_regularizer, –output_feature_regularizer_binary,
    –output_feature_regularizer_text are analogs of -i, -f, and
    –readable_model for batch optimization where want to do per feature regularization. This is advanced, but allows efficient simulation of online learning with a batch optimizer.
    By default VW starts with the zero vector as its hypothesis. The –random_weights option initializes with random weights. This is often useful for symmetry breaking in advanced models. It’s also possible to initialize with a fixed value such as the all-ones vector using –initial_weight.

    좋은 웹페이지 즐겨찾기