Tips : [Bash][Blat] bash에서 염기서열로부터 게놈상의 위치를 ​​확인한다

게놈 위치의 특정을 넷을 개입시키지 않고 일순간에 끝내는 방법에 대해 설명합니다.

Blat 소개



먼저 게놈 검색에 사용하는 Blat이라는 프로그램을 준비합니다.

다운로드가 homebrew를 설치했다면 다음 명령을 bash에 두드려주세요.
 (homebrew의 인스톨은 여기 )
brew tap homebrew/science
brew install blat

blat 설치가 완료되면 다음 명령으로 도움말을 볼 수 있습니다.
blat

이 안의 usage를 봐 주세요.
usage:
   blat database query [-ooc=11.ooc] output.psl

blat는 웹에 연결하지 않고 로컬의 파일을 데이터베이스로 사용합니다.

블랫 입력
blat データベースファイル 検索する配列が入ったファイル 結果出力先ファイル

hg19.fa 얻기



이제 데이터베이스를 준비합시다.

이번에는 인간 게놈의 참조로서 일반적인 hg19를 데이터베이스로 사용합니다.
  이하의 주소를 웹 브라우저로 액세스해 주세요.
hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

돌격에 905MB의 파일이 설치됩니다. 잠시 기다리자.

다운로드가 완료되면 작업을 원하는 디렉토리로 파일을 이동합니다.

  다음 명령으로 파일을 확장하여 hg19.fa를 만듭니다.
tar -zxvf chromFa.tar.gz;
cat chr*.fa > ./hg19.fa;

6GB 정도 먹을 수 있으므로주의하십시오.

 hg19.fa 가 생기면 나머지는 버릴 수 있습니다.

  이제 데이터베이스 파일을 얻을 수 있었습니다.

fasta 파일은 배열의 게놈 위치를 배열로 검색합니다.



이번 검색하는 배열은 이쪽입니다.

test.fa
>1
CAGCCAACAGTGGATATTCC
>2
AGAACTACGTGGAAGTGACC
>3
GAGCTGCGCGCGGGGCCACA

이제 hg19.fa가있는 디렉토리에서 검색해 보겠습니다.

test.fa에서 배열 찾기
blat hg19.fa test.fa -minMatch=0 -minScore=20 output.psl

-minScore=20 은 검색 배열이 20 염기라는 것에서 유래합니다.

 이에 관해서는 각자가 다시 작성하십시오.

잠시 기다리면 아래의 표시가 나옵니다.

표준 출력
Searched 60 bases in 3 sequences

텍스트 편집기에서 output.psl은 다음과 같아야합니다.

output.psl
psLayout version 3

match   mis-    rep.    N's Q gap   Q gap   T gap   T gap   strand  Q           Q       Q       Q   T           T       T       T   block   blockSizes  qStarts  tStarts
        match   match       count   bases   count   bases           name        size    start   end name        size    start   end count
---------------------------------------------------------------------------------------------------------------------------------------------------------------
20  0   0   0   0   0   0   0   -   1   20  0   20  chr16   90354753    90128334    90128354    1   20, 0,  90128334,
20  0   0   0   0   0   0   0   +   2   20  0   20  chr1    249250621   155182200   155182220   1   20, 0,  155182200,
20  0   0   0   0   0   0   0   -   3   20  0   20  chr17   81195210    1552707 1552727 1   20, 0,  1552707,

보기 힘들기 때문에 확장자를 .tsv로 바꾸고 엑셀로 엽니다.

 T란의
name이 염색체 번호
start, end는 게놈상의 위치가 됩니다.

이것으로 위치가 정해졌습니다.

 념을 위해 test.fa의 번호 1의 배열(CAGCCAACAGTGGATATTCC)을 UCSC의 genome browser 에서도 확인해 봅시다.



strand가 마이너스(-)이므로 역상 보쇄가 표시되고 있습니다만, 틀림없네요.

이 방법으로 1000개 정도의 배열도 단번에 검색할 수 있습니다.

놀랍게도 그 소요 시간은 방금 전의 경우와 큰 차이가 없습니다.

이것이라면blast의 앞에서 팔을 짜는 생활에는 안녕 할 수 있을 것 같습니다.

또한 보충으로

test.fa의 배열 검색 2
blat hg19.fa test.fa -minMatch=0 -minScore=20 -noHead output.psl

하면 헤더가 없는 상태로 저장됩니다.

 R에 직접 데이터 프레임으로서 읽어들일 때는 이 형식을 추천합니다.

이상입니다. 고마워요.

좋은 웹페이지 즐겨찾기