sam 과 bam 형식 파일 의 셸 연습

3645 단어
한 동안 의 학습 끝 에 생 신 채 새 단 과 생 신 스 킬 트 리 를 돌아 다 니 며 RNA - SEQ 에 대해 기본 적 인 이 해 를 가지 게 되자 마음 을 가 라 앉 히 고 숙제 를 했다.
1. 모두 몇 개의 reads (pair - end reads 는 여기 서 하나 로 계산) 가 비교 참조 게놈 에 참여 하 였 는 지 통계 합 니 다.
첫 번 째 단 계 는 요구 에 따라 데 이 터 를 다운로드 합 니 다.
less -SN tmp.sam|grep -v '^@'|wc

결 과 는 20000 으로 나 타 났 으 나 2 단 측정 순서 이기 때문에 답 은 10000 이다.
2. 통 계 는 모두 몇 가지 비교 유형 (즉, 두 번 째 열 수 치 는 몇 가지 가 있 는 지) 과 그 분포 가 있다.
less -SN tmp.sam|grep -v '^@'|cut -f 2|sort |uniq -c
125 101
     16 113
     24 129
    153 133
    165 137
    213 141
   4516 147
    125 153
      2 161
   4650 163
    136 165
     16 177
     24 65
    165 69
    153 73
    213 77
      2 81
   4650 83
    136 89
   4516 99


3. 실패 한 reads 를 선별 하여 시퀀스 특징 을 봅 니 다.
6 열 * 은 비교 실패 입 니 다.
less -SN tmp.sam|grep -v '^@'|awk '{if ($6=="*")print}'|wc

결과 1005
4. 실패 한 reads 를 단일 실패 와 이중 실패 로 구분 하고 시퀀스 ID 받 기
시퀀스 ID 가 첫 번 째 열 입 니 다.
less -SN tmp.sam|grep -v '^@'|awk '{if ($6=="*")print $1}'|sort|unqi -c|grep -w 1
为一端没有比对上。同理
less -SN tmp.sam|grep -v '^@'|awk '{if ($6=="*")print $1}'|sort|unqi -c|grep -w 2
为二端没有比对上。

5. 품질 치가 30 보다 큰 경 우 를 선별한다 (5 열 참조)
less -SN tmp.sam|grep -v '^@'|awk '{if ($5>30)print }'|wc

결 과 는 18632 로 나 타 났 다.
6. 비교 에 성 공 했 지만 완전히 일치 하 는 시퀀스 는 아 닙 니 다.
완전히 일치 하 는 것 은 M 이 고, 비교 성공 은 6 열 이 * 가 아니 라, 비교 성공 을 의미 하지만, 완전히 일치 하 는 것 은 아니다. IDNSHPX 라 는 몇 가지 상황 이 있다.
less -SN tmp.sam|grep -v '^@'|awk '{if ($6!="*")print $6}'| grep "[IDNSHPX]"|wc

결 과 는 1900 으로 나 타 났 다.
7. inset size 길이 가 1250 bp 이상 인 pair - end reads 를 선별 합 니 다.
less -SN tmp.sam|grep -v '^@' |awk '{if($7>1250)print}'|less -S

8. 게놈 위의 각 염색체 의 성공 비 교 를 참고 하여 reads 수량 을 통계 한다.
cut -f 3 tmp.sam|sort

9. 원본 fq 시퀀스 에서 N 의 비교 상황 을 선별 합 니 다.
less -SN tmp.sam|grep -v '^@' |awk '{if($10~N)print}'|less -S|wc

10. 원본 fq 시퀀스 에 N 이 있 는 것 을 선별 하지만 맞 을 때 는 완전히 일치 하 는 경우 입 니 다.
less -SN tmp.sam|grep -v '^@' |awk '{if($10~N)print}'|awk '{if($6!~"[IDNSHP]")print}'|awk '{if($6!~"*") print}'|less -SN

11. sam 파일 의 헤더 파일 줄 수
less -SN tmp.sam|grep - '^@'|wc

결 과 는 3 으로 나 타 났 다.
12. 샘 파일 의 줄 마다 tags 개수 가 같 습 니까?
cat tmp.sam | grep -v '^@' |cut -f 12- |less -S

13. sam 파일 의 줄 당 tags 개 수 는 각각 몇 개 입 니까?
less tmp.sam|grep "LN"
@SQ SN:gi|9626243|ref|NC_001416.1|  LN:48502

14 문제 와 13 문 제 는 한 조각 으로 그 길 이 는 48052 이다.
15. 상황 에 대한 삽입 상황 을 찾 아 라
less  tmp.sam | grep -v '^@'|awk '{if($6~I)print}'|less -S

16. 상황 에 비해 deletion 이 있 는 경 우 를 찾 습 니 다.
생각 은 같다.
less  tmp.sam | grep -v '^@'|awk '{if($6~D)print}'|less -S

17. 참고 게놈 의 특정한 지역 에 있 는 비교 기록, 예 를 들 어 5013 에서 50130 구역 을 꺼낸다.
less  tmp.sam | grep -v '^@'|awk '{if($4>5013 && $4 <50130)print}'|less -S

18. sam 파일 을 염색체 및 시작 좌표 에 따라 정렬 합 니 다.
less  tmp.sam | grep -v '^@'|awk '{print $4}'|sort -n

19. 102 M3D11M 의 비교 상황 을 찾 아 reads 세 션 의 길 이 를 계산한다.
grep  102M3D11M tmp.sam |cut -f 10|wc

좋은 웹페이지 즐겨찾기