sam 과 bam 형식 파일 의 셸 연습
1. 모두 몇 개의 reads (pair - end reads 는 여기 서 하나 로 계산) 가 비교 참조 게놈 에 참여 하 였 는 지 통계 합 니 다.
첫 번 째 단 계 는 요구 에 따라 데 이 터 를 다운로드 합 니 다.
less -SN tmp.sam|grep -v '^@'|wc
결 과 는 20000 으로 나 타 났 으 나 2 단 측정 순서 이기 때문에 답 은 10000 이다.
2. 통 계 는 모두 몇 가지 비교 유형 (즉, 두 번 째 열 수 치 는 몇 가지 가 있 는 지) 과 그 분포 가 있다.
less -SN tmp.sam|grep -v '^@'|cut -f 2|sort |uniq -c
125 101
16 113
24 129
153 133
165 137
213 141
4516 147
125 153
2 161
4650 163
136 165
16 177
24 65
165 69
153 73
213 77
2 81
4650 83
136 89
4516 99
3. 실패 한 reads 를 선별 하여 시퀀스 특징 을 봅 니 다.
6 열 * 은 비교 실패 입 니 다.
less -SN tmp.sam|grep -v '^@'|awk '{if ($6=="*")print}'|wc
결과 1005
4. 실패 한 reads 를 단일 실패 와 이중 실패 로 구분 하고 시퀀스 ID 받 기
시퀀스 ID 가 첫 번 째 열 입 니 다.
less -SN tmp.sam|grep -v '^@'|awk '{if ($6=="*")print $1}'|sort|unqi -c|grep -w 1
为一端没有比对上。同理
less -SN tmp.sam|grep -v '^@'|awk '{if ($6=="*")print $1}'|sort|unqi -c|grep -w 2
为二端没有比对上。
5. 품질 치가 30 보다 큰 경 우 를 선별한다 (5 열 참조)
less -SN tmp.sam|grep -v '^@'|awk '{if ($5>30)print }'|wc
결 과 는 18632 로 나 타 났 다.
6. 비교 에 성 공 했 지만 완전히 일치 하 는 시퀀스 는 아 닙 니 다.
완전히 일치 하 는 것 은 M 이 고, 비교 성공 은 6 열 이 * 가 아니 라, 비교 성공 을 의미 하지만, 완전히 일치 하 는 것 은 아니다. IDNSHPX 라 는 몇 가지 상황 이 있다.
less -SN tmp.sam|grep -v '^@'|awk '{if ($6!="*")print $6}'| grep "[IDNSHPX]"|wc
결 과 는 1900 으로 나 타 났 다.
7. inset size 길이 가 1250 bp 이상 인 pair - end reads 를 선별 합 니 다.
less -SN tmp.sam|grep -v '^@' |awk '{if($7>1250)print}'|less -S
8. 게놈 위의 각 염색체 의 성공 비 교 를 참고 하여 reads 수량 을 통계 한다.
cut -f 3 tmp.sam|sort
9. 원본 fq 시퀀스 에서 N 의 비교 상황 을 선별 합 니 다.
less -SN tmp.sam|grep -v '^@' |awk '{if($10~N)print}'|less -S|wc
10. 원본 fq 시퀀스 에 N 이 있 는 것 을 선별 하지만 맞 을 때 는 완전히 일치 하 는 경우 입 니 다.
less -SN tmp.sam|grep -v '^@' |awk '{if($10~N)print}'|awk '{if($6!~"[IDNSHP]")print}'|awk '{if($6!~"*") print}'|less -SN
11. sam 파일 의 헤더 파일 줄 수
less -SN tmp.sam|grep - '^@'|wc
결 과 는 3 으로 나 타 났 다.
12. 샘 파일 의 줄 마다 tags 개수 가 같 습 니까?
cat tmp.sam | grep -v '^@' |cut -f 12- |less -S
13. sam 파일 의 줄 당 tags 개 수 는 각각 몇 개 입 니까?
less tmp.sam|grep "LN"
@SQ SN:gi|9626243|ref|NC_001416.1| LN:48502
14 문제 와 13 문 제 는 한 조각 으로 그 길 이 는 48052 이다.
15. 상황 에 대한 삽입 상황 을 찾 아 라
less tmp.sam | grep -v '^@'|awk '{if($6~I)print}'|less -S
16. 상황 에 비해 deletion 이 있 는 경 우 를 찾 습 니 다.
생각 은 같다.
less tmp.sam | grep -v '^@'|awk '{if($6~D)print}'|less -S
17. 참고 게놈 의 특정한 지역 에 있 는 비교 기록, 예 를 들 어 5013 에서 50130 구역 을 꺼낸다.
less tmp.sam | grep -v '^@'|awk '{if($4>5013 && $4 <50130)print}'|less -S
18. sam 파일 을 염색체 및 시작 좌표 에 따라 정렬 합 니 다.
less tmp.sam | grep -v '^@'|awk '{print $4}'|sort -n
19. 102 M3D11M 의 비교 상황 을 찾 아 reads 세 션 의 길 이 를 계산한다.
grep 102M3D11M tmp.sam |cut -f 10|wc
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
다양한 언어의 JSONJSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.