생물정보학 연습문제-삼양

4321 단어 시험
ANNOROAD0922 1.연습 문제 문서는 첨부 파일과 같다.(시험을 치르는 모든 사람은 연습을 해야 한다).연습 문제에 사용된 데이터는 다음과 같습니다.https://pan.genomics.cn/ucdisk/s/7jYfIb추출코드:995017 만료시간:2018-10-01 23:59:59
2.cd/export/home/stu24
3. 생물정보학 연습문제1, 데이터/newBGISeq5001.fq 및 data/newBGISeq5002. fq에서 BGISeq500 측정 플랫폼을 바탕으로 하는 진핵생물 유전자 그룹 DNA의 PE101 측정 데이터로 삽입 부분의 길이는 450bp이다.이 게놈 크기는 약 6M 정도로 알려져 있다.
1) 이번 테스트의 Pereads 수를 몇 쌍으로 집계해 주십시오.
shell:
a=$(gzip -dc newBGIseq500_2.fq.gz |wc -l);echo $[a/4]

perl:
my $in = shift @ARGV;
open IN,"gzip -dc $in|" or die;
my $num;
while(){
        chomp;
        $num = $.;
}
close IN;
$num = $num /4;
print "$num";

이론적으로 유전자 그룹의 99퍼센트 이상의 구역을 적어도 40X에 이르게 할 수 있습니까?추리와 계산의 과정과 결과를 간단하게 쓰십시오. 수치 계산은 R 등의 도구를 사용할 때 사용하는 코드를 쓰십시오.

이전 단계의 결과에 근거하여 모든 데이터량을 계산하다

base

평균 깊이를 계산하면 깊이는 파송 분포에 부합되고 평균 깊이는 그 기대에 부합된다

dep

현재 상황을 계산합니다. 깊이가 40X보다 큰 구간의 백분율을 계산합니다.

print (ppois(40,lambda=dep,lower=FALSE))

2) SOAPdenovo 소프트웨어를 다운로드하여 설치하고 - K 파라미터를 35로 설정하여 이 데이터를 de novo로 조립하고 조립 결과 서열의 길이에서 짧은 길이의 누적 곡선도를 그립니다.
설치: cd SOAPdenovo2-master make
조립:
/export/home/stu24/SOAPdenovo2-master/SOAPdenovo-63mer all -K 35 -D 1 -s soap.contig.txt -o ant >log 2>err

my $fa = shift @ARGV;
my (%hash,$id);
open IN ,"< $fa" or die "$!
"; while(){ chomp; if (/^>(\S+)/){ $id = $1; $hash{$id} = ""; } else{ $hash{$id} .= $_; } } close IN; foreach my $k (sort {length $hash{$b} <=> length $hash{$a}} keys %hash){ my $len = length $hash{$k}; print "$k\t$len
"; } pdf("Cumulative.pdf") contig_length

3) 조립 결과의 N50을 계산한다.
my $fa = shift @ARGV;
my (%hash,$id,$total,$tmp);
open IN ,"< $fa" or die "$!
"; while(){ chomp; if (/^>(\S+)/){ $id = $1; $hash{$id} = ""; } else{ $total += length $_; $hash{$id} += length $_; } } close IN; foreach my $k (sort {$hash{$b} <=> $hash{$a}} keys %hash){ $tmp += $hash{$k}; print "$k\t$len
"; if ($tmp>=$total/2){ print "$hash{$k}\t$tmp\t$total
"; exit; }; }

2. 시험 참고 디렉터리에 있는 파일 데이터/chr17.vcf.gz, 중 모 trio 가계의 17호 염색체의 변이 집합이고 참고 서열은 hg38이다.1) 스크립트를 작성하거나 적절한 도구를 선택하여 vcf에서 변이 비트의Qual값 분포 상황을 통계하고 그림을 그립니다.
less -S chr17.vcf |grep -v "^##" |awk '{print $1"\t"$2"\t"$3"\t"$4"\t"$5"\t"$6}' >snp.qual.xls
pdf("qual.pdf")
snp

2) 적합한 도구나 방법을 선택하여 이 가계가 TP53 유전자에서 변이 상황을 추출하여 출력하고 변이 위치의 수와 각 샘플의 상황(순합, 잡합 위치의 수)을 설명한다.
awk '$2>7668402 && $2 <7687550' chr17.vcf >TP53.vcf
my $in = shift @ARGV;
open IN,"$in" or die;
print "genotype\t27DMBDM4YT\t7XKZJA3JWX\tAPRDKV0LDS
"; my @sample=("27DMBDM4YT","7XKZJA3JWX","APRDKV0LDS"); my %h; while(){ chomp; my @l = split(/\t/); my $num =0; foreach my $k (@l[9..11]){ $k=~/\b(\d)\/(\d)/ or die"$k
"; if ($1==$2){ $h{$sample[$num]}{"hom"}++; } else{ $h{$sample[$num]}{"het"}++; } $num++; } } close IN; print "hom\t"; foreach my $k (@sample){ print "$h{$k}{'hom'}\t"; } print "
het\t"; foreach my $k (@sample){ print "$h{$k}{'het'}\t"; } print "
";

퀴즈 요구 사항: 퀴즈 디렉터리에 'exam' 이라는 디렉터리를 새로 만들고 그 안에 '1 SOAPdenovo', '2 Trio' 두 개의 하위 디렉터리를 만들어서 이 문제의 해답을 순서대로 하위 디렉터리에 저장하십시오.필요한 소프트웨어: SOAPdenovo, Jellyfish, VCF 조작 도구, R 등은 스스로 설치하세요.문제 풀이 사고방식과 정보 조회, 참고 시퀀스, 소프트웨어 다운로드 주소 등 스크립트가 아닌 절차를 Result에서 실행하십시오.txt 파일에서 설명, 실행 가능한 명령은 01work.sh、02_work.sh에서 다른 프로그램, 스크립트, 출력 파일 등은 필요에 따라 명명됩니다.

좋은 웹페이지 즐겨찾기