생물정보학 연습문제-삼양
4321 단어 시험
2.cd/export/home/stu24
3. 생물정보학 연습문제1, 데이터/newBGISeq5001.fq 및 data/newBGISeq5002. fq에서 BGISeq500 측정 플랫폼을 바탕으로 하는 진핵생물 유전자 그룹 DNA의 PE101 측정 데이터로 삽입 부분의 길이는 450bp이다.이 게놈 크기는 약 6M 정도로 알려져 있다.
1) 이번 테스트의 Pereads 수를 몇 쌍으로 집계해 주십시오.
shell:
a=$(gzip -dc newBGIseq500_2.fq.gz |wc -l);echo $[a/4]
perl:
my $in = shift @ARGV;
open IN,"gzip -dc $in|" or die;
my $num;
while(){
chomp;
$num = $.;
}
close IN;
$num = $num /4;
print "$num";
이론적으로 유전자 그룹의 99퍼센트 이상의 구역을 적어도 40X에 이르게 할 수 있습니까?추리와 계산의 과정과 결과를 간단하게 쓰십시오. 수치 계산은 R 등의 도구를 사용할 때 사용하는 코드를 쓰십시오.
이전 단계의 결과에 근거하여 모든 데이터량을 계산하다 base
평균 깊이를 계산하면 깊이는 파송 분포에 부합되고 평균 깊이는 그 기대에 부합된다 dep
현재 상황을 계산합니다. 깊이가 40X보다 큰 구간의 백분율을 계산합니다. print (ppois(40,lambda=dep,lower=FALSE))
2) SOAPdenovo 소프트웨어를 다운로드하여 설치하고 - K 파라미터를 35로 설정하여 이 데이터를 de novo로 조립하고 조립 결과 서열의 길이에서 짧은 길이의 누적 곡선도를 그립니다.
설치: cd SOAPdenovo2-master make
조립:/export/home/stu24/SOAPdenovo2-master/SOAPdenovo-63mer all -K 35 -D 1 -s soap.contig.txt -o ant >log 2>err
my $fa = shift @ARGV;
my (%hash,$id);
open IN ,"< $fa" or die "$!
";
while(){
chomp;
if (/^>(\S+)/){
$id = $1;
$hash{$id} = "";
}
else{
$hash{$id} .= $_;
}
}
close IN;
foreach my $k (sort {length $hash{$b} <=> length $hash{$a}} keys %hash){
my $len = length $hash{$k};
print "$k\t$len
";
}
pdf("Cumulative.pdf")
contig_length
3) 조립 결과의 N50을 계산한다.my $fa = shift @ARGV;
my (%hash,$id,$total,$tmp);
open IN ,"< $fa" or die "$!
";
while(){
chomp;
if (/^>(\S+)/){
$id = $1;
$hash{$id} = "";
}
else{
$total += length $_;
$hash{$id} += length $_;
}
}
close IN;
foreach my $k (sort {$hash{$b} <=> $hash{$a}} keys %hash){
$tmp += $hash{$k};
print "$k\t$len
";
if ($tmp>=$total/2){
print "$hash{$k}\t$tmp\t$total
";
exit;
};
}
2. 시험 참고 디렉터리에 있는 파일 데이터/chr17.vcf.gz, 중 모 trio 가계의 17호 염색체의 변이 집합이고 참고 서열은 hg38이다.1) 스크립트를 작성하거나 적절한 도구를 선택하여 vcf에서 변이 비트의Qual값 분포 상황을 통계하고 그림을 그립니다.less -S chr17.vcf |grep -v "^##" |awk '{print $1"\t"$2"\t"$3"\t"$4"\t"$5"\t"$6}' >snp.qual.xls
pdf("qual.pdf")
snp
2) 적합한 도구나 방법을 선택하여 이 가계가 TP53 유전자에서 변이 상황을 추출하여 출력하고 변이 위치의 수와 각 샘플의 상황(순합, 잡합 위치의 수)을 설명한다.awk '$2>7668402 && $2 <7687550' chr17.vcf >TP53.vcf
my $in = shift @ARGV;
open IN,"$in" or die;
print "genotype\t27DMBDM4YT\t7XKZJA3JWX\tAPRDKV0LDS
";
my @sample=("27DMBDM4YT","7XKZJA3JWX","APRDKV0LDS");
my %h;
while(){
chomp;
my @l = split(/\t/);
my $num =0;
foreach my $k (@l[9..11]){
$k=~/\b(\d)\/(\d)/ or die"$k
";
if ($1==$2){
$h{$sample[$num]}{"hom"}++;
}
else{
$h{$sample[$num]}{"het"}++;
}
$num++;
}
}
close IN;
print "hom\t";
foreach my $k (@sample){
print "$h{$k}{'hom'}\t";
}
print "
het\t";
foreach my $k (@sample){
print "$h{$k}{'het'}\t";
}
print "
";
퀴즈 요구 사항: 퀴즈 디렉터리에 'exam' 이라는 디렉터리를 새로 만들고 그 안에 '1 SOAPdenovo', '2 Trio' 두 개의 하위 디렉터리를 만들어서 이 문제의 해답을 순서대로 하위 디렉터리에 저장하십시오.필요한 소프트웨어: SOAPdenovo, Jellyfish, VCF 조작 도구, R 등은 스스로 설치하세요.문제 풀이 사고방식과 정보 조회, 참고 시퀀스, 소프트웨어 다운로드 주소 등 스크립트가 아닌 절차를 Result에서 실행하십시오.txt 파일에서 설명, 실행 가능한 명령은 01work.sh、02_work.sh에서 다른 프로그램, 스크립트, 출력 파일 등은 필요에 따라 명명됩니다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
AWS 인증 개발업체인 아소시에트(DVA)를 한 달 동안 시험 공부 끝에 합격한 사연
한 달 동안의 시험 대책에서 AWS DVA(개발상협회)가 합격했다.
나는 더 좋다고 생각한다.(올해는 올리고 싶어요.)
나는 채택한 시간이 비교적 길다고 생각한다.
지난번에 SAA를 취득할 수 있어서 약간 만족스러운...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.
base
dep
현재 상황을 계산합니다. 깊이가 40X보다 큰 구간의 백분율을 계산합니다. print (ppois(40,lambda=dep,lower=FALSE))
2) SOAPdenovo 소프트웨어를 다운로드하여 설치하고 - K 파라미터를 35로 설정하여 이 데이터를 de novo로 조립하고 조립 결과 서열의 길이에서 짧은 길이의 누적 곡선도를 그립니다.
설치: cd SOAPdenovo2-master make
조립:/export/home/stu24/SOAPdenovo2-master/SOAPdenovo-63mer all -K 35 -D 1 -s soap.contig.txt -o ant >log 2>err
my $fa = shift @ARGV;
my (%hash,$id);
open IN ,"< $fa" or die "$!
";
while(){
chomp;
if (/^>(\S+)/){
$id = $1;
$hash{$id} = "";
}
else{
$hash{$id} .= $_;
}
}
close IN;
foreach my $k (sort {length $hash{$b} <=> length $hash{$a}} keys %hash){
my $len = length $hash{$k};
print "$k\t$len
";
}
pdf("Cumulative.pdf")
contig_length
3) 조립 결과의 N50을 계산한다.my $fa = shift @ARGV;
my (%hash,$id,$total,$tmp);
open IN ,"< $fa" or die "$!
";
while(){
chomp;
if (/^>(\S+)/){
$id = $1;
$hash{$id} = "";
}
else{
$total += length $_;
$hash{$id} += length $_;
}
}
close IN;
foreach my $k (sort {$hash{$b} <=> $hash{$a}} keys %hash){
$tmp += $hash{$k};
print "$k\t$len
";
if ($tmp>=$total/2){
print "$hash{$k}\t$tmp\t$total
";
exit;
};
}
2. 시험 참고 디렉터리에 있는 파일 데이터/chr17.vcf.gz, 중 모 trio 가계의 17호 염색체의 변이 집합이고 참고 서열은 hg38이다.1) 스크립트를 작성하거나 적절한 도구를 선택하여 vcf에서 변이 비트의Qual값 분포 상황을 통계하고 그림을 그립니다.less -S chr17.vcf |grep -v "^##" |awk '{print $1"\t"$2"\t"$3"\t"$4"\t"$5"\t"$6}' >snp.qual.xls
pdf("qual.pdf")
snp
2) 적합한 도구나 방법을 선택하여 이 가계가 TP53 유전자에서 변이 상황을 추출하여 출력하고 변이 위치의 수와 각 샘플의 상황(순합, 잡합 위치의 수)을 설명한다.awk '$2>7668402 && $2 <7687550' chr17.vcf >TP53.vcf
my $in = shift @ARGV;
open IN,"$in" or die;
print "genotype\t27DMBDM4YT\t7XKZJA3JWX\tAPRDKV0LDS
";
my @sample=("27DMBDM4YT","7XKZJA3JWX","APRDKV0LDS");
my %h;
while(){
chomp;
my @l = split(/\t/);
my $num =0;
foreach my $k (@l[9..11]){
$k=~/\b(\d)\/(\d)/ or die"$k
";
if ($1==$2){
$h{$sample[$num]}{"hom"}++;
}
else{
$h{$sample[$num]}{"het"}++;
}
$num++;
}
}
close IN;
print "hom\t";
foreach my $k (@sample){
print "$h{$k}{'hom'}\t";
}
print "
het\t";
foreach my $k (@sample){
print "$h{$k}{'het'}\t";
}
print "
";
퀴즈 요구 사항: 퀴즈 디렉터리에 'exam' 이라는 디렉터리를 새로 만들고 그 안에 '1 SOAPdenovo', '2 Trio' 두 개의 하위 디렉터리를 만들어서 이 문제의 해답을 순서대로 하위 디렉터리에 저장하십시오.필요한 소프트웨어: SOAPdenovo, Jellyfish, VCF 조작 도구, R 등은 스스로 설치하세요.문제 풀이 사고방식과 정보 조회, 참고 시퀀스, 소프트웨어 다운로드 주소 등 스크립트가 아닌 절차를 Result에서 실행하십시오.txt 파일에서 설명, 실행 가능한 명령은 01work.sh、02_work.sh에서 다른 프로그램, 스크립트, 출력 파일 등은 필요에 따라 명명됩니다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
AWS 인증 개발업체인 아소시에트(DVA)를 한 달 동안 시험 공부 끝에 합격한 사연
한 달 동안의 시험 대책에서 AWS DVA(개발상협회)가 합격했다.
나는 더 좋다고 생각한다.(올해는 올리고 싶어요.)
나는 채택한 시간이 비교적 길다고 생각한다.
지난번에 SAA를 취득할 수 있어서 약간 만족스러운...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.
print (ppois(40,lambda=dep,lower=FALSE))
/export/home/stu24/SOAPdenovo2-master/SOAPdenovo-63mer all -K 35 -D 1 -s soap.contig.txt -o ant >log 2>err
my $fa = shift @ARGV;
my (%hash,$id);
open IN ,"< $fa" or die "$!
";
while(){
chomp;
if (/^>(\S+)/){
$id = $1;
$hash{$id} = "";
}
else{
$hash{$id} .= $_;
}
}
close IN;
foreach my $k (sort {length $hash{$b} <=> length $hash{$a}} keys %hash){
my $len = length $hash{$k};
print "$k\t$len
";
}
pdf("Cumulative.pdf")
contig_length
my $fa = shift @ARGV;
my (%hash,$id,$total,$tmp);
open IN ,"< $fa" or die "$!
";
while(){
chomp;
if (/^>(\S+)/){
$id = $1;
$hash{$id} = "";
}
else{
$total += length $_;
$hash{$id} += length $_;
}
}
close IN;
foreach my $k (sort {$hash{$b} <=> $hash{$a}} keys %hash){
$tmp += $hash{$k};
print "$k\t$len
";
if ($tmp>=$total/2){
print "$hash{$k}\t$tmp\t$total
";
exit;
};
}
less -S chr17.vcf |grep -v "^##" |awk '{print $1"\t"$2"\t"$3"\t"$4"\t"$5"\t"$6}' >snp.qual.xls
pdf("qual.pdf")
snp
awk '$2>7668402 && $2 <7687550' chr17.vcf >TP53.vcf
my $in = shift @ARGV;
open IN,"$in" or die;
print "genotype\t27DMBDM4YT\t7XKZJA3JWX\tAPRDKV0LDS
";
my @sample=("27DMBDM4YT","7XKZJA3JWX","APRDKV0LDS");
my %h;
while(){
chomp;
my @l = split(/\t/);
my $num =0;
foreach my $k (@l[9..11]){
$k=~/\b(\d)\/(\d)/ or die"$k
";
if ($1==$2){
$h{$sample[$num]}{"hom"}++;
}
else{
$h{$sample[$num]}{"het"}++;
}
$num++;
}
}
close IN;
print "hom\t";
foreach my $k (@sample){
print "$h{$k}{'hom'}\t";
}
print "
het\t";
foreach my $k (@sample){
print "$h{$k}{'het'}\t";
}
print "
";
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
AWS 인증 개발업체인 아소시에트(DVA)를 한 달 동안 시험 공부 끝에 합격한 사연한 달 동안의 시험 대책에서 AWS DVA(개발상협회)가 합격했다. 나는 더 좋다고 생각한다.(올해는 올리고 싶어요.) 나는 채택한 시간이 비교적 길다고 생각한다. 지난번에 SAA를 취득할 수 있어서 약간 만족스러운...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.