md5 파일 완전도 검사의 중요성을 다시 한 번 설명합니다

2876 단어
최근 서버가 정전되어 몇 주 전에 제출한 프로젝트에서 몇 가지 샘플이 실패했습니다.
P5_DCIS 
P2_Norm 
P4_DCIS 
P2_DCIS
P9_DCIS 
P10_Norm
P9_Norm

그래서 클린 데이터를 검사하러 갔어요.
gunzip -t P10_Norm_Exome_1_val_1.fq.gz
gunzip -t P10_Norm_Exome_2_val_2.fq.gz
gunzip -t P2_DCIS_Exome_1_val_1.fq.gz
gunzip -t P2_DCIS_Exome_2_val_2.fq.gz
gunzip -t P2_Norm_Exome_1_val_1.fq.gz
gunzip -t P2_Norm_Exome_2_val_2.fq.gz
gunzip -t P4_DCIS_Exome_1_val_1.fq.gz
gunzip -t P4_DCIS_Exome_2_val_2.fq.gz
gunzip -t P5_DCIS_Exome_1_val_1.fq.gz
gunzip -t P5_DCIS_Exome_2_val_2.fq.gz
gunzip -t P9_DCIS_Exome_1_val_1.fq.gz
gunzip -t P9_DCIS_Exome_2_val_2.fq.gz
gunzip -t P9_Norm_Exome_1_val_1.fq.gz
gunzip -t P9_Norm_Exome_2_val_2.fq.gz

clean 데이터에 문제가 있음을 발견했습니다. 다음과 같습니다.
gzip: P10_Norm_Exome_2_val_2.fq.gz: invalid compressed data--format violated
gzip: P1_DCIS_Exome_1_val_1.fq.gz: invalid compressed data--format violated
gzip: P2_DCIS_Exome_2_val_2.fq.gz: invalid compressed data--format violated
gzip: P2_Norm_Exome_1_val_1.fq.gz: invalid compressed data--format violated

그러면 두 가지 가능성이 있습니다. 첫째, Trim Galore 실행 실패, 둘째, raw 데이터에 문제가 있습니다.
로그 로그를 먼저 검사한 결과 6개의 샘플이 Trim Galore에서 실행되지 않았고 마지막 P9_Norm은 raw 데이터에 문제가 있습니다.
그럼 P9에게 _Norm은 raw 데이터로 Trim Galore를 다시 실행하며 다음과 같은 오류를 보고합니다.
This is cutadapt 1.18 with Python 2.7.16
Command line parameters: -f fastq -e 0.1 -q 25 -O 3 -a AGATCGGAAGAGC /home/yb77613/data/public/IDC-DCIS/raw_fq/P9_Norm_Exome_1.fastq.gz
Processing reads on 1 core in single-end mode ...
cutadapt: error: At line 3: Sequence descriptions in the FASTQ file don't match ('SRR6269872.30075503 30075503 68 length=76' != 'SRR6269872.30075468 30075468 length=76').
The second sequence description must be either empty or equal to the first description.

Cutadapt terminated with exit signal: '256'.
Terminating Trim Galore run, please check error message(s) to get an idea what went wrong...


그리고 검사했습니다.
$zcat P9_Norm_Exome_1.fastq.gz |grep SRR6269872.30075503
@SRR6269872.30075503 30075503 68 length=76
@SRR6269872.30075503 30075503 68 length=76

gzip: P9_Norm_Exome_1.fastq.gz: invalid compressed data--format violated


왜 두 개의 똑같은reads가 이 fq 파일에 나타나는지 이해할 수 없습니다.
검사 원본 md5 값은: MD5(P9_Norm_Exome_1.fastq.gz) = d8bfa6d7fb25fc5b51601fefd635e033 검사 복사본의 md5 값은: 95c956d83fc51ae467922c228e8c6df1 P9_Norm_Exome_1.fastq.gz
그래서 카피가 확실할 때 문제가 생겼어요.
참고로 오른쪽 측정 데이터를 검토했습니다.
$md5sum  P9_Norm_Exome_2.fastq.gz
426bcc6ccb1168c69624170443d23e29  P9_Norm_Exome_2.fastq.gz

(qc) jianmingzengs-iMac:IDC jmzeng$ md5 P9_Norm_Exome_2.fastq.gz 
MD5 (P9_Norm_Exome_2.fastq.gz) = 426bcc6ccb1168c69624170443d23e29

그래, 그러니까 그 카피 실수한 데이터를 다시 올리면 돼.
그러나 사실 나는 왜 gz 형식의 fq 파일 복사에 의외의 일이 발생했는지 모르겠다.한 개의 reads가 두 번 나옵니까?

좋은 웹페이지 즐겨찾기