md5 파일 완전도 검사의 중요성을 다시 한 번 설명합니다

최근 서버가 정전되어 몇 주 전에 제출한 프로젝트에서 몇 가지 샘플이 실패했습니다.

P5_DCIS 
P2_Norm 
P4_DCIS 
P2_DCIS
P9_DCIS 
P10_Norm
P9_Norm

그래서 클린 데이터를 검사하러 갔어요.

gunzip -t P10_Norm_Exome_1_val_1.fq.gz
gunzip -t P10_Norm_Exome_2_val_2.fq.gz
gunzip -t P2_DCIS_Exome_1_val_1.fq.gz
gunzip -t P2_DCIS_Exome_2_val_2.fq.gz
gunzip -t P2_Norm_Exome_1_val_1.fq.gz
gunzip -t P2_Norm_Exome_2_val_2.fq.gz
gunzip -t P4_DCIS_Exome_1_val_1.fq.gz
gunzip -t P4_DCIS_Exome_2_val_2.fq.gz
gunzip -t P5_DCIS_Exome_1_val_1.fq.gz
gunzip -t P5_DCIS_Exome_2_val_2.fq.gz
gunzip -t P9_DCIS_Exome_1_val_1.fq.gz
gunzip -t P9_DCIS_Exome_2_val_2.fq.gz
gunzip -t P9_Norm_Exome_1_val_1.fq.gz
gunzip -t P9_Norm_Exome_2_val_2.fq.gz

clean 데이터에 문제가 있음을 발견했습니다. 다음과 같습니다.

gzip: P10_Norm_Exome_2_val_2.fq.gz: invalid compressed data--format violated
gzip: P1_DCIS_Exome_1_val_1.fq.gz: invalid compressed data--format violated
gzip: P2_DCIS_Exome_2_val_2.fq.gz: invalid compressed data--format violated
gzip: P2_Norm_Exome_1_val_1.fq.gz: invalid compressed data--format violated

그러면 두 가지 가능성이 있습니다. 첫째, Trim Galore 실행 실패, 둘째, raw 데이터에 문제가 있습니다.
로그 로그를 먼저 검사한 결과 6개의 샘플이 Trim Galore에서 실행되지 않았고 마지막 P9_Norm은 raw 데이터에 문제가 있습니다.
그럼 P9에게 _Norm은 raw 데이터로 Trim Galore를 다시 실행하며 다음과 같은 오류를 보고합니다.

This is cutadapt 1.18 with Python 2.7.16
Command line parameters: -f fastq -e 0.1 -q 25 -O 3 -a AGATCGGAAGAGC /home/yb77613/data/public/IDC-DCIS/raw_fq/P9_Norm_Exome_1.fastq.gz
Processing reads on 1 core in single-end mode ...
cutadapt: error: At line 3: Sequence descriptions in the FASTQ file don't match ('SRR6269872.30075503 30075503 68 length=76' != 'SRR6269872.30075468 30075468 length=76').
The second sequence description must be either empty or equal to the first description.

Cutadapt terminated with exit signal: '256'.
Terminating Trim Galore run, please check error message(s) to get an idea what went wrong...

그리고 검사했습니다.

$zcat P9_Norm_Exome_1.fastq.gz |grep SRR6269872.30075503
@SRR6269872.30075503 30075503 68 length=76
@SRR6269872.30075503 30075503 68 length=76

gzip: P9_Norm_Exome_1.fastq.gz: invalid compressed data--format violated

왜 두 개의 똑같은reads가 이 fq 파일에 나타나는지 이해할 수 없습니다.
검사 원본 md5 값은: MD5(P9_Norm_Exome_1.fastq.gz) = d8bfa6d7fb25fc5b51601fefd635e033 검사 복사본의 md5 값은: 95c956d83fc51ae467922c228e8c6df1 P9_Norm_Exome_1.fastq.gz
그래서 카피가 확실할 때 문제가 생겼어요.
참고로 오른쪽 측정 데이터를 검토했습니다.

$md5sum  P9_Norm_Exome_2.fastq.gz
426bcc6ccb1168c69624170443d23e29  P9_Norm_Exome_2.fastq.gz

(qc) jianmingzengs-iMac:IDC jmzeng$ md5 P9_Norm_Exome_2.fastq.gz 
MD5 (P9_Norm_Exome_2.fastq.gz) = 426bcc6ccb1168c69624170443d23e29

그래, 그러니까 그 카피 실수한 데이터를 다시 올리면 돼.
그러나 사실 나는 왜 gz 형식의 fq 파일 복사에 의외의 일이 발생했는지 모르겠다.한 개의 reads가 두 번 나옵니까?

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

다양한 언어의 JSON

JSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

md5 파일 완전도 검사의 중요성을 다시 한 번 설명합니다

좋은 웹페이지 즐겨찾기