Bash on Ubuntu on Windows에서 Single-cell RNA sequence 해석 ③ NGS 데이터 트리밍
※기사를 읽어 주시는 여러분께
・대상은 프로그래밍도 바이오 인포 해석도 전혀 미경험의 바이오 연구자입니다
・필자는 기초 연구를 처음으로 약 1년 3개월의 대학원생입니다
· 이른바 "DRY"인 연구를 시작한 것은 약 5 개월 전부터입니다.
・그 때문에 기사의 내용에는 터무니없는 실수나 훨씬 좋은 다른 방법이 존재할지도 모릅니다
・또, 필자와 같은 레벨의 사람이 0부터 시작할 때의 참고가 되도록, 설명은 상당히 아직 멋집니다
・지적할 때마다 기사를 브러쉬 업 해 가고 싶습니다, 잘 부탁드립니다
과거 기사 목록
①환경 구축까지
②NGS 데이터 다운로드 및 품질 체크
③NGS 데이터 트리밍
④Pipeline (hisat2, samtools, stringtie)
⑤번외편:코드의 브러쉬 업
⑥R에 의한 발현 해석
마지막 단계부터: trimmomatic 설치, 실행: 단일 종단의 경우
시퀀스 데이터의 퀄리티 체크가 끝나면, 다음에 저품질의 리드나 어댑터 배열이라고 생각해 배열을 제거, 트리밍 하지 않으면 안됩니다. 이러한 처리 툴 중에서도 꽤 고성능인 것이, 이번 설치하는 trimmomatic입니다.
conda install trimmomatic
그럼 조금 자르자. 우선은 상위 사이트 의 퀵 스타트대로 코피페. 먼저 필자의 실험 데이터(싱글 엔드 리드)를 사용해 보았습니다. 페어 엔드 쪽은 그 정도.
java -jar trimmomatic-0.35.jar SE -phred33 1_TAAGGCGA-G.fastq.gz(←自分のインプットファイル) 1_TAAGGCGA-G_trimmed.fastq.gz(←ここはアウトプットしたいファイル名) ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
그러면
Error: Unable to access jarfile trimmomatic-0.35.jar
그리고 화난다. 어디를 고쳐 나가면 좋을까.
trimmomatic.jar 파일의 위치 찾기
이전 기사에서 java 문제는 해결되었기 때문에 아마 .jar 파일을 찾을 수 없고 -jar를 실행할 수없는 것이 문제라고 예상. ~/miniconda2/bin 속을 잡아 본다.
ls -Fl
그러면
trimmomatic -> ../share/trimmomatic-0.36-3/trimmomatic*
되는 기술을 발견. 이번에는 ~/miniconda2/share/trimmomatic-0.36-3을 마찬가지로 낚시하면,
trimmomatic.jar
발견! 첫 번째 코드의 trimmomatic-0.35.jar 부분
java -jar ~/miniconda2/share/trimmomatic-0.36-3/trimmomatic.jar SE -phred33 1_TAAGGCGA-G.fastq.gz(←自分のインプットファイル) 1_TAAGGCGA-G_trimmed.fastq.gz(←ここはアウトプットしたいファイル名) ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
라고 다시 쓴다. 그러자 이번에는 TruSeq3-SE는 파일이 없습니다,라고 말해져 버렸다. 분명히 해당 어댑터 배열 목록이 필요합니다.
어댑터 배열 다운로드
매뉴얼 를 조사해 보면, 실험마다 사용한 Prep kit가 중요해, 그에 응한 어댑터 배열의 파일이 필요하다는 것. 자신이 사용한 Prep kit가 Nextra 이었기 때문에, 매뉴얼을 참고로 「NexteraPE-PE.fa」로 Google 검색.
그러자 Github 링크 에 따라갔다.
여기에서 원시 버튼을 클릭하면
이런 느낌의 페이지가 되기 때문에 메모장에 copipe, 각 행의 뒤에서 Enter 눌러지고 있는 것을 확인해 (.fa 파일에서는 이것이 중요하다. 특히 마지막 행을 잊어 경향이 있다) NexteraPE-PE.fa라고 명명 작업 디렉토리에 저장.
최종형
java -jar ~/miniconda2/share/trimmomatic-0.36-3/trimmomatic.jar SE 1_TAAGGCGA-G.fastq.gz 1_TAAGGCGA-G_trimmed.fastq.gz ILLUMINACLIP:NexteraPE-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
이렇게 되었다. 이것을 복사하면 특히 오류없이 처리가 시작됩니다.
Input Reads: 1321477 Surviving: 1301306 (98.47%) Dropped: 20171 (1.53%)
이런 방식으로 최종 보고서에서 살아남은 리드의 비율과 제거된 리드의 비율이 출력됩니다.
쌍 끝의 경우
페어엔드의 경우는 다음과 같은 코드가 됩니다.
java -jar ~/miniconda2/share/trimmomatic-0.36-3/trimmomatic.jar PE -phred33 ERR188044_chrX_1.fastq.gz ERR188044_chrX_2.fastq.gz ERR188044_chrX_1_paired.fq.gz ERR188044_chrX_1_unpaired.fq.gz ERR188044_chrX_2_paired.fq.gz ERR188044_chrX_2_unpaired.fq.gz ILLUMINACLIP:NexteraPE-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
옵션이 SE→PE가 되어, 인풋 파일이 Forward와 Reverse에 대응하는 2개, 아웃풋의 파일이 paired나 unpaired로 나누어 합계 4개 완성합니다. 이후의 분석은 paired의 파일을 사용해 갑시다.
이런 상황에서 특히 원래 시퀀스의 품질이 낮은 데이터는 트리밍을 한 다음 매핑으로 진행합시다.
다음 번부터 에서 마침내 HISAT2를 사용한 매핑 이야기로 진행합니다.
Reference
이 문제에 관하여(Bash on Ubuntu on Windows에서 Single-cell RNA sequence 해석 ③ NGS 데이터 트리밍), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/rouninnomi/items/9244e54785ab58b0f114
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
시퀀스 데이터의 퀄리티 체크가 끝나면, 다음에 저품질의 리드나 어댑터 배열이라고 생각해 배열을 제거, 트리밍 하지 않으면 안됩니다. 이러한 처리 툴 중에서도 꽤 고성능인 것이, 이번 설치하는 trimmomatic입니다.
conda install trimmomatic
그럼 조금 자르자. 우선은 상위 사이트 의 퀵 스타트대로 코피페. 먼저 필자의 실험 데이터(싱글 엔드 리드)를 사용해 보았습니다. 페어 엔드 쪽은 그 정도.
java -jar trimmomatic-0.35.jar SE -phred33 1_TAAGGCGA-G.fastq.gz(←自分のインプットファイル) 1_TAAGGCGA-G_trimmed.fastq.gz(←ここはアウトプットしたいファイル名) ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
그러면
Error: Unable to access jarfile trimmomatic-0.35.jar
그리고 화난다. 어디를 고쳐 나가면 좋을까.
trimmomatic.jar 파일의 위치 찾기
이전 기사에서 java 문제는 해결되었기 때문에 아마 .jar 파일을 찾을 수 없고 -jar를 실행할 수없는 것이 문제라고 예상. ~/miniconda2/bin 속을 잡아 본다.
ls -Fl
그러면
trimmomatic -> ../share/trimmomatic-0.36-3/trimmomatic*
되는 기술을 발견. 이번에는 ~/miniconda2/share/trimmomatic-0.36-3을 마찬가지로 낚시하면,
trimmomatic.jar
발견! 첫 번째 코드의 trimmomatic-0.35.jar 부분
java -jar ~/miniconda2/share/trimmomatic-0.36-3/trimmomatic.jar SE -phred33 1_TAAGGCGA-G.fastq.gz(←自分のインプットファイル) 1_TAAGGCGA-G_trimmed.fastq.gz(←ここはアウトプットしたいファイル名) ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
라고 다시 쓴다. 그러자 이번에는 TruSeq3-SE는 파일이 없습니다,라고 말해져 버렸다. 분명히 해당 어댑터 배열 목록이 필요합니다.
어댑터 배열 다운로드
매뉴얼 를 조사해 보면, 실험마다 사용한 Prep kit가 중요해, 그에 응한 어댑터 배열의 파일이 필요하다는 것. 자신이 사용한 Prep kit가 Nextra 이었기 때문에, 매뉴얼을 참고로 「NexteraPE-PE.fa」로 Google 검색.
그러자 Github 링크 에 따라갔다.
여기에서 원시 버튼을 클릭하면
이런 느낌의 페이지가 되기 때문에 메모장에 copipe, 각 행의 뒤에서 Enter 눌러지고 있는 것을 확인해 (.fa 파일에서는 이것이 중요하다. 특히 마지막 행을 잊어 경향이 있다) NexteraPE-PE.fa라고 명명 작업 디렉토리에 저장.
최종형
java -jar ~/miniconda2/share/trimmomatic-0.36-3/trimmomatic.jar SE 1_TAAGGCGA-G.fastq.gz 1_TAAGGCGA-G_trimmed.fastq.gz ILLUMINACLIP:NexteraPE-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
이렇게 되었다. 이것을 복사하면 특히 오류없이 처리가 시작됩니다.
Input Reads: 1321477 Surviving: 1301306 (98.47%) Dropped: 20171 (1.53%)
이런 방식으로 최종 보고서에서 살아남은 리드의 비율과 제거된 리드의 비율이 출력됩니다.
쌍 끝의 경우
페어엔드의 경우는 다음과 같은 코드가 됩니다.
java -jar ~/miniconda2/share/trimmomatic-0.36-3/trimmomatic.jar PE -phred33 ERR188044_chrX_1.fastq.gz ERR188044_chrX_2.fastq.gz ERR188044_chrX_1_paired.fq.gz ERR188044_chrX_1_unpaired.fq.gz ERR188044_chrX_2_paired.fq.gz ERR188044_chrX_2_unpaired.fq.gz ILLUMINACLIP:NexteraPE-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
옵션이 SE→PE가 되어, 인풋 파일이 Forward와 Reverse에 대응하는 2개, 아웃풋의 파일이 paired나 unpaired로 나누어 합계 4개 완성합니다. 이후의 분석은 paired의 파일을 사용해 갑시다.
이런 상황에서 특히 원래 시퀀스의 품질이 낮은 데이터는 트리밍을 한 다음 매핑으로 진행합시다.
다음 번부터 에서 마침내 HISAT2를 사용한 매핑 이야기로 진행합니다.
Reference
이 문제에 관하여(Bash on Ubuntu on Windows에서 Single-cell RNA sequence 해석 ③ NGS 데이터 트리밍), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/rouninnomi/items/9244e54785ab58b0f114
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
ls -Fl
java -jar ~/miniconda2/share/trimmomatic-0.36-3/trimmomatic.jar SE -phred33 1_TAAGGCGA-G.fastq.gz(←自分のインプットファイル) 1_TAAGGCGA-G_trimmed.fastq.gz(←ここはアウトプットしたいファイル名) ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
매뉴얼 를 조사해 보면, 실험마다 사용한 Prep kit가 중요해, 그에 응한 어댑터 배열의 파일이 필요하다는 것. 자신이 사용한 Prep kit가 Nextra 이었기 때문에, 매뉴얼을 참고로 「NexteraPE-PE.fa」로 Google 검색.
그러자 Github 링크 에 따라갔다.
여기에서 원시 버튼을 클릭하면
이런 느낌의 페이지가 되기 때문에 메모장에 copipe, 각 행의 뒤에서 Enter 눌러지고 있는 것을 확인해 (.fa 파일에서는 이것이 중요하다. 특히 마지막 행을 잊어 경향이 있다) NexteraPE-PE.fa라고 명명 작업 디렉토리에 저장.
최종형
java -jar ~/miniconda2/share/trimmomatic-0.36-3/trimmomatic.jar SE 1_TAAGGCGA-G.fastq.gz 1_TAAGGCGA-G_trimmed.fastq.gz ILLUMINACLIP:NexteraPE-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
이렇게 되었다. 이것을 복사하면 특히 오류없이 처리가 시작됩니다.
Input Reads: 1321477 Surviving: 1301306 (98.47%) Dropped: 20171 (1.53%)
이런 방식으로 최종 보고서에서 살아남은 리드의 비율과 제거된 리드의 비율이 출력됩니다.
쌍 끝의 경우
페어엔드의 경우는 다음과 같은 코드가 됩니다.
java -jar ~/miniconda2/share/trimmomatic-0.36-3/trimmomatic.jar PE -phred33 ERR188044_chrX_1.fastq.gz ERR188044_chrX_2.fastq.gz ERR188044_chrX_1_paired.fq.gz ERR188044_chrX_1_unpaired.fq.gz ERR188044_chrX_2_paired.fq.gz ERR188044_chrX_2_unpaired.fq.gz ILLUMINACLIP:NexteraPE-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
옵션이 SE→PE가 되어, 인풋 파일이 Forward와 Reverse에 대응하는 2개, 아웃풋의 파일이 paired나 unpaired로 나누어 합계 4개 완성합니다. 이후의 분석은 paired의 파일을 사용해 갑시다.
이런 상황에서 특히 원래 시퀀스의 품질이 낮은 데이터는 트리밍을 한 다음 매핑으로 진행합시다.
다음 번부터 에서 마침내 HISAT2를 사용한 매핑 이야기로 진행합니다.
Reference
이 문제에 관하여(Bash on Ubuntu on Windows에서 Single-cell RNA sequence 해석 ③ NGS 데이터 트리밍), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/rouninnomi/items/9244e54785ab58b0f114
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
java -jar ~/miniconda2/share/trimmomatic-0.36-3/trimmomatic.jar SE 1_TAAGGCGA-G.fastq.gz 1_TAAGGCGA-G_trimmed.fastq.gz ILLUMINACLIP:NexteraPE-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
페어엔드의 경우는 다음과 같은 코드가 됩니다.
java -jar ~/miniconda2/share/trimmomatic-0.36-3/trimmomatic.jar PE -phred33 ERR188044_chrX_1.fastq.gz ERR188044_chrX_2.fastq.gz ERR188044_chrX_1_paired.fq.gz ERR188044_chrX_1_unpaired.fq.gz ERR188044_chrX_2_paired.fq.gz ERR188044_chrX_2_unpaired.fq.gz ILLUMINACLIP:NexteraPE-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
옵션이 SE→PE가 되어, 인풋 파일이 Forward와 Reverse에 대응하는 2개, 아웃풋의 파일이 paired나 unpaired로 나누어 합계 4개 완성합니다. 이후의 분석은 paired의 파일을 사용해 갑시다.
이런 상황에서 특히 원래 시퀀스의 품질이 낮은 데이터는 트리밍을 한 다음 매핑으로 진행합시다.
다음 번부터 에서 마침내 HISAT2를 사용한 매핑 이야기로 진행합니다.
Reference
이 문제에 관하여(Bash on Ubuntu on Windows에서 Single-cell RNA sequence 해석 ③ NGS 데이터 트리밍), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/rouninnomi/items/9244e54785ab58b0f114텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)