How Most People Use Bioinformatics
- Medline
생명과학 및 생물의학 정보의 문헌 데이터 베이스 ex) PebMed
- Clustal
Multiple-Sequence-Alignment(MSA)를 하게 해주는 툴 ex) Clustal Omega
- PubMed
논문 서칭할 때 이용. 키워드를 넣어서 검색하면 된다. 필터와 쿼리문을 적절하게
사용한다면 원하는 정보가 포함된 논문을 빠르게 찾을 수 있다.
예를 들어 제목에 CRISPR를 포함하며 저자가 Jennifer Anne Doudna이고
2017년도 이후에 쓰여진 논문들을 최신순으로 보고 싶다면
- 검색창에 다음과 같이 검색해서 찾을 수 있을 것이다.
CRISPR[ti] AND Doudna[au]
- 필터를 조정하고 정렬 기준을 목적에 맞게 설정한다.
- Swiss-Prot
기능이 알려진 단백질들의 database 이다.
기능이 알려진 단백질들에 한해서 다양한 정보들을 제공받을 수 있다.
- Link: Swiss-Prot
- All these sequences can be found in GenBank!
- BLAST
Database에 있는 seq와 query seq 를 비교하여 어떤 종의 어떤 seq와
얼마나 유사한지 찾을 수 있다.
- Alignment를 통해서 정보를 찾아주는 Tool 이다.
- NCBI에서는 DNA, Protein ExPasy에서는 Protein
- BLAST의 종류는 4가지가 있다.
- MSAs
BLAST처럼 query seq를 database에 있는 seq들과 비교하는 것이 아닌
여러 query seq를 입력받고, 입력받은 seq들 간에 비교(alignment)해주는 툴
- 다음과 같은 웹사이트들에서 MSA를 할 수 있음.
- 빨간색 박스로 쳐진 conserved region은 각 단백질들에서 동일한 기능을 갖는
domain 이라고 예상할 수 있다.
- 다음 Sequence에 대해 분석해보자.
CAGAGAAAATCAAAAAGCAGGCCACGCAGGGTGATGAATTAACAATAAAAATGGTTAAAAACCCCGATAT
CGTCGCAGGCGTTGCCGCACTAAAAGACCATCGACCCTACGTCGTTGGATTTGCCGCCGAAACAAATAAT
GTGGAAGAATACGCCCGGCAAAAACGTATCCGTAAAAACCTTGATCTGATCTGCGCGAACGATGTTTCCC
AGCCAACTCAAGGATTTAACAGCGACAACAACGCATTACACCTTTTCTGGCAGGACGGAGATAAAGTCTT
ACCGCTTGAGCGCAAAGAGCTCCTTGGCCAATTATTACTCGACGAGATCGTGACCCGTTATGATGAAAAA
AATCGACGTTAAGATTCTGGACCCGCGCGTTGGGAAGGAATTTCCGCTCCCGACTTATGCCACCTCTGGC
TCTGCCGGACTTGACCTGCGTGCCTGTCTCAACGACGCCGTAGAACTGGCTCCGGGTGACACTACGCTGG
TTCCGACCGGGCTGGCGATTCATATTGCCGATCCTTCACTGGCGGCAATGATGCTGCCGCGCTCCGGATT
GGGACATAAGCACGGTATCGTGCTTGGTAACCTGGTAGGATTGATCGATTCTGACTATCAGGGCCAGTTG
ATGATTTCCGTGTGGAACCGTGGTCAGGACAGCTTCACCATTCAACCTGGCGAACGCATCGCCCAGATGA
TTTTTGTTCCGGTAGTACAGGCTGAATTTAATCTGGTGGAAGATTTCGACGCCACCGACCGCGGTGAAGG
CGGCTTTGGTCACTCTGGTCGTCAGTAACACATACGCATCCGAATAACGTCATAACATAGCCGCAAACAT
TTCGTTTGCGGTCATAGCGTGGGTGCCGCCTGGCAAGTGCTTATTTTCAGGGGTATTTTGTAACATGGCA
GAAAAACAAACTGCGAAAAGGAACCGTCGCGAGGAAATACTTCAGTCTCTGGCGCTGATGCTGGAATCCA
GCGATGGAAGCCAACGTATCACGACGGCAAAACTGGCCGCCTCTGTCGGCGTTTCCGAAGCGGCACTGTA
TCGCCACTTCCCCAGTAAGACCCGCATGTTCGATAGCCTGATTGAGTTTATCGAAGATAGCCTGATTACT
CGCATCAACCTGATTCTGAAAGATGAGAAAGACACCACAGCGCGCCTGCGTCTGATTGTGTTGCTGCTTC
TCGGTTTTGGTGAGCGTAATCCTGGCCTGACCCGCATCCTCACTGGTCATGCGCTAATGTTTGAACAGGA
TCGCCTGCAAGGGCGCATCAACCAGCTGTTCGAGCGTATTGAAGCGCAGCTGCGCCAGGTATTGCGTGAA
AAGAGAATGCGTGAGGGTGAAGGTTACACCACCGATGAAACCCTGCTGGCAAGCCAGATCCTGGCCTTCT
GTGAAGGTATGCTGTCACGTTTTGTCCGCAGCGAATTTAAATACCGCCCGACGGATGATTTTGACGCCCG
CTGGCCGCTAATTGCGGCCAGTTGCAGTAATATGACGCCGGATGACTTTTCATCCGGCGAGTTTCTTTAA
ACGCCAAACTCTTCGCGATAGGCCTTAACCGCCGCCAGATGTTCCGCCATTTCCGGCTTCTCTTCCAGG
1. BLAST(nucleotide BLAST)에 이 seq를 query seq로 넣어 어떤 생물들이
주로 이 seq를 가지고 있는지 알아보자.
Ctrl + C, V
로 seq를 입력한다.
- Choose Search Set
Database
: query seq와 대조하고 싶은 database를 선택
(보통Nucleotide collection (nr/nt)
를 사용)Organism
: 특정 생물에만 alignment를 해보고 싶다면 입력
(Dafault 값은 빈칸: 모든 생물체와 비교)Optimize for
: 유사도 설정
(주로 처음에는megablast
로 해보고 결과가 없다면 낮춰서 진행)
- BLAST 클릭
- 결과
- 이 seq는 주로 E.coli가 갖고 있으며, dUTPase와 관련이 있어 보인다.
Score
를 기준으로 내림차순 정렬되서 나오는 것을 볼 수 있음.E value
,query cover
,Percent identity
를 유의하여 확인Graphic Summary
,Alignments
등을 클릭시 더 디테일하게 확인가능
2. Genebank에서 해당 seq가 담고 있는 유전자 정보와 해당 protein seq를 알아보자.
- BLAST 결과로 나온 특정 seq를 클릭해 GenBank로 접속 (
Alignments
>GenBank
)
- 관심있는 Product의
CDS
를 클릭하고FASTA
를 클릭
- FASTA format의 DNA seq를 얻을 수 있다.
MK439895.1:343-798 Escherichia coli strain K-12 dUTPase and nucleoid occlusion factor SlmA genes, complete cds ATGAAAAAAATCGACGTTAAGATTCTGGACCCGCGCGTTGGGAAGGAATTTCCGCTCCCGACTTATGCCA CCTCTGGCTCTGCCGGACTTGACCTGCGTGCCTGTCTCAACGACGCCGTAGAACTGGCTCCGGGTGACAC TACGCTGGTTCCGACCGGGCTGGCGATTCATATTGCCGATCCTTCACTGGCGGCAATGATGCTGCCGCGC TCCGGATTGGGACATAAGCACGGTATCGTGCTTGGTAACCTGGTAGGATTGATCGATTCTGACTATCAGG GCCAGTTGATGATTTCCGTGTGGAACCGTGGTCAGGACAGCTTCACCATTCAACCTGGCGAACGCATCGC CCAGATGATTTTTGTTCCGGTAGTACAGGCTGAATTTAATCTGGTGGAAGATTTCGACGCCACCGACCGC GGTGAAGGCGGCTTTGGTCACTCTGGTCGTCAGTAA
3. Swiss Prot에서 E.coli
의 dUTPase
에 대해 알아보자.
- Expasy의 Swiss-Prot 웹에 접속해
Browse the resource website
를 클릭
1. https://www.expasy.org/resources/uniprotkb-swiss-prot
2. Click "Browse the resource website"
- 다음과 같은 결과를 얻을 수 있음.
- dUTPase에 해당하는
Entry
-P06968
을 클릭하면 이 단백질에 대한 다양한 정보를
얻을 수 있다. (유전자 이름, 단백질 이름, 기능, Cofactor, 단백질 seq, 단백질 구조 등)
- 특히 Structure는
PDB
로 다운받아서PDB viewer
로 로컬에서 볼 수도 있다.
4. 이 단백질의 최초 연구자는 누구이며 이 단백질을 이용한 최근 연구는 어떻게 되고 있는지 알아보자.
- PubMed에 접속해
dutpase
검색후Sorted by: Most recently
로 설정
- 최하단에 있는 논문이
dutpase
에 관한 최초논문, 최상단이 최신 논문
5. 여러 생명체들이 가지고 있는 dUTPase
가 서로 얼마나 다른지 알아보자.
- UniProt의
resource website
에서dUTPase
를 검색 후
- 원하는 organisms별로
dUTPase
seq를FASTA
형식으로Ctrl + C, V
<<FASTA format data>> <Escherichia coli (strain K12)> sp|P06968|DUT_ECOLI Deoxyuridine 5'-triphosphate nucleotidohydrolase OS=Escherichia coli (strain K12) OX=83333 GN=dut PE=1 SV=2 MMKKIDVKILDPRVGKEFPLPTYATSGSAGLDLRACLNDAVELAPGDTTLVPTGLAIHIA DPSLAAMMLPRSGLGHKHGIVLGNLVGLIDSDYQGQLMISVWNRGQDSFTIQPGERIAQM IFVPVVQAEFNLVEDFDATDRGEGGFGHSGRQ <Mus musculus (Mouse)> sp|Q9CQ43|DUT_MOUSE Deoxyuridine 5'-triphosphate nucleotidohydrolase OS=Mus musculus OX=10090 GN=Dut PE=1 SV=1 MPCSEDAAAVSASKRARAEDGASLRFVRLSEHATAPTRGSARAAGYDLFSAYDYTISPME KAIVKTDIQIAVPSGCYGRVAPRSGLAVKHFIDVGAGVIDEDYRGNVGVVLFNFGKEKFE VKKGDRIAQLICERISYPDLEEVQTLDDTERGSGGFGSTGKN <Arabidopsis thaliana (Mouse-ear cress)> sp|Q9STG6|DUT_ARATH Deoxyuridine 5'-triphosphate nucleotidohydrolase OS=Arabidopsis thaliana OX=3702 GN=DUT PE=1 SV=1 MACVNEPSPKLQKLDRNGIHGDSSPSPFFKVKKLSEKAVIPTRGSPLSAGYDLSSAVDSK VPARGKALIPTDLSIAVPEGTYARIAPRSGLAWKHSIDVGAGVIDADYRGPVGVILFNHS DADFEVKFGDRIAQLIIEKIVTPDVVEVDDLDETVRGDGGFGSTGV <Homo sapiens (Human)> sp|P33316|DUT_HUMAN Deoxyuridine 5'-triphosphate nucleotidohydrolase, mitochondrial OS=Homo sapiens OX=9606 GN=DUT PE=1 SV=4 MTPLCPRPALCYHFLTSLLRSAMQNARGARQRAEAAVLSGPGPPLGRAAQHGIPRPLSSA GRLSQGCRGASTVGAAGWKGELPKAGGSPAPGPETPAISPSKRARPAEVGGMQLRFARLS EHATAPTRGSARAAGYDLYSAYDYTIPPMEKAVVKTDIQIALPSGCYGRVAPRSGLAAKH FIDVGAGVIDEDYRGNVGVVLFNFGKEKFEVKKGDRIAQLICERIFYPEIEEVQALDDTE RGSGGFGSTGKN <Bos taurus (Bovine)> tr|A0A3Q1MT44|A0A3Q1MT44_BOVIN Deoxyuridine 5'-triphosphate nucleotidohydrolase OS=Bos taurus OX=9913 GN=DUT PE=3 SV=1 MTSLCPRPVLGHHFIPSLLRSVINSARHARPGAEAAGLSRPGPPLDPTPRGSVLLPALRL LSSGRNLSREAQVVSPSKRARATEAGDMRLRFARLSEHATAPTKGSARAAGYDLYSAYDY TVPPMEKVLVKTDIQIALPSGCYGRVAPRSGLAAKHFIDVGAGVIDEDYRGNVGVVLFNF GKEKFEVKKGDRIAQLICERIFYPEIEEVQVLDDTERGSGGFGSTGSN
3. MSA
- Clustal Omega - https://www.ebi.ac.uk/Tools/msa/clustalo/
- T-COFFEE - https://tcoffee.crg.eu/
FASTA data를 붙여넣고Submit
을 하면 다음과 같은 결과를 볼 수 있다.
Author And Source
이 문제에 관하여(How Most People Use Bioinformatics), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@krec7748/How-Most-People-Use-Bioinformatics저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)