How Most People Use Bioinformatics

  • Medline
    생명과학 및 생물의학 정보의 문헌 데이터 베이스 \quad ex) PebMed

  • Clustal
    Multiple-Sequence-Alignment(MSA)를 하게 해주는 툴 \quad ex) Clustal Omega

  • PubMed
    논문 서칭할 때 이용. 키워드를 넣어서 검색하면 된다. 필터와 쿼리문을 적절하게
    사용한다면 원하는 정보가 포함된 논문을 빠르게 찾을 수 있다.

예를 들어 제목에 CRISPR를 포함하며 저자가 Jennifer Anne Doudna이고
2017년도 이후에 쓰여진 논문들을 최신순으로 보고 싶다면

  1. 검색창에 다음과 같이 검색해서 찾을 수 있을 것이다.
    CRISPR[ti] AND Doudna[au]
  1. 필터를 조정하고 정렬 기준을 목적에 맞게 설정한다.

  • Swiss-Prot
    기능이 알려진 단백질들의 database 이다.
    기능이 알려진 단백질들에 한해서 다양한 정보들을 제공받을 수 있다.

  • All these sequences can be found in GenBank!

  • BLAST
    Database에 있는 seq와 query seq 를 비교하여 어떤 종의 어떤 seq와
    얼마나 유사한지 찾을 수 있다.
    • Alignment를 통해서 정보를 찾아주는 Tool 이다.
      • NCBI에서는 DNA, Protein \qquad ExPasy에서는 Protein

  • BLAST의 종류는 4가지가 있다.

  • E value
    검색 Database가 모두 random sequence라고 가정했을때,
    query seq이 match 된다고 기대되는 database내의 서열의 수
    • E value가 낮을수록 랜덤한 seq중에 비슷한게 거의 없다는 의미이므로,
      어떤 정보를 담고 있을 확률이 높다는 뜻이 됨.
      [출처]
      \quad
  • Percent identity
    Target seq와 query seq를 비교하여, matching된 부분의 유사도를 %로 나타낸 것
    \quad
  • Query Cover
    Target seq가 query seq를 포한하는 정도를 %로 나타냄.
    [출처]

  • MSAs
    BLAST처럼 query seq를 database에 있는 seq들과 비교하는 것이 아닌
    여러 query seq를 입력받고, 입력받은 seq들 간에 비교(alignment)해주는 툴

  • 다음과 같은 웹사이트들에서 MSA를 할 수 있음.

  • 빨간색 박스로 쳐진 conserved region은 각 단백질들에서 동일한 기능을 갖는
    domain 이라고 예상할 수 있다.

  • 다음 Sequence에 대해 분석해보자.
CAGAGAAAATCAAAAAGCAGGCCACGCAGGGTGATGAATTAACAATAAAAATGGTTAAAAACCCCGATAT
CGTCGCAGGCGTTGCCGCACTAAAAGACCATCGACCCTACGTCGTTGGATTTGCCGCCGAAACAAATAAT
GTGGAAGAATACGCCCGGCAAAAACGTATCCGTAAAAACCTTGATCTGATCTGCGCGAACGATGTTTCCC
AGCCAACTCAAGGATTTAACAGCGACAACAACGCATTACACCTTTTCTGGCAGGACGGAGATAAAGTCTT
ACCGCTTGAGCGCAAAGAGCTCCTTGGCCAATTATTACTCGACGAGATCGTGACCCGTTATGATGAAAAA
AATCGACGTTAAGATTCTGGACCCGCGCGTTGGGAAGGAATTTCCGCTCCCGACTTATGCCACCTCTGGC
TCTGCCGGACTTGACCTGCGTGCCTGTCTCAACGACGCCGTAGAACTGGCTCCGGGTGACACTACGCTGG
TTCCGACCGGGCTGGCGATTCATATTGCCGATCCTTCACTGGCGGCAATGATGCTGCCGCGCTCCGGATT
GGGACATAAGCACGGTATCGTGCTTGGTAACCTGGTAGGATTGATCGATTCTGACTATCAGGGCCAGTTG
ATGATTTCCGTGTGGAACCGTGGTCAGGACAGCTTCACCATTCAACCTGGCGAACGCATCGCCCAGATGA
TTTTTGTTCCGGTAGTACAGGCTGAATTTAATCTGGTGGAAGATTTCGACGCCACCGACCGCGGTGAAGG
CGGCTTTGGTCACTCTGGTCGTCAGTAACACATACGCATCCGAATAACGTCATAACATAGCCGCAAACAT
TTCGTTTGCGGTCATAGCGTGGGTGCCGCCTGGCAAGTGCTTATTTTCAGGGGTATTTTGTAACATGGCA
GAAAAACAAACTGCGAAAAGGAACCGTCGCGAGGAAATACTTCAGTCTCTGGCGCTGATGCTGGAATCCA
GCGATGGAAGCCAACGTATCACGACGGCAAAACTGGCCGCCTCTGTCGGCGTTTCCGAAGCGGCACTGTA
TCGCCACTTCCCCAGTAAGACCCGCATGTTCGATAGCCTGATTGAGTTTATCGAAGATAGCCTGATTACT
CGCATCAACCTGATTCTGAAAGATGAGAAAGACACCACAGCGCGCCTGCGTCTGATTGTGTTGCTGCTTC
TCGGTTTTGGTGAGCGTAATCCTGGCCTGACCCGCATCCTCACTGGTCATGCGCTAATGTTTGAACAGGA
TCGCCTGCAAGGGCGCATCAACCAGCTGTTCGAGCGTATTGAAGCGCAGCTGCGCCAGGTATTGCGTGAA
AAGAGAATGCGTGAGGGTGAAGGTTACACCACCGATGAAACCCTGCTGGCAAGCCAGATCCTGGCCTTCT
GTGAAGGTATGCTGTCACGTTTTGTCCGCAGCGAATTTAAATACCGCCCGACGGATGATTTTGACGCCCG
CTGGCCGCTAATTGCGGCCAGTTGCAGTAATATGACGCCGGATGACTTTTCATCCGGCGAGTTTCTTTAA
ACGCCAAACTCTTCGCGATAGGCCTTAACCGCCGCCAGATGTTCCGCCATTTCCGGCTTCTCTTCCAGG

1. BLAST(nucleotide BLAST)에 이 seq를 query seq로 넣어 어떤 생물들이
주로 이 seq를 가지고 있는지 알아보자.

  1. Ctrl + C, V로 seq를 입력한다.

    \quad
  2. Choose Search Set
    • Database: query seq와 대조하고 싶은 database를 선택
      (보통 Nucleotide collection (nr/nt)를 사용)
    • Organism: 특정 생물에만 alignment를 해보고 싶다면 입력
      (Dafault 값은 빈칸: 모든 생물체와 비교)
    • Optimize for: 유사도 설정
      (주로 처음에는 megablast로 해보고 결과가 없다면 낮춰서 진행)
      \quad
  3. BLAST 클릭
    \quad
  4. 결과
  • 이 seq는 주로 E.coli가 갖고 있으며, dUTPase와 관련이 있어 보인다.
  • Score를 기준으로 내림차순 정렬되서 나오는 것을 볼 수 있음.
  • E value, query cover, Percent identity를 유의하여 확인
  • Graphic Summary, Alignments등을 클릭시 더 디테일하게 확인가능

2. Genebank에서 해당 seq가 담고 있는 유전자 정보와 해당 protein seq를 알아보자.

  1. BLAST 결과로 나온 특정 seq를 클릭해 GenBank로 접속 (Alignments > GenBank)

    \quad
  2. 관심있는 Product의 CDS를 클릭하고 FASTA를 클릭

    \quad
  3. FASTA format의 DNA seq를 얻을 수 있다.
MK439895.1:343-798 Escherichia coli strain K-12 dUTPase and nucleoid occlusion factor SlmA genes, complete cds
ATGAAAAAAATCGACGTTAAGATTCTGGACCCGCGCGTTGGGAAGGAATTTCCGCTCCCGACTTATGCCA
CCTCTGGCTCTGCCGGACTTGACCTGCGTGCCTGTCTCAACGACGCCGTAGAACTGGCTCCGGGTGACAC
TACGCTGGTTCCGACCGGGCTGGCGATTCATATTGCCGATCCTTCACTGGCGGCAATGATGCTGCCGCGC
TCCGGATTGGGACATAAGCACGGTATCGTGCTTGGTAACCTGGTAGGATTGATCGATTCTGACTATCAGG
GCCAGTTGATGATTTCCGTGTGGAACCGTGGTCAGGACAGCTTCACCATTCAACCTGGCGAACGCATCGC
CCAGATGATTTTTGTTCCGGTAGTACAGGCTGAATTTAATCTGGTGGAAGATTTCGACGCCACCGACCGC
GGTGAAGGCGGCTTTGGTCACTCTGGTCGTCAGTAA

3. Swiss Prot에서 E.colidUTPase에 대해 알아보자.

  1. Expasy의 Swiss-Prot 웹에 접속해 Browse the resource website를 클릭
    1. https://www.expasy.org/resources/uniprotkb-swiss-prot
    2. Click "Browse the resource website"
    \quad
  2. 다음과 같은 결과를 얻을 수 있음.
    \quad
  3. dUTPase에 해당하는 Entry -P06968을 클릭하면 이 단백질에 대한 다양한 정보를
    얻을 수 있다. (유전자 이름, 단백질 이름, 기능, Cofactor, 단백질 seq, 단백질 구조 등)
    • 특히 Structure는 PDB로 다운받아서 PDB viewer로 로컬에서 볼 수도 있다.

4. 이 단백질의 최초 연구자는 누구이며 이 단백질을 이용한 최근 연구는 어떻게 되고 있는지 알아보자.

  1. PubMed에 접속해 dutpase 검색후 Sorted by: Most recently로 설정
    • 최하단에 있는 논문이 dutpase에 관한 최초논문, 최상단이 최신 논문

5. 여러 생명체들이 가지고 있는 dUTPase가 서로 얼마나 다른지 알아보자.

  1. UniProt의 resource website에서 dUTPase를 검색 후

    \quad
  2. 원하는 organisms별로 dUTPase seq를 FASTA 형식으로 Ctrl + C, V
<<FASTA format data>>
<Escherichia coli (strain K12)>
sp|P06968|DUT_ECOLI Deoxyuridine 5'-triphosphate nucleotidohydrolase OS=Escherichia coli (strain K12) OX=83333 GN=dut PE=1 SV=2
MMKKIDVKILDPRVGKEFPLPTYATSGSAGLDLRACLNDAVELAPGDTTLVPTGLAIHIA
DPSLAAMMLPRSGLGHKHGIVLGNLVGLIDSDYQGQLMISVWNRGQDSFTIQPGERIAQM
IFVPVVQAEFNLVEDFDATDRGEGGFGHSGRQ
<Mus musculus (Mouse)>
sp|Q9CQ43|DUT_MOUSE Deoxyuridine 5'-triphosphate nucleotidohydrolase OS=Mus musculus OX=10090 GN=Dut PE=1 SV=1
MPCSEDAAAVSASKRARAEDGASLRFVRLSEHATAPTRGSARAAGYDLFSAYDYTISPME
KAIVKTDIQIAVPSGCYGRVAPRSGLAVKHFIDVGAGVIDEDYRGNVGVVLFNFGKEKFE
VKKGDRIAQLICERISYPDLEEVQTLDDTERGSGGFGSTGKN
<Arabidopsis thaliana (Mouse-ear cress)>
sp|Q9STG6|DUT_ARATH Deoxyuridine 5'-triphosphate nucleotidohydrolase OS=Arabidopsis thaliana OX=3702 GN=DUT PE=1 SV=1
MACVNEPSPKLQKLDRNGIHGDSSPSPFFKVKKLSEKAVIPTRGSPLSAGYDLSSAVDSK
VPARGKALIPTDLSIAVPEGTYARIAPRSGLAWKHSIDVGAGVIDADYRGPVGVILFNHS
DADFEVKFGDRIAQLIIEKIVTPDVVEVDDLDETVRGDGGFGSTGV
<Homo sapiens (Human)>
sp|P33316|DUT_HUMAN Deoxyuridine 5'-triphosphate nucleotidohydrolase, mitochondrial OS=Homo sapiens OX=9606 GN=DUT PE=1 SV=4
MTPLCPRPALCYHFLTSLLRSAMQNARGARQRAEAAVLSGPGPPLGRAAQHGIPRPLSSA
GRLSQGCRGASTVGAAGWKGELPKAGGSPAPGPETPAISPSKRARPAEVGGMQLRFARLS
EHATAPTRGSARAAGYDLYSAYDYTIPPMEKAVVKTDIQIALPSGCYGRVAPRSGLAAKH
FIDVGAGVIDEDYRGNVGVVLFNFGKEKFEVKKGDRIAQLICERIFYPEIEEVQALDDTE
RGSGGFGSTGKN
<Bos taurus (Bovine)>
tr|A0A3Q1MT44|A0A3Q1MT44_BOVIN Deoxyuridine 5'-triphosphate nucleotidohydrolase OS=Bos taurus OX=9913 GN=DUT PE=3 SV=1
MTSLCPRPVLGHHFIPSLLRSVINSARHARPGAEAAGLSRPGPPLDPTPRGSVLLPALRL
LSSGRNLSREAQVVSPSKRARATEAGDMRLRFARLSEHATAPTKGSARAAGYDLYSAYDY
TVPPMEKVLVKTDIQIALPSGCYGRVAPRSGLAAKHFIDVGAGVIDEDYRGNVGVVLFNF
GKEKFEVKKGDRIAQLICERIFYPEIEEVQVLDDTERGSGGFGSTGSN

\quad
3. MSA

좋은 웹페이지 즐겨찾기