로씨는 어떻게 TypeDB를 이용하여 새로운 잠재적 유전자 표적을 발견합니까

유형 시스템은 어떻게 약물 발견 파이프에 속도와 참신성을 가져다 줄 것인가


Vaticle 지역사회 담화의 보고를 청취하다 — 로씨 계통 생물학자 데이비드 데레스가 주연을 맡았다.그 강연은 사실상 4월 회의에서 발표되었다.
약물 발견의 핵심은 질병 메커니즘에서 중요한 표적을 찾는 것이다.그러나 현재 모든 알려진 목표는 느린 시도와 테스트를 거쳤다.이 프로젝트에서 데이비드와 그의 팀은 목표와 질병 사이의 숨겨진 관계를 추측하고 발견하는 규칙 시스템을 설계했다.

다음 이야기에서 데이빗은 그의 로씨 팀이 잠재적인 새로운 목표를 어떻게 식별하는지 소개했는데 이 목표들은 Open Targets에 의해 높은 순위로 확정되지 않았다.이것은 TypeDB를 통해 이루어진 것으로 그의 팀은 그것으로 관련 데이터를 저장한 후에 이러한 새로운 목표의 잠재적 생물학적 증거를 찾았다.

어떤 데이터 세트를 사용했습니까?


이 프로젝트에는 STRING, Oma, DisGenet 세 개의 데이터 세트가 사용됩니다.

STRING는 단백질의 상호작용을 알고 예측하는 데이터베이스이다.상호작용은 직접(물리)과 간접(기능) 관련을 포함한다.그것들은 계산 예측, 생물체 간의 지식 이동, 그리고 기타(주요) 데이터베이스에서 집합된 상호작용에서 비롯된다.이는 문헌뿐만 아니라 단백질이 다른 단백질과 상호작용하는 실험 증거도 포함한다.이는 실험을 통해 검증된 단백질만 상호작용하는 단백질을 검색할 수 있다는 뜻이다.
Oma 유전자 가족, 시차 유전자, 즉 기능이 보수적이고 유전자 그룹에 중복되는 유사 유전자를 삽입하는 데 사용되며 서로 비슷한 기능을 가지고 있을 수 있다.
마지막으로 DisGeNET는 변이 정보를 제공하여 돌연변이를 유전자와 연결시킬 수 있도록 한다. 예를 들어 당신의 유전자 그룹에 돌연변이가 있다면 이 돌연변이가 한 유전자와 관련이 있다면 이 유전자가 한 질병과 관련이 있다면 우리는 질병을 이 돌연변이와 연결시킬 수 있다.Tomás는 그의 궤도 2021 강연에서도 이 데이터베이스를 언급했다.
그리고 우리는 이런 질문을 할 것이다.

Do people that have this mutation, also have some type of prevalence for a specific disease?


이 질문에 대답하기 위해서는 특정 돌연변이와 이 유전자의 긴밀도를 검사한 후 이 변체가 어떤 방식으로 이 유전자를 조절하는지 확인해야 한다.이것은 왜 우리가 이런 유형의 질병 표형을 볼 수 있는지 설명한다.

어떻게 모델링과 조회 통찰을 합니까


먼저, 이 팀은 개방목표 데이터베이스에 있는 기존 목표를 살펴보고 이미 상위권에 랭크되어 있고 관련 점수가 높은 목표를 선택했다. 로씨IP 내부 때문에 불행하게도 그들은 어떤 목표를 구체적으로 언급할 수 없었다.이해하기 편리하도록 그것들은 다시 명명되었다.

데이빗은 이러한 높은 순위의 목표는 개방목표billionDollarTargetbestTarget에서 나온 것으로 전체적으로 비교적 높은 관련 점수를 가지고 있다. 다시 말하면 데이빗의 팀이 흥미를 느끼는 질병과 밀접한 관계를 가진다는 것이다.오픈 타깃에서 순위가 높지 않은 타깃을 찾는데도 질병을 간접적으로 조절하는 데 사용되는 TypeDB가 잠재적 고가치 타깃으로 어떻게 활용되는지 살펴본다.
이를 위해 David는 TypeQL에 규칙 및 스키마 세트를 구축했습니다.다음은 어떻게 이 데이터를 모델링하는지에 대한 아주 작은 발췌문이다 — BioGrakn-Covid, 바티칸 지역사회가 이끄는 프로젝트(로씨 데이터 과학 소프트웨어 엔지니어)에서 발췌했다.이것은 선택한 모드입니다.전체 모드는 BioGrakn-Covid 모드file에서 찾을 수 있습니다.
define
gene sub fully-formed-anatomical-structure,    
  owns gene-symbol,       
  owns gene-name,      
  plays gene-disease-association:associated-gene;
disease sub pathological-function,    
  owns disease-name,    
  owns disease-id,    
  owns disease-type,    
  plays gene-disease-association:associated-disease;
protein sub chemical,    
  owns uniprot-id,    
  owns uniprot-entry-name,    
  owns uniprot-symbol,    
  owns uniprot-name,    
  owns ensembl-protein-stable-id,      
  owns function-description,    
  plays protein-disease-association:associated-protein;
protein-disease-association sub relation,    
  relates associated-protein,    
  relates associated-disease;
gene-disease-association sub relation, 
  owns disgenet-score,    
  relates associated-gene,    
  relates associated-disease;
정확한 패턴, 규칙, 데이터를 삽입하면 첫 번째 조회를 작성할 수 있습니다.다음 관계는David팀이gene-disease-inference라고 부르는 관계로 하나의 속성order:1을 가지고 직접적인 관계임을 나타낸다.질의는 다음과 같습니다.
match
$d isa disease, has disease-name "Disease";
$r ($gene, $d) isa gene-disease-inference, has order 1;
get $r, $d, $gene;
결과는 다음과 같다billionDollarTarget,bestTarget와youWillNeverGuessTargetDisease에 링크된 것을 볼 수 있다.우리는 또 이 세 가지 표적점order: 1이 이 질병과 유전자 사이에 직접적이고 이전에 알려진 관련이 있음을 나타냈다.그러나 목표는 새로운 목표를 찾는 것이다.

이를 위해, 그들은 아래와 같은 조회를 작성했다.gene-disease-inferenceorder: 2관계를 통해 연결된 질병과 유전자를 찾지만, 이미 order:1유전자 질병과 연결된 질병과 유전자를 명확하게 배제한다.
match
$d isa disease, has disease-name "Disease";
$r ($gene, $d) isa gene-disease-inference, has order 2;
not {($gene, $d) isa gene-disease-inference, has order 1;};
get $r, $d, $gene;
이 검색은 완전히 다른 유전자 목록을 되돌려줍니다. whatCouldIBeTarget, awesomeTarget, thatTarget.이 모든 것은 Diseasegene-disease-inference를 통해 order:2에 연결하는 목표이다.

If you are not familiar with TypeDB Workbase, you can right-click one of the inferred relations and select “Explain” in the dropdown. This will explain those inferences and tell you how these targets are connected to our disease via typed roles, played by the targets.


만약 우리가 관련deadTarget의 추정 관계를 설명한다면, 우리는 이 과녁과 youWillNeverGuessTargetorder: 1가 같은 유전자 가족에 속한다는 것을 발견할 수 있을 것이다.이 추정은 rule을 통해 이루어진 것으로 기존 데이터에 근거하여 새로운 데이터를 추정할 수 있도록 한다.이런 상황에서 우리는 두 목표 사이의 이전에 알 수 없었던 간접적인 상호작용을 발견했다.

이 추론의 규칙 뒤에 있는 논리는 다음과 같다.
언제:
  • 유전자 표적은 질병과 관련이 있다
  • 그리고 이 과녁은 질병과 밀접한 관련이 있는 다른 과녁
  • 과 같은 유전자 가족에 위치한다.
    다음:
  • 이 유전자 표적점과 질병은 유전자-질병 추리 관계
  • 를 통해 연계되어야 한다
    다른 새로운 표적점awesomeTargetbestTarget에 대해 우리는 이러한 추론이 단백질과 단백질 간의 상호작용을 바탕으로 하는 것으로 이러한 상호작용은 whatCouldIBeTarget과 관련이 있다는 것을 발견했다.만약 우리가 이러한 관계를 설명한다면, 우리는 그것이 billionDollarTarget를 통해 gene-disease-association와 연결되어 이 질병과 같은 변이가 있을 수 있음을 발견할 수 있을 것이다.
    awesomeTargetthatTarget는 관심 질환에 대한 개방목표 데이터베이스에 등장했지만 순위가 매우 낮았다.이것은 그들이 이 질병과 일정한 연관이 있지만 강렬한 연관이 아니라는 것을 의미한다.TypeDB는 이들 목표의 순위가 더 높을 수 있다는 새로운 증거를 발견했다.
    이것이 바로 데이빗이 로치의 팀에서 TypeDB의 추리 엔진을 어떻게 활용하여 표준적인 방법이나 더 직접적인 방법으로 누락될 수 있는 새로운 목표를 찾아내는가이다.

    이것이 바로 생물학은 끊임없이 발전하는 매우 복잡한 분야라는 것이다.과거에 정확한 데이터 집합이 오늘은 정확하지 않을 수도 있다.우리는 줄곧 새로운 혼합 요소, 서로 다른 방법, 생물학 고유의 소음을 처리하고 있다.우리의 목표는 강력한 생물학적 증거로 질병을 조절하는 새로운 방법을 찾는 것이다.
    새로운 과녁을 찾는 것이 반드시 이것이 현재 해결 방안이거나 시험을 준비할 준비가 되어 있다는 것을 의미하는 것은 아니다.그러나 이것은 위대한 가설이다. 즉, 특정 질병을 조절하는 효능을 발굴하기 시작하는 것이다. 치유 방법을 찾든 환자에게 더 좋은 치료 방법을 제공하든.

    우리는 여기서 어디까지 갈 수 있습니까?


    단백질 복합체와 경로 등 추가 정보를 통합함으로써 단일 단백질이 아닌 더 높은 표적 방향을 실현할 수 있다.예를 들어 우리는 같은 경로에 속하는 몇 가지 유전자를 찾을 수 있다.만약 한 약물이 한 개의 과녁을 충분히 조절하여 환자의 상태에 적극적인 변화를 일으키지 못한다면 우리는 같은 경로에서 여러 개의 과녁을 겨냥하는 것을 고려할 수 있다.
    데이빗은 특정 질병과의 3단계, 4단계, 5단계 관계를 검사할 수 있도록 규칙을 확장하는 것도 고려했다고 덧붙였다.또한 단백질 간의 상호작용 외에 매우 구체적인 조회 제약을 결합시킬 수 있다.예를 들어 우리는 유전자 X와 Y가 같은 경로의 일부로 같은 세포 유형에서 표현되고 질병 표현에서 상향 또는 하향 조정되기를 희망하는 것을 선별할 수 있다. 이런 방식을 통해 경계 조건처럼 우리의 목표 우선순위를 높이고 우리의 과정에 높은 가치를 부여할 수 있다.
    특히 데이비드의 일, 지역 사회에 대한 공헌, 그리고 그가 일에 가져다 준 기쁨에 감사 드립니다.
    모든 슬라이드는 라이센스로 사용할 수 있습니다.바티칸 유튜브 채널에서 온전한 프레젠테이션을 찾을 수 있다.

    좋은 웹페이지 즐겨찾기