Sunny's Study/Studying Research

Inductive matrix completion for predicting gene-disease associations

AhnSunnyYoung 2020. 9. 27. 15:05

출처: Natarajan, Nagarajan, and Inderjit S. Dhillon. "Inductive matrix completion for predicting gene–disease associations." Bioinformatics 30.12 (2014): i60-i68.

 

Abstract

유전자 질병 연관성을 예측하는 기존의 대부분의 방법은 특정 유형의 증거에 의존하고 있으며, 따라서 적용가능성 측면에서 제한적이다. 질병에 이용가능한 증거의 유형은 종종 다양하다. 예를 들어, 우리는 연결된 유전자, 채굴 텍스트로 얻은 질병과 관련된 키워드, 또는 환자들에게서 질병 증상의 공동 발생을 알 수 있다. 마찬가지로, 유전자에 사용할 수 있는 증거의 유형은 다양하다. 예를 들어 특정 마이크로 어레이 탐침은 특정 유전자 집합에 대해서만 정보를 전달한다.

 

이 글에서는 유전자-질병 연관성을 예측하는 문제에 Inductive Matrix Completion이라는 새로운 매트릭스 완성법을 적용하여 관찰된 유전자-질병 연관성을 설명하는 잠재요인을 학습하기 위해 질병과 유전자에 대한 여러 종류의 증거를 결합한다. 우리는 마이크로 어레이 표현 데이터와 질병 관련 텍스트 데이터와 같은 다른 생물학적 원천으로부터 특징을 구성한다. 이 방법의 중요한 장점은 귀납적이라는 것이다; 기존의 매트릭스 완정 접근법 및 유도망 기반 추론 방법과 달리 훈련 때에 없었던 질병에 적용될 수 있다.

 

Result

OMIM의 질병에 대한 최첨단 방법과의 비교를 통해 IMC가 좋다는 것을 알 수 있다. 

 

1. Introduction

silico에서 질병 유전자 우선순위 지정은 인과적 유전자를 발견하고 유전적 장애를 이해하는 중요한 단계다. 지난 10년동안 많은 유전자-질병 우선순위 툴(일반적이거나 특정 질병 관련)이 개발되었다. 인간 유전자-질병 연구의 본질적인 난이도와 지연 시간 때문에 OMIM 및 유전학협회 DB에서 신뢰할 수 있는 연관성이 거의 보고되지 않는다. 따라서 다세대적 특성과 관련된 유전자를 예측하기 위해서는 복수의 보조적 자료원을 활용하는 것이 필수적이며, 이를 위해 기존의 많은 방법들이 개발되어 왔다. 예를 들어, 네트워크 기반 방법의 인기 제품군에는 CHIPER, GeneWalker, CATAPULT 등이 있다. 이 방법들은 기능 유전자 상호작용 네트워크와 질병 유사성 네트워크와 같은 생물학적 네트워크를 이용한다. 그들은 다른 생물학적 네트워크에서 random walk 절차를 이용하거나 노드들 사이의 유사성을 계산하여 유전자-질병 연결을 추론한다.

유전자-질병 연관성을 예측하는 것은 사용자가 어떤 아이템에 주는 '선호'를 예측하는 것이 목표인 추천 시스템과 유사하다고 생각할 수 있다. 넷플릭스가 사용하는 추천 시스템의 중요한 방식이 matrix completion인데, 여기서 문제는 관찰된 선호도 표본을 주어진 사용자-아이템 선호 매트릭스를 'completion'하는 것이다. 사용자-아이템 선호 매트릭스를 복구하기 위한 표준 매트릭스 완료 기법은 실제 기본 매트릭스가 낮은 순위로 가정한다. 우리가 아는 한, 유전자-질병 연관성 매트릭스를 회복하기 위해 매트릭스 완료 접근방식의 성공적인 적용은 존재하지 않는다. 두 가지 이유는 1) 연관선 매트릭스의 극한 첨사성과 '부정' 연관성의 결여 때문이다. 2) 또한 모든 매트릭스 완료 접근방식은 새로운 사용자에 대한 예측을 Cold start 문제로 인해 어려움을 겪는다. 이 논문에서 우리의 접근방식은 매트릭스 완료를 기반으로 하고, 이 문제들에 대해 동기부여를 받아 해결한다.

앞서 언급한 대부분의 방법들은 일반적으로 seed나 이미 질병과 연결된 유전자들의 후보군에 의존하여 새로운 질환(아직 관찰되지 않은 연결)에 대해 예측을 하지 못한다. 몇몇은 우리가 기존의 질병과 유사한 측정치를 계산할 수 있다면 합리적인 예측을 한다. 그러나, 종종 질병에 이용 가능한 증거의 유형은 다양하다. 예를 들어, 우리는 이미 연결된 유전자, 채굴 텍스트로 얻은 질병과 관련된 키워드, 또는 환자들에게 질병 증상의 공동 발생을 알 수 있다. 특정 유형의 증거에 의존하는 방법은 다른 유형의 증거를 가진 질병에 적용할 수 없다. 유전자가 사용할 수 있는 증거 유형도 마찬가지다. 네트워크 기반 방법은 네트워크의 다른 노드에 연결되지 않은 유전자를 예측할 수 없다. 반면에 유전자-표현 profile, 기능 주석 및 신호 경로를 이용하는 방법은 존재하지만 주로 특정 질병 등급에 대해 개발되어 왔기 때문에 새로운 질병에 대한 일반화가 부족하다.

증거들을 통합하여 어떤 단일 데이터 소스보다 더 나은 적용 번위와 일반화를 데공하는 것은 필수적이다. Piro와 Dic cunto의 조사에 따르면 우선 순위 지정 도구에 의해 사용되는 다음과 같은 다른 유형의 증거에 대해 논한다: 생물 의학 문헌, 기능 주석, 경로 및 온톨로지, 표현형 관계, 내인 유전자 속성, 순서 데이터, 단백질-상호작용, 규제 정보, 직교 관계와 유전자 표현 정보. 이 논문에서는 앞에서 언급한 데이터 소스의 기능을 원활하게 통합할 수 있는 프레임 워크를 제안한다. 우리의 접근법은 두 가지 단계를 필요로 한다. 첫째로, 우리는 질병과 유전자의 특징을 여러 근원에서 도출한다. 다음으로, 우리는 유전자0질병 연관성을 새로운 Inductive Matrix Completio(IMC) 접근법에 배우려고 애쓰면서 그 특징들을 통합한다. 연관성 매트릭스의 입력은 해당 유전자 및 질병 특성 벡터를 미지의 낮은 순위 매트릭스 Z에 적용하여 생성되는 것으로 가정한다. 파라미터 매트릭스 Z는 OMIM 유전자-질병 연관성의 훈련 세트를 이용하여 학습하며, 질병에 대한 예측은 모든 유전자의 특징과 질병의 특징 벡터의 함수로서 얻어진자. 종합적인 실험을 통해 제안된 접근 방식을 평가하고 최첨단 방법에 비해 예측질이 상당히 향상되었음을 예측한다.

 

(1) 다량의 공개된 데이터를 통해 얻은 다양한 특징의 유전자와 질병을 통합하면 유전자-질병 연관성 데이터의 극한 sparsity를 극복할 수 있다.

(2) 우리의 접근 방식은 IMC의 참신한 적용으로, 기존의 매트릭스 완성 접근방법(네트워크 기반 추론)과 달리 훈련 때 없던 질병에 적용될 수 있다.

(3) 이 접근방법은 이전에 알려진 유전자 관령성이 없는 질병에 특히 효과적이며, 이전에는 질병과 연계되지 않았던 새로운 유전자, 즉 유전자를 예측하는 데 효과적이다. 따라서 성격에  맞는 질병에 대해서도 새로운 예측을 할 수 있다.

(4) OMIM에 대한 최첨단 방법들과 비교를 통해 IMC가 우수함을 알 수 있다. 

 

1.1 관련 연구

(skip)

 

2. Inductive Method

우리의 목표는 주어진 질병의 잠재적 유전자를 예측하는 것이다. 우리는 유전자-질병 연관성 행렬을 형성한다. 여기서 각 행은 유전자에 해달하고, 각 열은 질병에 해당된다. 우리의 접근방식은 가장 성공적이고 잘 연구된 추천시스템 기술 중 하나인 Matrix Completion에 기초한다. 실제 관찰된 행렬이 주어지면 해당 행렬 구조에서 없는 것에 대한 예측이 목표이다. 가장 유명한 접근법은 low-rank이다. 하지만 이에 경우, 알려지지 않은 연결이 많기 때문에 예측율이 낮을 수 밖에 없다. 

이를 위해 다른 데이터들로 증거를 마련해야 한다: 생물 의학 문헌 텍스트마이닝, 기능 주석, 표현형 관계 단백질-단백질 상호작용, 규제 정보, 다른 종의 정형 표현형 및 유전자 표현 정보. 여기서 우리가 묻는 질문은 유전자와 질병, 우선순위 결정 과제에 풍부한 특징들을 직접적으로 사용할 수 있느냐이다. 한 가지 확실한 방법은 각각의 질병과 관련된 회귀 문제를 독립적으로 해결하는 것이다. 여기서 유전자 특성은 공변량과 질병에 대한 연관성이 반응을 형성한다. 이 방법은 single-tasking 학습이라고 한다. 하지만 이것의 근본적인 문제는 대부분의 질병이 충분한 훈련 사례를 가지고 있지 않다는 것이다. 이와 대조적으로, 우리는 밀접하게 관련된 질병들이 비슷한 예측을 할 것으로 예상하기 때문에 다중 과제 학습 접근법이 필요하다. 여러 질병에 대한 유전자 연관성을 공동으로 배우자는 취지다.우리는 각각의 유전자가 example이 되고, 각각의 질병이 label or task가 되는 학습을 공식화하여, 목표는 모든 질병에 대한 연관성을 공동으로 학습하는 것이다. 다중 라벨 학습을 위해 최근에 개발된 프레임워크는 low rank 선형 모델의 문제를 공식화한다. 

(1) 머신러닝 application에서 발생하는 일반적인 다중 라벨 문제에서, 라벨 세트는 대개 고정되어 있으며, 새로운 예를 제시하면 어떤 라벨이 가장 관련성이 높은지 예측하고자 한다. 유전자-질병 연관성의 경우 앞에서 논의한 바와 같이 새로운 질병, 예를 들어 이전에는 다세대 질환으로 알려져 있지 않았던 질병에 대한 예측을 하는 것이 바람직하다. 그러나 표준 다중 라벨 공식에서는 이것이 유도적이기 때문에 가능하지 않다. 즉, 라벨은 교육 단계에서 고정되며 새로운 라벨에 대한 예측은 불가능하다.

(2) 반면에 질병에 대한 텍스트 기사, 입원환자 연구, 증상 등과 같은 보조 자료의 특징을 구성하는 것이 도움 될 것이다 현존하는 다른 다세대적 특성과의 관계도 생물학적 특징을 실현한다. 우리는 질병에 대한 정보에 입각한 예측을 하기 위해 이용 가능한 정보를 이용할 수 있기를 원할 것이다.

 

2.1 Principal components as features

우리는 강력한 유전자와 질병 특성을 얻기 위해 다양한 유형의 데이터 출처에 대해 차원성을 감소시킨다. 우리의 데이터 소스의 대부분은 인접 매트릭스로 대표되는 네트워크의 형태다. 노드에 대해 실제 값을 매긴 형상을 얻는 한 가지 방법은 인접 행렬의 주요 구성요소를 살표보는 것이다. 특히 인접 행렬의 선도적 고유 벡터를 잠재 형상으로 사용한다. 예를 들어, 유전자-연관 네트워크를 G라고 하고, U를 G의 top m 고유벡터와 동일한 고유 행렬을 뜻한다고 하자. U의 i번째 열은 i에 대한 m 잠재요인을 주는 것이다. 우리는 마이크로 어레이 표현형과 word-count 데이터를 PCA에 실행한다. 

 

2.2 Optimization

 

2.3 Computational efficiency

최적화 문제를 해결하기 위한 계산비용은 손실함수의 선택에 따하 달라질 수 있다. 우리의 실험에서는 목표에서 제곱손실을 사용하고 결측값을 0으로 처리한다. 환전히 관측된 라벨로 제곱된 손실의 경우 방정식을 해결하기 위한 빠른 절차를 산출하는 알고리즘을 기본적으로 사용할 수 있다. 특히 교대로 최소화하는 단계당 걸리는 시간은

이다.

 

3. Dataset and Features

3.1 OMIM associations