Sunny's Study/Studying Research

Deep collaborative filtering for prediction of disease genes

AhnSunnyYoung 2020. 9. 11. 19:30

출처: Zeng, Xiangxiang, et al. "Deep collaborative filtering for prediction of disease genes." IEEE/ACM Transactions on Computational Biology and Bioinformatics (2019).

 

요약: 잠재적인 질병 유전자의 정확한 우선순위는 생물학적 연구에 근본적인 도전이다. 다양한 알고리즘은 이 문제를 해결하려 개발해왔다. Inductive Matrix Completion(IMC)는 유전자-질병 연관성을 예측하는 기능은 탁월하고 잘 확립 된 모델 중 하나이다. 하지만 IMC는 계층적으로 깊은 기능을 추출하지 않아서 발견의 기능이 제한 될 수 있다. 이 경우, 대규모 생물학적 데이터셋에서 제시된 높은 수준의 표현을 얻고 잡음과 특이치를 처리하는 딥러닝 아키펙쳐가 Deep Collaborative Filtering(DCF)에 도입된다. 게다가, 부정적인 예시가 부족하기 때문에 낮은 순위의 matrix 완성을 위해 PU(Positive-Unabled)학습 공식을 활용한다. 본 논문의 기술은 OMIM 데이터베이스의 질병에 대한 다른 방식들에 비해 상당히 향상된 성능을 보여준다.(IMC보다 10% 효율적, 상위 k 예측에서 precision-recall matrix의 다른 대안들보다 우수하다. 또한 이전에 알려진 유전자 관련성과 새로 보고된 OMIM 관련성을 가지고도 그 질병을 검증한다. 실험 결과는 DCF가 알려지지 않은 관계 뿐 아니라 새로운 질병 표현형들의 순위를 매기는 데에도 우수한 성능을 만족한다는 것을 알 수 있다.

 

1. Introduction

유전자-질병 연계 식별은 인간의 질병 진단과 치료에 큰 가치를 가진다. OMIM 및 유전자협회 데이터베이스와 같이 공공 DB에 알려진 질병-유전자 연관성은 실제 관계 중 아주 적은 부분만 존재한다. 따라서, 질병-유전자 관계를 발견하는 것은 여전히 중요하다. 전통적인 유전자 매핑 접근법은 linkage 분석과 게놈 전체 연관 연구를 포함한다. 표본 추출 된 집단의 교차자(crossover)수가 제한되어 있기 때문에 연관 분석은 보통 최대 수백 개의 후보 유전자를 포함할 수 있는 염색체 간격만 식별한다. 게놈 전반에 걸친 연관성 연구도 향후 연구에서 검토해야 할 많은 부분들이 있다. 수 많은 후보 유전자의 실험 검증은 시간이 많이 걸리고 비용이 많이 들기도 한다. 유전자 질병 특정에는 여러 보조 데이터 소스들을 통합하는 것이 필수적이기 때문에, 지난 10년 간 일련의 네트워크 기반 연산 대안이 제안되었다. 이러한 방법들의 공통적인 동기는 동일하거나 유사한 질병을 일으키는 유전자가 생물학적 네트워크에서 서로 밀접하게 상관되는 경향이 있다는 점이었다. 이러한 모델을 분류할 수 있다는 일반적인 증거는 다음과 같은 특성들로 알 수 있다.(생물학적 문헌, 기능적 주석, 경로 및 온톨로지, 표현형 관계, 내인적 유전자 속성, 순서 데이터, 단백진-단백질 상호작용, 규제 정보, 직교 관계, 유전자 표현 정보) 예를 들어, OMIM DB에 포함된 대규모 인간 표현형을 분류하기 위해 텍스트 마이닝 접근법을 사용하기도 하고 단백질-단백질 상호작용 네트워크의 유사성을 정의하기 위해 random walk analysis라고 불리는 global network distance measure기법을 사용했다. 게다가 최근에는 이종 네트워크 상에서 CATPULT와 Katz를 실시하였는데, 이 네트워크에서는 두 물체 사이의 유사성을 계산하기 위해 walk count를 이용한 random walk의 확장을 개발하고, 과일파리와 쥐 같은 다른 종의 관련 정보를 통합하였다. 이런 네트워크 기반 방법의 주요 단점은 유전자 연계 연구가 아직 없는 새로운 질병의 일반화에 부족하다는 것이다. 이와 관련하여 다른 생물학적 자원에 근거하여 IMC를 구성하였는데, 이는 훈련 시 볼 수 없는 질병에 적용될 수 있다. 특정 질병과 관련된 유전자의 우선순위를 정하는 방법인 이 기술은, IMC로 수행하는데, 특징을 얕게 이해하게 될 수 있지만 가장 잘 수행한다. 

딥러닝 활용의 발전은 분류 과제와 표현 학습에 폭넓게 적용되고 있다. 다중 계층을 가진 심층 시스템은 데이터의 보다 강력한 기능을 추출하는 데 있어 유망한 성능을 제공하는 것으로 나타났다. 다른 연구에서는 CNN 또른 DBN을 직접 사용해, 콘텐츠 정보의 잠재적 요인을 얻는다. 또한 협업 필터링을 위해 Bayesian stacked denoising autoencoder(SDAE)와 marginalizes SDAR를 사용한다. 본 논문에서는 측면(side) 정보로부터 유전자-질병 학습의 깊은 잠재 요인을 공동으로 사용하고 유전자-질병 연관성 행렬에서 협업 필터링을 수행하는 유연하고 견고한 모델을 제안한다. 또한 최적화를 수정하기 위해 노력한다. 주어진 표현 형식에 대해, 관찰되지 않은 증거가 그러한 연결리 존재하지 않은지, 또는 숨겨져 있는지를 나타내기는 어렵다. 이전 연구에서 matrix completion을 위한 PU학습에 초점을 맞춤 다양한 학습 방법에 영감을 받아, PU학습을 사용했다. 실험 결과, 우리의 hybrid model은 다른 기술들보다 성을이 좋은 것으로 나타났다. 

본 논문의 주요 공헌

1. 심층 표현 학습과 matrix completion을 통합한 DCF(Deep Collaborative Filtering 모델을 제안한다.

2. 관련 정보가 존재하는, 관리 가능한 유전자로 차원성을 줄이기 위해 딥러닝 알고리즘으로 SDA(Stacked Denoising Autoencoder)를 제시한다. SDAE는 다양한 데이터 소스의 잡음과 불완전한 성질을 가지고 있을 뿐만 아니라 생물학적 케이스에 더 적합하게 만드는 더 높은 압축률을 가지고 있다. 또한 PU학습은 연관성 matrix를 처리할 때 사용된다.

3. 본 모델을 OMIM 질병의 최첨단 방법과 비교하여 우월성을 입증한다. 

4. 새로운 질병과 새로운 연관성에 대한 예측의 새로움을 분석한다. 부분적 특징을 가림으로써, 제안된 프레임워크에서 주어진 유전자 특징의 중요성에 대해 탐구한다.

 

2. Preliminaries

2.1 Stacked Denosing Autoencoders(SDAE)

오토인코더는 하나의 숨겨진 레이어가 있는 feed forward 신경망으로, 인코딩 단계레서 압축 및 분산 표현을 자동으로 학습하고 디코딩 단계에서 깨끗한 입력을 재구성하는 것을 목적으로 한다. 입력 x가 주어지면 모델은 f(·)를 적용하여 숨겨진 f(x)에 매핑하는 한편, 디코더 g(·)는 x의 재구성된 버전으로 출력층에 숨겨진 형상을 매핑한다. 오토인코더의 파라미터는 일부 손실 함수에 의해 측정되는 재구성 오류를 최소화하도록 학습된다. (==> 결론적으로 데이터를 더 효과적으로 사용하기 위해 노이즈를 주고 차원을 변경하는 등 효과를 사용하는 기법)

오토인코더가 단순한 식별자가 아닌 보다 강력한 기능을 생성하도록 하기 위해 DAE가 제안된다. 원래 입력인 x를 직접 사용하는 대신, DAE는 마스킹 노이즈나 가우시안 노이즈를 포함한 여러가지 다른 손상 기준을 원시 데이터에 통합한다. 노이즈를 추가하는 프로세스는 훈련된 특성의 강력함을 개선하고 결과적으로 모델을 개선한다. 본 연구에서는 스택형 DAE를 채택하였는데, 이는 DAE를 쌓아서 깊은 네트워크를 형성함으로써 SDAE가 입력 계층에서 숨겨진 계층까지 계층적 특징을 학습할 수 있게 한다. SDAE 모델은 정규화된 문제를 최소화하고 다음과 같이 정의된 AE와 유사한 방식으로 재구성 오류를 해결한다. 

 

2.2 Matrix Factorization

low rank matrix completion(MC)는 추천 시스템 중에서 가장 인기 있고 성공적인 협업필터링 방법 중에 하나다. 

 

2.3 Inductive Matrix Completion

전형적인 MC는 추론적 설정을 기반으로 한다. 또한 모든 MC접근방식은 해당 행렬의 sparsity(중간에 비는 곳이 많음)와 cold start(처음에 데이터 없음)의 문제를 겼는다. 이런 한계를 완화하기 위해서 추론적 다중 레벨 형태의 일반화 해석이 가능하고(특징 잘 찾는다는 뜻) 측면 정보를 통합할 수 있는 Inductive Matrix Completion(IMC)가 개발되었다. 이 기술은 유전자-질병 연관성을 예측하는 데에 적용되었다. 두 데이터의 측면정보는 행렬로 주어진다. IMC는 유전자 및 질병 특성 벡터를 low rank matrix 에 적용하여 기초적인 연관성 matrix가 생성된다고 가정하며, 이는 공식화된 유전자-질병 연관성 학습집합으로부터 학습된다.

 

2.4 PU learning

현재 알려진 학습 기법들은 전형적으로 알려진 질병 유전자는 positive로, 알려지지 않은 질병 유전자는 negative로 취급합니다. 하지만 이런 건 over-punishment 일으킬 수 있습니다. 이 점을 피하기 위해서 우리는 알려지지 않은 샘플은 unlabeled로 취급합니다. 또한 Positive-Unlabeled(PU)을 실행한다. 

 

3. Methods

IMC는 유전자-질병 연관성을 예측하기에 뛰어난 정확성을 보이고 풍부한 등거도 있지만, 품질이 좋지 않은 생물학적 데이터와 고차원성에 관해서는 여전히 아쉬운 점이 있다. 여기서 우리가 DCF를 제안한다. 이 기법은 다음과 같은 인식은 바탕으로 두고 있습니다:기존 연구들은 SDAE가 사전 지식 없이 고품질의 표현을 구성할 수 있는 강력한 방법임을 보여주고 있다. 또한 우리는 생물 정보학 데이터를 고려할 때, 양성 유전자-질병 쌍(서로 연관 있는 경우)으로 구성되지만 이용 가능한 음성 쌍(관련이 없는 유전자)는 없다. 결과적으로, 이 문제는 관절된 항목과 관찰되지 않은 항목이 목표에서 다르게 불이익을 받는 PU학습 프레임워크레서 자연스럽게 연구된다. 이를 위해 우리가 제안한 SDAE와 PU학습과제의 조합은 보다 표현력이 푸우한 모델을 양성하는 데 유익하다. DCF 프레임워크에 대한 간단한 설명은 아래와 같다.

 

3.1 A General Framework

우리는 유전자 및 질병의 측명 정보로부터의 작은 차원 특징을 엊기 위해 SDAE 기법과 Principal Components Analysis(PCA)를 수용한다. 표준적인 Imductive Matrix Completion은 negative한 입력을 무시하므로 작은 값들을 0으로 편향시키는 알파값이 존재한다.

 

3.2 Deep Collaborative Filtering

우선 SDAE와 PCA는 관련된 데이터들의 잠재적 특징 행렬을 동일한 차원에서 생성한다. 우리는 유전자 표현 데이터(다른 종에서부터 얻은 유전자 기능적 연관성과 유전자 표현형질 연관성)에 대해 SDAE를 구성한다. 특히 OMIM 웹페이지와 질병 유사도 의 용어 문서 행렬은 극도로 sparsity하기 때문에 PCA 분석을 사용한다. 

 

3.3 Optimization

한 변수를 변경하고 다른 변수를 수정하면 최적화를 위한 목표 함수가 convex해진다. (볼록해짐) 그래서 W를 수정하고 H를 업데이트하여 최적화 합니다. 또한 Negative 항목을 선택하는 두 가지 주요 방법이 있습니다.

(1) 관측된 Positive 항목과 유사한 크기의 집합을 하위 표본(subsample)으로 추출

(2) 누락된 모든 항목들을 Negative로 처리(Full)

일반적으로 Full 접근방식은 Subsampled 접근법보다 더 잘 수행되지만, 많은 수의 Negative 표본으로 인해 비효율적인 경우가 많다. 최근에는 W와 H의 모든 값을 최적화하기보다는 W와 H의 한 컬럼을 순차적으로 최적화함으로써 Full 방법에 대한 효율적인 최적화 방법을 개발했다. 따라서 우리는 이 방법을 채택하여 PU학습으로 확장한다. 그리고 이 전에 말한 convex 문제를 해결하기 위해 squared loss를 이용한 Conjugate gradient descent 방법을 반복한다.

 

4. Results And Discussion