Random Forest를 이용한 단백질에서의 RNA 결합 부위 예측

Title
Random Forest를 이용한 단백질에서의 RNA 결합 부위 예측
Authors
최혁진
Keywords
randomforest를이용한단백질에서의rna결합부위예측
Issue Date
2012
Publisher
인하대학교
Abstract
단백질과 RNA의 상호작용은 단백질 합성, 유전자 발현과 복제, 바이러스에 의한 감염과 같은 생물학 과정에서 중요한 역할을 하고 있기 때문에, 단백질-RNA 상호작용 부위에 대한 정보는 단백질과 RNA의 기능을 규명하거나 잠재적으로 질병을 유발하는 단백질과 RNA의 결합을 억제하거나 촉진할 수 있는 신약 개발에 유용하게 사용될 수 있다. 최근 여러 기계학습 기법이 단백질 서열에서 RNA와 결합하는 잔기를 예측하는데 사용되었다. 그러나, 이 기법들은 주어진 단백질과 상호작용하는 상대방인 RNA를 고려하지 않기 때문에, 단백질이 결합하는 RNA가 달라져도 주어진 단백질에 대하여 항상 같은 결합부위를 예측한다. 본 연구에서는 단백질 서열뿐만 아니라 RNA 서열을 함께 고려하여 단백질 서열에서 잠재적으로 RNA와 결합하는 부위를 예측하는 Random Forest 분류기를 논한다. 아미노산과 염기 간의 결합 성향은 Protein Data Bank (PDB)에서 단백질-RNA 복합체 분석을 통해 얻었고 Random Forest 분류기의 특징 벡터에 표현하였다. 특징으로 단백질 서열에서 인접한 아미노산 3개의 결합 성향, 상대방 RNA 서열의 길이와 염기의 빈도수, 단백질 이차 구조, 아미노산의 생화학적 특징 등을 이용하여, RNA와 결합 가능한 아미노산을 예측하는 Random Forest 분류기를 개발하였다. 429개의 단백질-RNA 복합체에서 추출한 3,149개의 단백질-RNA 서열 쌍을 대상으로 한 시험에서, 이 Random Forest 분류기는 82.0%의 sensitivity, 98.1%의 specificity, 96.2%의 accuracy의 예측 성능을 보였다.
Description
1. 서론 1 2. 관련 연구 및 배경 지식 3 2.1 Protein Data Bank 3 2.2 Dictionary of protein secondary structure 5 2.3 Random Forest 6 2.3.1 결정 트리 분류기 6 2.3.2 결정 트리의 구조 7 2.3.3 결정 트리의 설계 8 2.3.4 결정 트리의 학습 알고리즘 11 2.3.5 결정 트리의 특성 13 2.3.6 Random Forest의 설계 14 2.4 특징 벡터 기반의 중복 데이터 제거 기법 17 2.5 Ensemble of Under-Sampling 18 3. 데이터 구성 및 특징 선택 21 3.1 단백질-RNA 결합부위 데이터 21 3.2 단백질-RNA 결합 부위 정의 21 3.3 단백질 서열을 고려한 결합 성향 22 3.4 단백질 아미노산 triplet을 고려한 결합 성향 22 3.5 단백질 이차구조를 고려한 결합 성향 23 3.6 상대방 RNA를 고려한 결합 성향 29 3.7 특징 벡터 (feature vector)의 표현 29 3.8 예측 알고리즘의 성능 평가 32 4. 시험 및 평가 33 4.1 학습 데이터 생성 33 4.2 Random Forest를 이용한 예측 성능 평가 35 4.3 Random Forest와 SVM의 예측 성능 비교 37 4.4 타 연구 시험과의 비교 39 4.5 다른 데이터 셋에서의 테스트 42 5. 결론 44
URI
http://dspace.inha.ac.kr/handle/10505/23579
Appears in Collections:
College of Engineering(공과대학) > Computer Engineering (컴퓨터공학) > Theses(컴퓨터정보공학 석박사 학위논문)
Files in This Item:
24660.pdfDownload

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse