SVM을 이용한 단백질-RNA 결합부위 예측

Title
SVM을 이용한 단백질-RNA 결합부위 예측
Authors
최성욱
Keywords
svm을이용한단백질rna결합부위예측
Issue Date
2012
Publisher
인하대학교
Abstract
단백질과 RNA의 상호작용은 다양한 생물학적 프로세스에서 중요한 역할을 담당하고 있다. 단백질-RNA 상호작용의 정확한 메커니즘을 이해하기 위한 다양한 실험적, 이론적 노력이 기울여지고 있지만, 아직 정확한 메커니즘은 밝혀지지 않았다. 최근 단백질-RNA 복합체의 구조가 다수 밝혀짐에 따라 지도 학습 기법 적용과 같은 여러 이론적 연구들이 단백질에서의 RNA-결합부위를 예측하기위해 수행되었다. 하지만, 선행 연구들은 주어진 단백질과 상호작용하는 상대방 RNA 서열을 고려하지 않아 상호작용 상대방 RNA가 달라져도 주어진 단백질에 대하여 항상 동일한 결합부위를 예측한다. 또한 단백질 서열에서의 RNA-결합부위 예측과는 달리 RNA 서열에서의 단백질-결합부위 예측에 관한 연구는 비교적 적게 수행되었다. RNA 서열에서의 단백질-결합부위 예측 연구가 활발히 수행되지 않는 이유는 RNA의 염기간 결합성향의 차이가 단백질의 아미노산간 결합성향의 차이보다 적기 때문이다. 또 다른 이유로는, RNA 서열로부터 생성되는 서열 패턴의 분별력이 단백질의 그것보다 적어 서열 정보만을 이용하여 결합부위를 예측하기 어렵기 때문이다. 따라서 일반적으로 RNA 서열에서의 단백질-결합부위 예측이 단백질 서열에서의 RNA-결합부위 예측보다 어렵다고 고려된다. 본 논문에서는 서열 데이터를 이용한 학습 데이터 생성시 발생하는 중복 데이터를 제거하기 위한 Feature vector 기반의 중복 데이터 제거 기법을 보이고 있다. 본 연구를 통해 개발된 중복 데이터 제거 기법은 기존에 사용되어왔던 중복 데이터 제거 기법 보다 더욱 다양하고 대표적인 학습 정보를 포함하는 학습 데이터를 생성하게 한다. 학습 데이터 생성 기법의 개발과 더불어 본 연구에서는 잔기 triplet을 고려한 결합 성향 함수를 개발하여 다량의 단백질-RNA 복합체에 대한 잔기 tripelt의 결합성향을 계산하였다. 계산된 잔기 triplet의 결합성향 값과 다양한 수치화 특징을 활용하여 단백질 서열에서의 RNA-결합부위 예측, RNA 서열에서의 단백질-결합부위 예측이 가능한 support vector machine (SVM) 모델을 생성하였다. 본 연구의 결과물로서 단백질 서열 그리고 RNA 서열에서의 정확한 결합부위 예측 기능을 제공하는 웹 서버를 구축하고 이를 PRIdictor로 명명하였다. PRIdictor에서는 결합부위 예측 기능뿐 아니라 단백질-RNA 복합체 검색과 같은 유용한 부가적인 기능들 또한 제공한다. Feature vector 기반의 중복 데이터 제거 기법과 서열 정보만을 이용한 RNA 서열에서의 단백질-결합부위 예측 기능은 본 연구를 통해 최초로 개발한 것이며, 단백질-RNA 상호작용 연구 및 서열 데이터에 대한 기계 학습 기법 적용 연구에 유용하게 사용될 것이라 기대한다.
Description
목 차 그림 목차 vi 표 목차 vii 국문 요약 ⅸ 영문 요약 ⅹ 제 1 장 서 론 1 1.1 연구 배경 1 1.2 관련 연구 2 1.2.1 단백질에서의 RNA 결합부위 예측 선행연구 2 1.2.2 선행연구의 문제점 3 1.3 연구 목적과 범위 6 제 2 장 관련 개념 및 용어 7 2.1 Protein Data Bank (PDB) 7 2.2 Support Vector Machine (SVM) 8 2.2.1 최적화 문제 9 2.2.2 비선형 분리 SVM 11 2.2.3 SVM software 12 제 3 장 단백질-RNA 결합부위 예측 13 3.1 단백질-RNA 결합 데이터 집합 13 3.1.1 단백질-RNA 복합체 구조 데이터의 수집 13 3.1.2 결합부위 정의를 이용한 단백질-RNA 결합 데이터 구성 16 3.1.3 예측 목표에 따른 결합 데이터 구성 19 3.2 단백질-RNA 결합 데이터 분석 22 3.2.1 개별적인 잔기의 결합성향 분석 22 3.2.2 인접한 잔기를 고려한 결합성향 분석 25 3.2.3 Sliding Window 기법을 통한 아미노산, 염기의 패턴 분석 27 3.3 단백질-RNA 결합성향 함수의 개발 30 3.3.1 개별적인 잔기를 고려한 결합 성향 함수 30 3.3.2 잔기 triplet을 고려한 결합성향 함수 32 3.4 학습 데이터 생성을 위한 중복 데이터 제거 기법 34 3.4.1 서열 간 유사도 기반의 중복 데이터 제거 기법의 문제점 34 3.4.2 Feature vector 기반의 중복 데이터 제거 기법 36 3.5 학습 데이터의 생성 및 Feature vector 변환 38 3.5.1 학습 데이터 생성 38 3.5.2 시험 데이터 생성 43 3.5.3 서열 패턴의 Feature vector 변환 44 3.6 예측 모델의 시험과 성능 평가 45 제 4
URI
http://dspace.inha.ac.kr/handle/10505/23566
Appears in Collections:
College of Engineering(공과대학) > Computer Engineering (컴퓨터공학) > Theses(컴퓨터정보공학 석박사 학위논문)
Files in This Item:
24647.pdfDownload

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse