맵리듀스 모델의 성능 향상을 위한 데이터 분배 및 작업 진행 스케쥴링

Title
맵리듀스 모델의 성능 향상을 위한 데이터 분배 및 작업 진행 스케쥴링
Authors
황인성
Keywords
맵리듀스모델의성능향상을위한데이터분배및작업진행스케쥴링
Issue Date
2011
Publisher
인하대학교
Abstract
맵리듀스 는 클러스터를 이루는 여러 컴퓨터를 이용해서 많은 양의 데이터를 빠르게 처리할 수 있는 프로그래밍 모델이다. 이 모델은 특히 분산 처리 컴퓨팅을 구현하는 것을 통해서 클라우드 컴퓨팅 관련 기술로 많은 주목을 받고 있고 이와 관련한 연구들도 많이 진행되고 있다. 현재 맵리듀스 프로그래밍 모델을 이용해서 제공되는 검색 서비스도 존재하며 데이터 마이닝 어플리케이션을 구현하는데 이 모델을 사용하기도 한다. 이 모델은 컴퓨팅 클러스터를 구성하는 여러 컴퓨팅 노드들에게 작업을 분배하고 결과물을 합산하는 방식으로 작업을 진행한다. 맵리듀스를 구현한 하둡 프레임워크는 클러스터를 구성하는 컴퓨팅 노드들의 성능을 동급으로 보고 작업을 분배한다. 하지만 실제로 클러스터를 구성하는 컴퓨팅 노드들의 성능이 다를 수 있고 상황에 따라서 네트워크의 영향을 받을 수 있다. 각 컴퓨팅 노드들의 성능들이 동일하지 않고 네트워크 통신 상태도 변하게 된다면 같은 양의 일을 주어도 그 일을 끝내는 시간이 서로 많이 차이가 나타나게 되고 전체적인 컴퓨팅 성능은 떨어지게 된다. 이런 문제를 해결하기 위해서 데이터를 분배할 때 클러스터의 컴퓨팅 노드의 상태를 예측하고 그 노드의 성능에 맞게 데이터를 분배해 줘야 한다. 본 논문에서는 하둡을 이용해서 맵리듀스 프로그래밍 모델의 성능 향상을 위한 데이터 분배 스케쥴링 방법을 제안한다. 그래서 스케쥴링을 설계하는데 있어서 컴퓨팅 노드의 성능과 네트워크의 상태를 고려한 후 각각의 컴퓨팅 노드에게 효율적으로 분배하는 방법을 제안했다. 또 Map 태스크 단계와 Reduce 태스크 단계로 나누어지는 맵리듀스 의 실행 형태에서 Reduce 단계를 좀 더 빠르게 시작하는 방법을 통해서 전체적인 컴퓨팅의 성능이 향상되는 방법을 제안한다. 제안된 방법은 대표적인 두 개의 맵리듀스 어플리케이션을 이용하여 실험하고 조건에 따라 성능에 어떠한 결과를 미치는지 평가했다.
Description
목 차 요 약 i Abstract ii 제1장 서 론 1 제2장 맵리듀스와 하둡의 고찰 4 2.1 맵리듀스의 개요 4 2.2 하둡 프로젝트 6 2.3 맵리듀스 프로세스 진행과정 7 제3장 설계 및 구현 12 3.1 입력 데이터 분배 스케쥴링 디자인 12 3.2 Quick Start Reduce Task 스케쥴링 디자인 15 제4장 실험 및 평가 17 4.1 실험 환경 17 4.2 Quick Start Reduce Tast 스케쥴링 평가 18 4.3 입력 데이터 분배 스케쥴링 평가 19 4.4 Default 하둡 과 제안된 스케쥴링 비교 평가 20 제5장 결 론 22 참고 문헌 23
URI
http://dspace.inha.ac.kr/handle/10505/22686
Appears in Collections:
College of Engineering(공과대학) > Information and Communication Engineering (정보통신공학) > Theses(정보통신공학 석박사 학위논문)
Files in This Item:
23715.pdfDownload

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse