IT 기술/Developer article

(소개) Hadoop을 이용한 분산 데이터 처리, Part 1: 시작

ㅇㅔ ㄷㅡ 2010. 6. 16. 15:22
 최근 들어 클라우드 컴퓨팅에 대한 관심이 많아졌고, 그래서인지 Hadoop(하둡)에 관한 글도 예전보다는 자주 보이는것 같습니다. 최근엔 한글로 된 책도 나왔더군요.
HADOOP 완벽 가이드
카테고리 컴퓨터/IT
지은이 톰 화이트 (한빛미디어, 2010년)
상세보기

 최근에 삼성 SDS에서도 Hadoop 개발 가능자를 구인하는걸 본적이 있습니다. 아마 Private Cloud System을 구축하려는 고객사들이 점점 늘어나는게 아닌가하는 추측을 해봅니다. 최근에 만난 SI 업체의 영업 담당자의 얘기를 들어보니 모 통신사에서 사내 클라우드 컴퓨팅 시스템을 구축하는 프로젝트를 진행했었다고 하던데, 앞으로 배워두면 경력에 큰 도움이 될것 같다고 생각합니다.
 이런 저런 뉴스들을 접하던 중 한국 IBM DeveloperWorks에 Hadoop에 관한 글이 있더군요. 한번 읽어보면 좋을것 같아서 소개합니다.

제목 : Hadoop을 이용한 분산 데이터 처리, Part 1: 시작
부제 : 단순 클러스터 설치 및 구성하기

Hadoop은 일부 대형 검색 엔진에서 데이터 축소를 위한 핵심 기능으로도 사용되고 있기는 하지만 분산 데이터 처리를 위한 프레임워크라는 설명이 더 잘 어울린다. 단순한 데이터가 아니라 검색 엔진에 필요한 데이터 및 검색 엔진에서 수집한 데이터 등과 같은 대용량 데이터의 분산 처리에 적합한 프레임워크이다. 많은 애플리케이션에서는 분산 프레임워크인 Hadoop을 통해 병렬 데이터 처리를 효과적으로 수행할 수 있다.

이 기사는 Hadoop 및 아키텍처를 소개하기 위한 것이 아니라 간단한 Hadoop 설정을 보여 주기 위한 것이다. 참고자료 섹션에서 Hadoop 아키텍처, 컴포넌트 및 작동 원리에 대한 자세한 정보를 볼 수 있다. 해당 면책사항을 검토한 후 Hadoop 설치 및 구성 과정을 살펴보자.