아파치 하둡
개발자 | 아파치 소프트웨어 재단 |
---|---|
발표일 | 2011년 12월 10일[1] |
안정화 버전 | |
저장소 | |
프로그래밍 언어 | 자바 |
운영 체제 | 크로스 플랫폼 |
종류 | 분산 파일 시스템 |
라이선스 | 아파치 라이선스 2.0 |
상태 | 지원 중 |
웹사이트 | hadoop |
아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다[3]. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것이다.[4]
베이스 아파치 하둡 프레임워크는 다음의 모듈을 포함하고 있다.
- 하둡 커먼(Hadoop Common)
- 하둡 분산 파일 시스템(HDFS)
- 하둡 YARN
- 하둡 맵리듀스
역사
[편집]하둡은 2006년 더그 커팅과 마이크 캐퍼렐라(Mike Cafarella)가 개발하였다.[5] 당시 커팅은 야후에서 일하고 있었으며[6], 이후 하둡은 아파치(Apache) 재단으로 넘어가 공개 소프트웨어로 개발되고 있다. 하둡은 구글의 분산 파일 시스템(GFS) 논문이 공개된 후, 그 구조에 대응하는 체계로 개발되었다. 하둡의 로고는 노란색 아기 코끼리로 표시한다. 이는 하둡의 개발자인 더그 커팅이 자신의 아이가 가지고 놀던 장난감 코끼리의 이름을 따서 하둡이라는 이름을 지었기 때문이다.[7] 코끼리는 빅 데이터(Big Data)를 상징하는 동물이다. 2011년 오픈 소스 아파치 하둡(Apache Hadoop) 사업을 위해 야후에서 분사한 기업의 이름을 지을 때도, 코끼리가 주인공인 동화에 나오는 코끼리 이름인 호튼(Horton)을 따와서 호튼웍스(Hortonworks)라고 회사명을 지었다.
아키텍처
[편집]하둡은 하둡 공통 패키지로 구성되어 있다. 이 패키지에는 하둡 파일 시스템(HDFS), OS 수준 앱스트랙션(OS level abstractions) 그리고 맵리듀스(MapReduce) 엔진이 포함되어 있다.[8] 또한 필요한 자바 아카이브 파일(Java ARchive, JAR)들과 하둡을 시작할 스크립트, 소스 코드들과 관련 자료들로 구성되어 있다.
작은 하둡 클러스터에는 하나의 마스터와 여러 워커 노드들로 구성되어 있다. 마스터 노드들은 잡트렉커(JobTracker), 테스크트렉커(TaskTracker), 네임노드(NameNode), 데이터노드(DataNode)로 구성 된다. 슬레이브 또는 워커 노드(Worker Node)는 데이터노드와 테스크트렉커로서 동작을 한다. 하둡은 자바 런타임 환경(Java Runtime Environment, JRE) 1.6 또는 그보다 높은 버전이 필요하다. 일반 시작 및 종료를 위한 스크립트는 클러스터의 노드들간 설정을 하기 위해 시큐어 셸(Secure Shell, ssh)이 필요하다.[9]
대용량 하둡 클러스터에는 HDFS가 파일 시스템 인덱스를 관장하기 위한 네임노드 전담 서버를 통해 관리된다. 그리고 2차 네임노드는 네임노드의 메모리 구조 스냅샷을 만들어서 파일시스템에 장애나 데이터의 손실을 줄여준다. 단독 쟙트렉커 서버는 작업 스케줄링을 관리한다.[10]
하둡 분산 파일 시스템
[편집]하둡 분산 파일 시스템(HDFS, Hadoop distributed file system)은 하둡 프레임워크를 위해 자바 언어로 작성된 분산 확장 파일 시스템이다. HDFS은 여러 기계에 대용량 파일들을 나눠서 저장을 한다. 데이터들을 여러 서버에 중복해서 저장을 함으로써 데이터 안정성을 얻는다. 따라서 호스트에 RAID 저장장치를 사용하지 않아도 된다.
하둡 분산 파일 시스템은 다음과 같은 시스템에서 잘 동작하는 것을 목표로 하고 있다[11].
- 하드웨어 오동작:하드웨어 수가 많아지면 그중에 일부 하드웨어가 오동작하는 것은 예외 상황이 아니라 항상 발생하는 일이다. 따라서 이런 상황에서 빨리 자동으로 복구하는 것은 HDFS의 중요한 목표다.
- 스트리밍 자료 접근: 범용 파일 시스템과 달리 반응 속도보다는 시간당 처리량에 최적화되어 있다.
- 큰 자료 집합: 한 파일이 기가바이트나 테라바이트 정도의 크기를 갖는 것을 목적으로 설계되었다. 자료 대역폭 총량이 높고, 하나의 클러스터에 수 백개의 노드를 둘 수 있다. 하나의 인스턴스에서 수천만여 파일을 지원한다.
- 간단한 결합 모델: 한번 쓰고 여러번 읽는 모델에 적합한 구조이다. 파일이 한번 작성되고 닫히면 바뀔 필요가 없는 경우를 위한 것이다. 이렇게 함으로써 처리량을 극대화할 수 있다.
- 자료를 옮기는 것보다 계산 작업을 옮기는 것이 비용이 적게 든다: 자료를 많이 옮기면 대역폭이 많이 들기 때문에 네트워크 혼잡으로 인하여 전체 처리량이 감소한다. 가까운 곳에 있는 자료를 처리하게 계산 작업을 옮기면 전체적인 처리량이 더 높아진다.
- 다른 종류의 하드웨어와 소프트웨어 플랫폼과의 호환성: 서로 다른 하드웨어와 소프트웨어 플랫폼들을 묶어 놓아도 잘 동작한다.
네임노드와 데이터노드
[편집]HDFS는 마스터/슬레이브(master/slave) 구조를 가진다. HDFS 클러스터는 하나의 네임노드와, 파일 시스템을 관리하고 클라이언트의 접근을 통제하는 마스터 서버로 구성된다. 게다가 클러스터의 각 노드에는 데이터노드가 하나씩 존재하고, 이 데이터 노드는 실행될 때마다 노드에 추가되는 스토리지를 관리한다. HDFS는 네임스페이스를 공개하여서 유저 데이터가 파일에 저장되는 것을 허락한다. 내부적으로 하나의 파일은 하나 이상의 블록으로 나뉘어 있고, 이 블록들은 데이터노드들에 저장되어 있다. 네임노드는 파일과 디렉터리의 읽기(open), 닫기(close), 이름 바꾸기(rename) 등 파일시스템의 네임스페이스의 여러 기능을 수행한다. 또한 데이터 노드와 블록들의 맵핑을 결정한다. 데이터 노드는 파일시스템의 클라이언트가 요구하는 읽기(read), 쓰기(write) 기능들을 담당한다. 또한 데이터 노드는 네임노드에서의 생성, 삭제, 복제 등과 같은 기능도 수행한다.
네임노드와 데이터노드는 GNU/Linux OS를 기반으로 하는 상용머신에서 실행하기 위해 디자인된 소프트웨어의 일부이다. HDFS는 자바 언어를 사용하므로 자바가 동작하는 어떠한 컴퓨터에서나 네임노드나 데이터노드 소프트웨어를 실행할 수 있다.
이용 사례
[편집]하둡은 다양한 기업에서 사용되고 있다. 야후, 페이스북 등이 하둡을 서비스의 여러 부분에 많이 사용하고 있는 것으로 알려져 있다.[12] 또한 데이터 분석 기업들이 하둡을 기반으로 플랫폼을 구축하고 있다.[13]
같이 보기
[편집]- Apache Accumulo
- 아파치 카산드라
- Apache CouchDB
- 아파치 머하웃
- 아파치 스쿱
- 아파치 주키퍼
- 빅 데이터
- 클라우드 컴퓨팅
- Datameer
- HBase
- Hypertable
- MapReduce
- 너치(Nutch)
- Pentaho
- Simple Linux Utility for Resource Management
- Talend
각주
[편집]- ↑ “Hadoop Releases”. 《apache.org》. Apache Software Foundation. 2014년 12월 6일에 확인함.
- ↑ 가 나 다 “Apache Hadoop”. 2022년 9월 27일에 확인함.
- ↑ (영어)"Hadoop is a Lucene sub-project that contains the distributed computing platform that was formerly a part of Nutch. This includes the Hadoop Distributed Filesystem (HDFS) and an implementation of map/reduce." About Hadoop Archived 2007년 9월 9일 - 웨이백 머신
- ↑ (영어)"Hadoop is a framework for running applications on large clusters of commodity hardware. The Hadoop framework transparently provides applications both reliability and data motion. Hadoop implements a computational paradigm named map/reduce, where the application is divided into many small fragments of work, each of which may be executed or reexecuted on any node in the cluster. In addition, it provides a distributed file system that stores data on the compute nodes, providing very high aggregate bandwidth across the cluster. Both map/reduce and the distributed file system are designed so that node failures are automatically handled by the framework." About Hadoop Archived 2007년 9월 9일 - 웨이백 머신
- ↑ “Michael J. Cafarella”. Web.eecs.umich.edu. 2013년 4월 5일에 확인함.
- ↑ “Hadoop creator goes to Cloudera”. 2016년 1월 28일에 확인함.
- ↑ Ashlee Vance (2009년 3월 17일). “Hadoop, a Free Software Program, Finds Uses Beyond Search”. 《New York Times》. 2010년 2월 11일에 원본 문서에서 보존된 문서. 2010년 1월 20일에 확인함.
- ↑ Harsh Chouraria (2012년 10월 21일). “MR2 and YARN Briefly Explained”. 《cloudera.com》. Cloudera. 2013년 10월 22일에 원본 문서에서 보존된 문서. 2013년 10월 23일에 확인함.
- ↑ “Running Hadoop on Ubuntu Linux (Single-Node Cluster)”. 2013년 6월 6일에 확인함.
- ↑ “How to install Hadoop and Set up a Hadoop cluster?”. 2019년 5월 3일에 확인함.
- ↑ “(영어)The Hadoop Distributed File System: Architecture and Design Apache Software Foundation”. 2012년 3월 3일에 원본 문서에서 보존된 문서. 2012년 2월 16일에 확인함.
- ↑ (영어) 페이스북 하둡 사용
- ↑ “국내 하둡 3인방이 준비하는 ‘플랫폼’은”. 블로터. 2012년 3월 23일. 2012년 3월 27일에 원본 문서에서 보존된 문서. 2012년 4월 4일에 확인함.
외부 링크
[편집]위키미디어 공용에 아파치 하둡 관련 미디어 분류가 있습니다.
- (영어) 아파치 하둡 - 공식 웹사이트