Hadoop 이 뭐지?

빅 데이터에 대해서는 점차 자세히 알아 보고 개념을 구체화 시키도록 하고, 이번에는 Hadoop 에 대해서 간략하게 정리해 보도록 한다. 
 
Big Data 란? 
 
정보토신산업진흥원(ETRI) 에서는 빅 데이터는 "기존 데이터에 비해서 너무 크기 때문에 기존 방법이나 도구로 수집, 저장, 검색, 분석, 시각화가 어려운 정형 또는 비 정형 데이터를 의미한다." 고 정의하고 있다. 
 
그러나 빅 데이터는 단순히 정량적인 차원으로만 접근해서는 한계가 존재한다. 데이터라는 것은 지속적으로 발전 증가하는 과정에 있고, 산업별 / 시장별로 다르게 적용되기 때문이다. 따라서 빅 데이터를 이해하기 위해서는 빅 데이터의 3 대 요소를 이해할 필요가 있다. 3 대 요소란 "크기 (Volume), 속도 (Velocity), 다양성 (Variety)" 이라고 보면 된다. 
 
Volume 
<ul>
<li>Terabytes</li>
<li>Records</li>
<li>Transactions</li>
<li>Tables</li>
<li>Files</li>
</ul>
Velocity 
<ul>
<li>Batch</li>
<li>Near time</li>
<li>Real time</li>
<li>Streams</li>
</ul>
Variety 
<ul>
<li>Structured</li>
<li>Unstructured</li>
<li>Semistructured</li>
<li>All the above</li>
</ul>
데이터 양은 인류가 지금까지 생산한 데이터보다 최근 2년에 만들어진 데이터가 더 많을 것이라는 이야기가 있을 정도다. 그 만큼 양도 양이지만, 데이터의 종류 또한 매우 다양한다. 이렇게 급격한 데이터의 급증에는 "컴퓨팅, 모바일의 발전, SNS 매체" 라는 환경이 존재하면서 부터이다. 페이스북이나 트위터와 같은 SNS 의 출현이 데이터의 양의 폭발을 촉진하게 된 것이다. 
 
빅 데이터라는 것은 결국 이렇게 많은 데이터들 중에서 전혀 연관이 없어 보이는 다량의 데이터를 분석하여 그 속에서 의미있는 정보나 패턴을 읽어내어 다변화된 현대 사회를 보다 정확하게 예측하기 위한 것이다. 
 
KBS1 에서 방영된 프로그램에서는 샌프란시스코의 빅 데이터 활용 사례를 통해서 부동산, 범죄 등 100여 개의 데이터 묶음을 일반인에게 공개했다. 즉, 강력범죄는 도심에서 많이 발생하고, 마약 범죄는 강력 범죄가 많이 발생하는 곳에서 자주 발생한다는 유추이다. 이런 의미있는 정보를 통해서 사람들이 거주지를 결정하는데 도움을 얻을 수 있으며, 그리고 경찰에서도 범죄가 일어날 장소에 경찰을 더 배치하여 범죄 발생률을 낮추는 예방 시스템을 구축할 수 있다. 
 
여기서 궁금한 점이 있을 것이다. 과거에는 이런 데이터가 필요 없었을까? 
 
<ul>
<li>저장 기술의 부족, 지금까지는 발생하는 데이터를 모두 저장하기에 기술이 따라오지를 못하였지만, 지금은 디지털 기술의 발전과 디지털 장치의 확산으로 가능한 모든 데이터를 기록 할 수 있게 되었다.</li>
<li>저장 비용의 과다, 1980년대에 1GB 저장을 위해서는 무러 100만 달러 (약 10억)의 비용이 들었지만, 지금은 1GB 저장에 0.1 달러 (약 100원) 미만으로 떨어져 사소한 것들이라도 저장하는 부담이 적다.</li>
<li>취합된 데이터의 분석 시간, 과거에는 데이터를 읽어 들이는데도 너무나 많은 시간이 소비되어 분석이 되도 필요한 시간에 결과를 반영할 수 없었지만, 현재는 병렬분산처리 기술 (클러스터) 등이 활성화 되면서 빠른 처리가 가능해졌다.</li>
</ul>
IT 업계의 큰 화두인 "Big Data"를 논하면 반드시 따라오는 단어 "Hadoop" 이란 무엇일까? 
 
더그 커팅과 마이크 카파렐라에 의해서 개발된 하둡은 쉽게 방대한 양의 데이터를 분산 처리하여 빠른 시간 안에 결과를 제공하는 오픈소스 기반의 데이터 관리 기술을 의미한다. 즉, 분산 시스템에서 대량의 자료를 처리하는 자바 프레임워크인 것이다. 
 
하둡의 태동은 구글과 연계되어 있다. 구글이 설립 초기부터 대규모 자료를 검색하고 분석하는데 사용한 분산 파일 시스템인 GFS (Goole File System) 와 분산처리 시스템 (MapReduce)에 대한 논문을 참고하여 구현한 것이기 때문이다. 
 
하둡은 GFS 를 대체할 수 있는 HDFS (하둡 분산 파일 시스템) 와 MapReduce 알고리즘을 구현한 프레임워크이고 하둡이라는 이름은 더크 커팅의 아들이 가지고 놀던 장난감 코끼리의 이름을 따서 붙인 것으로 전해지고 있다. 그래서 하둡의 심볼도 노란 코끼리다. 
 
MapReduce 는 다수의 컴퓨터에서 데이터를 분산 처리하여, 그 결과를 추려내는 데이터 프로세싱 기법을 의미한다. 지금까지의 데이터 분석 기술은 컴퓨터 한대의 메모리와 파일 시스템, 데이터베이스에 데이터를 저장한 후에 이를 기반으로 데이터를 분석하는 알고리즘을 실행하는 구조였다. 따라서 메모리에 데이터를 로딩하여야 하고, 처리하기 때문에 많은 시간이 소비될 수 밖에는 없었다. 
 
대표적인 하둡 솔루션 업체는 클라우데라 (Cloudera) 와 호튼웍스 (Hortonworks) 가 있다. 클라우데라는 빅 데이터와 클라우드 시장의 교육 및 기술지원을 제공하고 있고, 호튼웍스는 하둡의 코어 기술과 아키텍처 개선을 담당하고 있다. 또한 IBM은 아파치 하둡을 기반으로 Basic, Enterprise 배포판을 운영하고 있으며, 오라클은 자신들의 하드웨어에 클라우데라를 결함한 하둡 어플라이언스를 제공하고 있다. 
 
아래의 그림은 하둡의 에코 시스템을 도식화 한 것이다. 
(출처 : <a href="http://www.flickr.com/photos/_after8_/4002604072">http://www.flickr.com/photos/_after8_/4002604072</a>) 
 
<img alt="" height="544" loading="lazy" src="http://cfile4.uf.tistory.com/image/1739594F4FDFE5F02B879F" style="background-color: white; border: 0px; color: #333333; font-family: 'Malgun Gothic', Dotum, 'Lucida Grande', 'Lucida Sans Unicode', Helvetica, Arial, Verdana, Verdana, sans-serif; font-size: 13px; letter-spacing: -1px; line-height: 25px; text-align: center; word-spacing: 1px;" width="600" /> 
 
지금도 데이터는 생성되고, 저장되고, 분석되고 있다. 그러나 우리가 이런 데이터들을 제대로 활용하고 있는지 생각해 볼 필요가 있다. 데이터를 많이 가지고 있다고 해서 가치가 있는 것은 아니지만 잘 처리된 데이터는 의사 결정을 하는데 필요한 의미를 가질 수 있다. 세상은 복잡하지만 그 안에는 어떤 흐름이 존재하고, 유의미한 정보가 존재하기 마련이다. 하둡의 등장으로 이런 데이터들에 대한 분석이 시도되고, 세상에 대한 데이터의 영향력은 점점 더 커지게 된다. 이런 이유들이 하둡에 주목하게 되는 것이다. 
 
단, Hadoop 이 Big Data 의 전부인 것처럼 굳어져 가는 것 같은데 (나만 그렇게 생각하나? -_-) 단지, 가장 근접하고 현실적으로 사용하기에 적합한 것일 뿐이라는 것을 잊지 말고 좀 더 넓게 바라보는 시각이 필요하다.

빅 데이터에 대해서는 점차 자세히 알아 보고 개념을 구체화 시키도록 하고, 이번에는 Hadoop 에 대해서 간략하게 정리해 보도록 한다.

Big Data 란?

정보토신산업진흥원(ETRI) 에서는 빅 데이터는 “기존 데이터에 비해서 너무 크기 때문에 기존 방법이나 도구로 수집, 저장, 검색, 분석, 시각화가 어려운 정형 또는 비 정형 데이터를 의미한다.” 고 정의하고 있다.

그러나 빅 데이터는 단순히 정량적인 차원으로만 접근해서는 한계가 존재한다. 데이터라는 것은 지속적으로 발전 증가하는 과정에 있고, 산업별 / 시장별로 다르게 적용되기 때문이다. 따라서 빅 데이터를 이해하기 위해서는 빅 데이터의 3 대 요소를 이해할 필요가 있다. 3 대 요소란 “크기 (Volume), 속도 (Velocity), 다양성 (Variety)” 이라고 보면 된다.

Volume

Terabytes
Records
Transactions
Tables
Files

Velocity

Batch
Near time
Real time
Streams

Variety

Structured
Unstructured
Semistructured
All the above

데이터 양은 인류가 지금까지 생산한 데이터보다 최근 2년에 만들어진 데이터가 더 많을 것이라는 이야기가 있을 정도다. 그 만큼 양도 양이지만, 데이터의 종류 또한 매우 다양한다. 이렇게 급격한 데이터의 급증에는 "컴퓨팅, 모바일의 발전, SNS 매체" 라는 환경이 존재하면서 부터이다. 페이스북이나 트위터와 같은 SNS 의 출현이 데이터의 양의 폭발을 촉진하게 된 것이다.

빅 데이터라는 것은 결국 이렇게 많은 데이터들 중에서 전혀 연관이 없어 보이는 다량의 데이터를 분석하여 그 속에서 의미있는 정보나 패턴을 읽어내어 다변화된 현대 사회를 보다 정확하게 예측하기 위한 것이다.

KBS1 에서 방영된 프로그램에서는 샌프란시스코의 빅 데이터 활용 사례를 통해서 부동산, 범죄 등 100여 개의 데이터 묶음을 일반인에게 공개했다. 즉, 강력범죄는 도심에서 많이 발생하고, 마약 범죄는 강력 범죄가 많이 발생하는 곳에서 자주 발생한다는 유추이다. 이런 의미있는 정보를 통해서 사람들이 거주지를 결정하는데 도움을 얻을 수 있으며, 그리고 경찰에서도 범죄가 일어날 장소에 경찰을 더 배치하여 범죄 발생률을 낮추는 예방 시스템을 구축할 수 있다.

여기서 궁금한 점이 있을 것이다. 과거에는 이런 데이터가 필요 없었을까?

저장 기술의 부족, 지금까지는 발생하는 데이터를 모두 저장하기에 기술이 따라오지를 못하였지만, 지금은 디지털 기술의 발전과 디지털 장치의 확산으로 가능한 모든 데이터를 기록 할 수 있게 되었다.
저장 비용의 과다, 1980년대에 1GB 저장을 위해서는 무러 100만 달러 (약 10억)의 비용이 들었지만, 지금은 1GB 저장에 0.1 달러 (약 100원) 미만으로 떨어져 사소한 것들이라도 저장하는 부담이 적다.
취합된 데이터의 분석 시간, 과거에는 데이터를 읽어 들이는데도 너무나 많은 시간이 소비되어 분석이 되도 필요한 시간에 결과를 반영할 수 없었지만, 현재는 병렬분산처리 기술 (클러스터) 등이 활성화 되면서 빠른 처리가 가능해졌다.

IT 업계의 큰 화두인 "Big Data"를 논하면 반드시 따라오는 단어 "Hadoop" 이란 무엇일까?

더그 커팅과 마이크 카파렐라에 의해서 개발된 하둡은 쉽게 방대한 양의 데이터를 분산 처리하여 빠른 시간 안에 결과를 제공하는 오픈소스 기반의 데이터 관리 기술을 의미한다. 즉, 분산 시스템에서 대량의 자료를 처리하는 자바 프레임워크인 것이다.

하둡의 태동은 구글과 연계되어 있다. 구글이 설립 초기부터 대규모 자료를 검색하고 분석하는데 사용한 분산 파일 시스템인 GFS (Goole File System) 와 분산처리 시스템 (MapReduce)에 대한 논문을 참고하여 구현한 것이기 때문이다.

하둡은 GFS 를 대체할 수 있는 HDFS (하둡 분산 파일 시스템) 와 MapReduce 알고리즘을 구현한 프레임워크이고 하둡이라는 이름은 더크 커팅의 아들이 가지고 놀던 장난감 코끼리의 이름을 따서 붙인 것으로 전해지고 있다. 그래서 하둡의 심볼도 노란 코끼리다.

MapReduce 는 다수의 컴퓨터에서 데이터를 분산 처리하여, 그 결과를 추려내는 데이터 프로세싱 기법을 의미한다. 지금까지의 데이터 분석 기술은 컴퓨터 한대의 메모리와 파일 시스템, 데이터베이스에 데이터를 저장한 후에 이를 기반으로 데이터를 분석하는 알고리즘을 실행하는 구조였다. 따라서 메모리에 데이터를 로딩하여야 하고, 처리하기 때문에 많은 시간이 소비될 수 밖에는 없었다.

대표적인 하둡 솔루션 업체는 클라우데라 (Cloudera) 와 호튼웍스 (Hortonworks) 가 있다. 클라우데라는 빅 데이터와 클라우드 시장의 교육 및 기술지원을 제공하고 있고, 호튼웍스는 하둡의 코어 기술과 아키텍처 개선을 담당하고 있다. 또한 IBM은 아파치 하둡을 기반으로 Basic, Enterprise 배포판을 운영하고 있으며, 오라클은 자신들의 하드웨어에 클라우데라를 결함한 하둡 어플라이언스를 제공하고 있다.

아래의 그림은 하둡의 에코 시스템을 도식화 한 것이다.
(출처 : http://www.flickr.com/photos/_after8_/4002604072)

지금도 데이터는 생성되고, 저장되고, 분석되고 있다. 그러나 우리가 이런 데이터들을 제대로 활용하고 있는지 생각해 볼 필요가 있다. 데이터를 많이 가지고 있다고 해서 가치가 있는 것은 아니지만 잘 처리된 데이터는 의사 결정을 하는데 필요한 의미를 가질 수 있다. 세상은 복잡하지만 그 안에는 어떤 흐름이 존재하고, 유의미한 정보가 존재하기 마련이다. 하둡의 등장으로 이런 데이터들에 대한 분석이 시도되고, 세상에 대한 데이터의 영향력은 점점 더 커지게 된다. 이런 이유들이 하둡에 주목하게 되는 것이다.

단, Hadoop 이 Big Data 의 전부인 것처럼 굳어져 가는 것 같은데 (나만 그렇게 생각하나? -_-) 단지, 가장 근접하고 현실적으로 사용하기에 적합한 것일 뿐이라는 것을 잊지 말고 좀 더 넓게 바라보는 시각이 필요하다.

OData 에 대해서 알아보자.

얼마 전에 어떤 회사에 인터뷰를 하러 간 적이 있었다. 당시 그 회사는 자체 솔루션을 개발할 기술인력을 찾고 있었고 내부적으로 OData를 사용한다고 했다. 좀 창피한 이야기일 수도 있지만 나름 기술적인 부분에서는 많은 정보를 가지고 있다고 했던 것이 무색하게 OData란 단어를 그 회사 사장님에게서 처음 들었다. 작고, 단순한 사이트들만을 계속해서 작업을 하다 보니 어느덧 큰 줄기들을 잃어버린 것을 느끼기 시작했다. 명색이 개발이 좋고, 기술적인 기반을 만들려고 하는 인간이 단어조차도 모른다는 것은 있을 수 없는 것이라서 다시 새로운 단어들과 개념들을 알아보는 시간을 가지려고 한다. OData (Open Data Protocol) 란? 간단히 정리하면 웹 상에서 손쉽게 데이터를 조회하거나 수정할 수 있도록 주고 받는 웹(프로토콜)을 말한다. 서비스 제공자 입장에서는 웹으로 데이터를 제공하는 방식으로 각 포탈 사이트들이 제공하는 OPEN API 포맷을 독자적인 형식이 아니라 오픈된 공통규약으로 제공 가능하며, 개발자는 이 정보를 다양한 언어의 클라이언트 라이브러리로 어플리케이션에서 소비할 수 있도록 사용하면 된다. 공식 사이트는 www.odata.org 이며 많은 언어들을 지원하고 있다. 좀더 상세하게 정의를 해 보면 OData는 Atom Publishing Protocol (RFC4287) 의 확장 형식이고 REST (REpresentational State Transfer) Protocol 이다. 따라서 웹 브라우저에서 OData 서비스로 노출된 데이터를 볼 수 있다. 그리고 AtomPub 의 확장이라고 했듯이 데이터의 조회만으로 한정되는 것이 아니라 CRUD 작업이 모두 가능하다. Example 웹 브라우저에서 http://services.odata.org/website/odata.svc 를 열어 보도록 하자. This XML file does not appear to have any style in...

자세한 내용 보기

MSFL :: 모리스 소프트웨어 공작소

이 블로그 검색

Hadoop 이 뭐지?

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

OData 에 대해서 알아보자.

C# 에서 Timer 사용할 때 주의할 점.

[Logging] NLog 사용법 정리...