상단

BigData를 정리 합니다.

 

BigData 개요


빅데이터의 정의

  • 기존 데이터에 비해 너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장, 처리, 분석, 시각화 등을 하기 어려운 정형 또는 비정형 데이터의 집합
    {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
    |- 
    |width="30%" align="center" valign="middle" style="background-color:#eee;"|초점 
    |width="70%" align="center" valign="middle" style="background-color:#eee;"|정의 |- |align="center" valign="middle"|데이터 규모
    (맥킨지, 2011.5) 
    |align="left" valign="middle"|

    기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터
    align="center" valign="middle"
    align="left" valign="middle"
    다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
    }
 

빅데이터의 3대 요소(3V)

BigData는 크기(Volume)가 크고 변화(Velocity)의 속도가 빠르며 데이터의 속성이 다양(Variety)한 데이터를 입니다. BigData의 핵심 기술은 대규모 저장 시스템과 효과적인 데이터 처리 기술 입니다. 
3대 요소 가운데 두가지 이상의 요소만 충족하면 빅데이터라고 볼 수 있습니다. 비즈니스 측면에서는 3V에 Value를 추가하여 4V를 사용 합니다.

{|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
|- |width="30%" align="center" valign="middle" style="background-color:#eee;"|Volume
(데이터의 규모) 
|width="70%"|

  • 대규모의 데이터 (100 TB 이상의 데이터)

    • kB (10^3, 2^10, KiloByte), MB (10^6, 2^20, MegaByte), GB (10^9, 2^30, GigaByte)

    • TB (10^12, 2^40, TeraByte), PB (10^15, 2^50, PetaByte), EB (10^18, 2^60, ExaByte)

    • ZB (10^21, 2^70, ZettaByte), YB (10^14, 2^80, YottaByte)

  • 메모리 기반 분석, 분산 컴퓨팅

  • Collective intelligence (집단 지성)
    align="center" valign="middle" style="background-color:#eee;"
  • 데이터 소스의 수와 종류의 다양성

  • 정형 데이터, 반정형 데이터, 비정형 데이터

  • Crowd sourcing (클라우드 소싱)
    align="center" valign="middle" style="background-color:#eee;"
  • 데이터의 짧은 변경 주기

  • 실시간 또는 스트리밍 처리, 배치 처리

  • CEP (Complex Event Processing)

  • Machine learning (기계 학습)
    align="center" valign="middle" style="background-color:#eee;"
  • 기업이 원하는 비즈니스의 목표에 부합되는 가치를 제공 (새로운 가치)

  • 빅데이터 분석 방법론
    |}

 

파일:Bigdata 3v.png

 

BigData 관련 표준화 동향

  • ISO/IEC JTC 1/SC32 : 데이터 관리 및 교환 (데이터 표현)

  • ISO/IEC JTC 1/SC23 : 정보 교환 및 저장 (데이터 압축 및 저장)

  • ISO/IEC JTC 1/SC27 : 보안

  • ISO/IEC JTC 1/SC29 WG11 (MPEG) : 정규화 및 자연어 처리

  • ISO/IEC JTC 1/SC7 (ISO/IEC 25012) : 소스트웨어와 시스템 공학 기술

  • ITU-T SG13 : 클라우드 기반의 빅데이터 분석

  • ITU-T SG16 : 멀티미디어 빅데이터

  • ITU-T SG17 : 사생활 보호

  • W3C BigData CG : 빅데이터 처리를 위한 표준 구조, 프로그램 API

  • ODCA (Open Data Center Alliance) : 데이터 수집/관리/분석 표준, BI와 상호 운영성 표준

  • ODI (Open Data Institute) : 공공 데이터 공유 및 개방

 
 

빅데이터 증가 현황

  • 2012년 생성된 디지털 정보량은 2.8ZB, 2년마다 2배씩 증가해 2020년 40ZB(IDC, 2011)

  • 2010년 ~ 2015년 모바일 연평균 92%, 인터넷은 연평균 34% 트래픽 증가 (Cisco, 2011)

  • SNS, Mobile, M2M의 급속한 성장

 
 

{|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
|- |width="30%" align="center" valign="middle" style="background-color:#eee;"|SNS |width="70%"|

  • 트위터 : 2억 사용자 / 5억 가입자, 매년 3.4억건의 메시지

  • 페이스북 : 10억 가입자, 매일 5억건 이상의 Linkes
    align="center" valign="middle" style="background-color:#eee;"
  • SKT : 하루 트래픽 1PB (1024TB)

  • 2017년 대한민국 5.4EB 모바일 트래픽 (2012년 대비 11배 성장)

  • 2017년 100억 기기 / 76억 인구

  • 2017년 모바일 데이터 트래픽 134EX (1억 3400만 TB), 연평균 성장률 66%
    align="center" valign="middle" style="background-color:#eee;"
  • 2012년 생성된 디지털 정보량은 2.8ZB, 2년마다 2배씩 증가해 2020년 40ZB (IDC)

  • 2011년 : 1.8 ZB (18억 TB)

  • 2012년 : 2.8 ZB

  • 2020년 : 40.0 ZB

  • GB -> TB -> PB -> EB -> ZB -> YB
    align="center" valign="middle" style="background-color:#eee;"
  • 전세계 데이터의 90%가 최근 2년 안에 생성

  • 기업 데이터량은 10개 중 9개 기업에서 급속히 증가, 16% 기업은 매년 50% 이상의 증가율을 경험
    |}

  • 국내 디지털 데이터량 (IDC & 한국EMC)

    • 2006 : 2.891 페타바이트

    • 2007 : 4,401 페타바이트

    • 2008 : 7,218 페타바이트

    • 2009 : 12,105 페타바이트

    • 2010 : 18,415 페타바이트

    • 2011 : 27,237 페타바이드 (27 엑사바이트) 예상 (연평균 56.6% 증가)

 
 

BigData 2.0 개요


빅데이터 1.0이 BigData를 수집하고 이해하고 이를 활용하는 단계라면 빅데이터 2.0은 기업의 의사결정 과정에 BigData를 적극적으로 통합하는 단계 입니다. 다시 말하면 비즈니스의 목표를 달성하기 위해서 적극적인 방식으로 BigData를 활동하는 단계 입니다.

 
  • BigData 2.0의 3대 요소
    {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
    |- 
    |width="35%" align="center" valign="middle" style="background-color:#eee;"|고객의 행동을 형성
    (Shaping customer behavior) 
    |width="65%"|

  • BigData 1.0이 빅데이터로부터 정보를 추출하여 고객의 행동을 예측 하여다면, BigData 2.0은 기업의 통제 가능한 전략 수단이 고객의 행동에 미치는 영향을 분석하여 적극적으로 고객의 행동을 통제 합니다.

  • 고객 행동에 거꾸로 영향을 미치게 합니다.
    align="center" valign="middle" style="background-color:#eee;"
  • BigData 1.0이 기존의 영업과 마케팅 등의 효율성을 강화 하였다면, BigData 2.0은 빅데이터 분석을 통해 부가적으로 추출한 정보를 활용하여 추가적인 영업기회(신상품/서비스 창출)를 발굴 합니다.

  • 분석 결과를 토대로 신상품과 서비스를 개발 합니다.
    align="center" valign="middle" style="background-color:#eee;"
  • BigData 1.0이 기업이 보유/수집한 빅데이터를 분석 하였다면, BigData 2.0은 생태계와 같이 분석 대상이 되는 빅데이터의 범위를 확장/결합하여 분석의 가치를 극대화 합니다.

  • 비즈니스 인사이트 축적을 위해 데이터 범위를 확장 합니다.
    |}

  • 참고 문헌

 
 

BigData 업체


국내 BigData 업체

{|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
|- |width="20%" align="center" valign="middle" style="background-color:#eee;"|업체 |width="20%" align="center" valign="middle" style="background-color:#eee;"|제품

|width="60%" align="center" valign="middle" style="background-color:#eee;"|상세 
|- |align="center" valign="middle" style="background-color:#eee;"|넥스알
(NexR)
 
|align="center"|NDAP |

  • NDAP (NexR Data Analytics Platform, 넥스알 데이터 분석 플랫폼)

  • RHive, RStudio를 오픈소스로 공개

  • 2010년 12월 KT에 인수됨

  • NexR이 한국정보통신기술협회(TTA)로부터 소프트웨어 품질인증(GS인증)을 받음

  • 사용 오픈소스

     
  • KT : KT 통신 로그 데이터 분석 시스템 (기존 시스템과 하이브리드 형태로 구성)
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 빅데이터 플랫폼(BAAS, BigData Analysis & Application System) : Cloumon

  • 빅데이터 분석 및 데이터 제공 서비스 (BigData Analysis & Data Providing Service) : Seenal

  • 데이터 제공 서비스 (Data Providing Service)

  • 빅데이터 분석 플랫폼 제공 서비스 (Ad-Hoc BigData Analysis Platform Service)

  • Cloumon : BigData 시스템 통합 관리 및 모니터링

  • Seenal : 소셜미디어 모니터링/분석 서비스

  • 사용 오픈소스

    • [[ZooKeeper]], ARM

    • [[ElasticSearch]], cascade

    • [[Hive]], [[Pig]], [[Oozie]], [[Cloustream]], [[MapReduce]], [[HBase]], [[Cassandra]], [[Flume]] / [[Thrift]], [[scribe]], chukwa

    • HDFS
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
      -
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
  • DAISY (Data Intelligence System) : 2012년 7월 출시

  • 대용량 데이터 실시간 분석·추천 솔루션

  • [[Hadoop]], 실시간 이벤트 처리 엔진, [[Solr]]/Lucene

  • 사용 오픈소스

    • [[RStudio]], Graphite

    • [[Ganglia]], [[Nagios]], [[Puppet]], Chef

    • [[R]] / [[RHive]], [[Mahout]], [[Solr]] / Lucene

    • [[Hive]], [[Pig]], [[MapReduce]], [[Esper]], [[Kafka]], [[HBase]], [[Sqoop]], [[OpenPDC]], [[Flume]] / Avro

    • [[HDFS]], [[OrientDB]] (GraphDB), ElephantDB (Key-Value)

     
  • 2013.04 : 기상청 : 산업 분야 활용을 위한 기상정보 빅데이터 플랫폼 구축 및 매시업 서비스 개발

  • KT : VITAL(VoC Information Total Analysis) 시스템의 유무선 통합 VOC 수집/분석, ~ 2013.9
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • SBP (Smart BigData Platform, 스마트 빅데이터 플랫폼), 2012.10 출시

    • BigPack : 빅데이터 시스템 표준 배포판

    • SCM (Service & Configuration Manager) : 빅데이터 서버 관리 도구

    • MR Designer : 비즈니스 응용프로그램 자동 개발 도구

     
  • Smart SMA : 소셜 미디어 분석 솔루션
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 실시간 데이터 분석 솔루션

  • 상권 분석, 교통 분석 등

  • 국민연금관리공단 컨텐츠관리시스템(CMS) 구축에 SNS 분석을 적용
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 소셜 네트워크 분석 SW

  • 소셜 네트워크 분석 응용 솔루션 및 컨설팅 제공
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 비정형 빅데이터 분석 및 시맨틱 기술 전문 기업

  • truestory : 클라우드 기반 비정형 빅데이터 분석 플랫폼

  • IN2 : 클라우드 기반 시맨틱 검색 플랫폼

  • STORM : 시맨틱 기반 빅데이터 추론 플랫폼

  • O2 : 빅데이터 분석 서비스 플랫폼
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 하둡 사용자 인터페이스(UI)
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 빅데이터 솔루션을 공동으로 개발하기 위한 국산 전문 소프트웨어(SW) 기업 간 모임

  • 2012.9 발표

  • 업체별 서비스 매핑

    • 클라우다인 : Hadoop 컨설팅/개발

    • 와이즈넷 : 검색엔진

    • 비투엔컨설팅 : ETL 컨설팅

    • 큐브리드 : Data warehouse 컨설팅/개발

    • 야인소프트 : 옥타곤 EOS

    • 이노룰스 : BER

    • 한국키스코 : 컴포넌트/개발

    • 투비소프트 : XPLATFORM
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
  • SOCIALmetrics TrendMap : 쇼설 미디어 분석 솔루션

  • SOCIALmetrics Biz, SOCIALmetrics Enterprise : SOCIALmetrics의 기업용 버전

  • 트윗몹 : 실시간 소셜미디어 분석 및 모니터링 서비스

  • 고도의 자연 언어 처리 기술과 방대한 언어 자원을 기반으로 소셜미디어 등 대용량의 텍스트 분석 서비스 제공

    • 관심도 분석, 연관어 분석, 감성 및 긍부정 분석, 이슈 분석, 영향력자 분석, 소셜미디어 계정 분석

     
  • SNS 정보 기반 여론 진단 서비스, 소셜미디어 트위터, 블로그 트랜드 분석

  • 소셜미디어 상의 데이터들에서 의미 있는 정보를 찾고, 조직화함으로써 정보간의 관계나 패턴, 트렌드 등을 분석하는 서비스 제공
    |}

  • BI포럼

  • 빅데이터 포럼

  • 빅데이터 국가 전략 포럼

  • 삼성SDS : 삼성지놈닷컴 - 유전자 분석 서비스

  • KT

    • 유전자 분석 서비스인 게놈클라우드 제공

    • UCloud Biz MapReduce : 빅데이터 분석 서비스

     
  • SK텔레콤

    • Smart Insight : 소셜 모니터링/분석 솔루션

    • T-MR : 시범 서비스

     
  • 참고 문헌

 
 

해외 BigData 업체

{|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
|- |width="20%" align="center" valign="middle" style="background-color:#eee;"|업체 |width="20%" align="center" valign="middle" style="background-color:#eee;"|제품

|width="60%" align="center" valign="middle" style="background-color:#eee;"|상세 
|- |align="center" valign="middle" style="background-color:#eee;"|Hortonworks |align="center"|HDP |

  • HDP (Hortonworks Data Platform)

  • 야후의 하둡 인프라 개발 인력이 2011년 분사하여 설립

  • 2013년 9월초 대한민국에 지사 설립 (초대 지사장 : 제프 마크햄) -> 중국, 일본

    • 한국테라데이타와 영업 및 마케팅 분야에서 협력 관계

  • 삼성전자 모바일솔루션센터(MSC)에서 빅데이터 분석에 활용

  • Microsfot Azure 에서 사용

  • Hadoop 코어 지원, 아키텍처

  • 사용 오픈소스

    • [[ZooKeeper]], [[Ambari]], [[Knox]], Gateway

    • [[Hive]], [[Pig]], [[MapReduce]], [[HCatalog]], [[HBase]], [[Sqoop]], Talend

    • HDFS
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
  • 야후에서 분사

    • 더그 커팅 클라우데라 수석아키텍트 겸 아파치SW재단 의장

  • 기술지원, 교육 및 배포판 제공

  • Amazon Web Service, Rackspace, Oracle Hadoop Appliance

  • 사용 오픈소스

    • [[ZooKeeper]], [[Hue]], [[Whirr]], Nagios

    • [[Impala]], [[DataFu]], Mahout

    • [[Hive]], [[Pig]], [[Oozie]], [[YARN]] / [[MapReduce]], [[HBase]], [[Sqoop]], [[Flume]] / Avro

    • HDFS
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
  • 2009년 설립

  • 대한민국 지사 설립 추진 중, 2013.08 설립 예정

  • MapR FS : NFS에 호환되는 파일 시스템

  • 사용 오픈소스

    • Whirr

    • Mahout

    • [[Hive]], [[Pig]], [[Cascading]], [[Oozie]], [[MapReduce]], [[HCatalog]], [[HBase]], [[Sqoop]], [[Flume]] / Avro

    • HDFS
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
  • InfoSphere Big Insight : 빅데이터 솔루션, Hadoop

    • JASL 기술을 사용하여 정형/비정형 데이터 처리

  • InfoSphere Stream : 스트림 프로세싱 엔진
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 세계적인 BI 업체인 하이페리온을 인수로 분석 기술 확보

  • BigData Appliance (CDH)

  • Endeca, Exalytics 등 빅데이터 분석 솔루션 출시

  • [[Hadoop]], R
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • Greenplum : MPP (Massively Parallel Processing), DB에 MapReduce 통합

    • External Table을 사용하여 HDFS 파일을 SQL로 접근

  • Isilion : 스케일 아웃 NAS 스토리지

  • ECM 다큐멘텀 : 비정형 컨텐츠 관리

  • 아이실론, 아이모스 : BigData Storage

  • 피보탈 HD

  • DW Greenplum에 MapR 통합

  • 사용 오픈소스

    • Spring

    • ZooKeeper

    • [[Mahout]], [[Hive]], [[Pig]], [[YARN]] / [[MapReduce]], [[HBase]], [[Sqoop]], [[Flume]] / Avro

    • HDFS
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
  • 사용 오픈소스

    • Embedded [[R]], [[Hadoop]], Hive

     
  • Netbase

  • SHAF (SAP HANA Analytics Foundation)

    • BFL (Business Function Library)

    • PAL (Predictive Analytic Library) : SAP BusinessObjects Predictive Analysis

  • 기업 및 브랜드 관련 소셜 버즈 모니터링 서비스
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 사용 오픈소스

    • [[Django]] / Python

    • [[Solr]] / Lucene

    • [[MapReduce]], [[Flume]] / Avro

    • HDFS
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
  • SAS BigData Analytics Platform : IT, 분석, 비즈니스 통합 플랫폼

  • SAS HPA (High Performance Analytics) : HDFS 데이터를 분석, Memory 방식, SEMMA 방법론 제공

  • SAS VA (Visual Analytics) : Hive 데이터에 접속해 분석

  • DataFlux (ESP 엔진)

  • 사용 오픈소스

    • Hadoop
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
  • Vertica Analytic Database : Cloudera의 DBinputFormat2 기반

  • Autonomy

  • 기업경영 의사결정, 경영정보 분석 등 경영지원 전략 수립 서비스 제공

  • BI 솔루션인 버티카 + 기업용 검색 엔진 오토노미

  • 최대 7일간 고객의 IT환경을 분석해 빅데이터 도입 로드맵을 제시하고, 이를 수행하기 위한 방안으로 아파치 하둡을 이용한 클라우데라의 빅데이터 솔루션과 HP의 서버, 스토리지, 네트워크 등을 제안
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • Dell Cloudera Hadoop Solution

  • 사용 오픈소스

    • [[Django]] / Pytho

    • [[ZooKeeper]], [[Hue]], Nagios

    • [[Hive]], [[Pig]], [[Oozie]], [[MapReduce]], [[Sqoop]], [[Flume]] / Avro

    • HDFS
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
  • 사용 오픈소스

    • ZooKeeper

    • [[R]], Mahout

    • [[Hive]], [[Pig]], [[Oozie]], [[YARN]], [[HBase]], [[Sqoop]], [[Flume]] / Avro

    • HDFS
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
  • Hortonworks와 파트너

  • 데이터웨어하우징(DW) 및 비즈니스 인텔리전스(BI) 전문 업체

  • 비정형 데이터의 고급 분석/관리 솔루션 업체인 애스터데이터(Aster Data) 인수

  • nCluster : DB를 기반으로 동작하며 SQL-MR 함수를 제공

  • Ester MapReduce Platform 제시
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • Hadoop on Window, Hadoop on Azure 출시 예정

  • Hortonwork
    |}

 

BigData 서비스

{|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
|- |width="20%" align="center" valign="middle" style="background-color:#eee;"|업체 |width="20%" align="center" valign="middle" style="background-color:#eee;"|서비스

|width="60%" align="center" valign="middle" style="background-color:#eee;"|상세 
|- |align="center" valign="middle" style="background-color:#eee;"|Amazon |align="center"|Amazon Web Service |

  • Pig, Hive, Mahout

  • EC2, Elastic MapReduce (Cloudera)

  • S3, Elastic Block Store, DynamoDB, MySQL, Oracle
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • BigQuery, Pig, Hive, Prediction API, Mahout

  • AppEngine, Compute Engine (MapR)

  • Cloud Storage, Datastore, Blockstore, AppEngine Datastore, CloudSQL
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • Pig, Hive, Mahout, StreamInsight

  • Azure Compute, Hadoop (Hortonworks)

  • HDFS, Blog, Table, Queues, Table Storage, SQL Azure
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • Hadoop
    |}

 

BigData Platform


{|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
|- |width="20%" align="center" valign="middle" style="background-color:#eee;"|서비스 |width="40%"|

 

  • Real-Time analysis

 

 

  • Real-Time analysis

    • Event

      • ESP (Event Straming Processing) : [[Storm]], [[HStreaming]], [[Shark]], Kafka

      • CEP (Complex Event Processing) : [[JBoss Drolls Fusion]], [[S4]], Akka

    • NoSQL

      • Disk 기반 : [[Cassandra]], Hypertable

      • Memory 기반 : [[MongoDB]], [[Redis]], Membase

      • [[Membrain]], [[CouchDB]], [[CouchBase]], [[Neo4j]], FlockDB

      • Cloudata

      • [[Drizzle]], [[MySQL Cluster]], [[NimbusDB]], [[ScaleBase]], VoltDB

    • SQL on Hadoop

      • [[Drill]], [[Impala]], Tajo <- Dremel, 스트링거, BigQuery

      • IBM, 빅SQL

      • MS, 폴리베이스

      • EMC, 호크(HAWQ)

 

  • Data Exchange

    • DB : hiho

    • 로그 등 : [[Chukwa]], Scribe

    • [[Thrift]], ProtoBuf
      align="center" valign="middle" style="background-color:#eee;"
  • HDFS (Hadoop Distributed File System)

  • NAS (NFS, CIFS)

  • OpenStack Swift
    |

  • [[FlusterFS]], [[pNFS]], [[Ceph]], [[GFS2]], MogileFS
    |}

     
  • 데이터 수집

    • 첨부 파일 데이터 수집

      • PDF, MS Office, 한글 / 훈민정음

      • 버전별 처리

      • 문서별 양식지 사용시 처리 방안

    • 수집 로봇 (웹 로봇)

    • Open API를 사용하여 수집

     
  • 검색 엔진

    • 형태소 분석 등을 위해 사전이 필요, 사전이 검색 엔진의 정확도 결정

      • 표준어 사전

      • 사용자 사전 : 회사에서만 사용하는 특수한 용어

 
 

BigData 방법론


 
 

비즈니스 모델


 

시장 규모

 
 
 

세계 빅데이터 기술 및 서비스 2014-2018 (IDC, 2014.10)

 
  • 2013년 165억 5천만 달러

  • 2018년 415억 달러 (연평균 26.4% 성장)

 
 

http://image.zdnet.co.kr/2014/10/09/0sN5AjjBqDKlaHHJEmy9.jpg

 
 
 
  • IDC 2011, 단위 : 백만 달러

    • 매년 약 40% 성장하여 2015년에는 169억 2000만 달러 규모로 성장

    • S/W. 26%, 서비스.40%, 서버. 10%, 스토리지. 20%, 네트워킹. 4%

      1. 1.9 제타바이트, 5년 이내 9배 증가

 
 

[파일:BigData market01.png](File:BigData market01.png.md)

 

{| cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
|- | width="16%" align="center" valign="middle" style="background-color:#eee;" | 구분 | width="12%" align="center" valign="middle" style="background-color:#eee;" | 2010 | width="12%" align="center" valign="middle" style="background-color:#eee;" | 2011 | width="12%" align="center" valign="middle" style="background-color:#eee;" | 2012 | width="12%" align="center" valign="middle" style="background-color:#eee;" | 2013 | width="12%" align="center" valign="middle" style="background-color:#eee;" | 2014 | width="12%" align="center" valign="middle" style="background-color:#eee;" | 2015

| width="12%" align="center" valign="middle" style="background-color:#eee;" | CAGR(%) 
|- | align="center" valign="middle" style="background-color:#eee;" | 서버 | align="right" | 495 | align="right" | 665 | align="right" | 803 | align="right" | 1,032 | align="right" | 1,270 | align="right" | 1,657

| align="center" | 27.3 
|- | align="center" valign="middle" style="background-color:#eee;" | 스토리지 | align="right" | 318 | align="right" | 560 | align="right" | 1,224 | align="right" | 1,968 | align="right" | 2,719 | align="right" | 3,429

| align="center" | 61.4 
|- | align="center" valign="middle" style="background-color:#eee;" | 네트워킹 | align="right" | 106 | align="right" | 146 | align="right" | 242 | align="right" | 368 | align="right" | 485 | align="right" | 620

| align="center" | 42.4 
|- | align="center" valign="middle" style="background-color:#eee;" | SW | align="right" | 1,062 | align="right" | 1,415 | align="right" | 1,851 | align="right" | 2,476 | align="right" | 3,376 | align="right" | 4,625

| align="center" | 34.2 
|- | align="center" valign="middle" style="background-color:#eee;" | 서비스 | align="right" | 1,236 | align="right" | 1,979 | align="right" | 2,721 | align="right" | 3,883 | align="right" | 5,009 | align="right" | 6,538

| align="center" | 39.5 
|- | align="center" valign="middle" style="background-color:#eee;" | 합계 | align="right" | 3,217 | align="right" | 4,766 | align="right" | 6,842 | align="right" | 9,728 | align="right" | 12,941 | align="right" | 16,920 | align="center" | 39.4 |}

 

[700px|BigData market02.png](File:BigData market02.png.md)

 
  • IDC : 비즈니스 분석 SW - 2016. 507억 달러 (연평균 9.8% 성장)

  • BigData Market Forecaset (Wikibon, 2012)

    • 2012 : 51억 달러

    • 2013 : 102억 달러

    • 2014 : 168억 달러

    • 2015 : 321억 달러

    • 2016 : 480억 달러

    • 2017 : 534억 달러

     
  • KISTI (한국과학기술정보연구원)

    • 국내 시장은 2015년 2억 6300만 달러, 2020년 9억 달러로 성장

    • 국내 IT 시장에서 빅데이터가 차지하는 비중은 2013년 0.6%에서 2020년 2.6%까지 증가

    • 한국 빅데이터 시장

      • 2013년 예측치 : 1억 6300만 달러

      • 2015년 3000억 (2억 6300만 달러)

      • 2020년 9000억 (8억 500만 달러) (70% 후반의 고성장)

    • 한국 ICT에서 비중 : 2013. 0.6%, 2020. 2.3%

    • 세계 빅데이터 시장의 1.6% 비중 점유

 
 

[700px|BigData market03.png](File:BigData market03.png.md) http://www.hellodd.com/data/photos/IMAGE/NEWS/2013/04/20130418163358.jpg

 
  • 공공 빅데이터 시장은 2014년부터 고성장을 시작해 향후 5년간 5000억원 규모로 성장할 것

 
 

시장 현황

 
  • 시장 현황

    • 미래창조과학부 (미래부)

      • 빅데이터 분석/활용 센터 구축 : 2013.9 ~,

      • 빅데이터 마스터 플랜 수립 : 2016년까지 민간/정부가 약 5000억원을 빅데이터 기반 조성에 투입

      • 빅데이터 아카데미 개설 : 2013년 100명 양성, 2007년까지 2000명 양성

        • 빅데이터 기술 전문가, 빅데이터 분석 전문가

      • 빅데이터 활용 시범사업

     

    :

{| cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
|- | width="30%" align="center" valign="middle" style="background-color:#eee;" | 과제

| width="70%" align="center" valign="middle" style="background-color:#eee;" | 상세 
|- | align="center" valign="middle" style="background-color:#eee;" | 심야버스 노선 수립 지원 | - 지차체-통신사간 데이터 연계
- KT, 서울시

 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 질병 주의, 예보 서비스 | - 국민의료건강 데이터베이스와 소셜미디어 정보의 연계 분석
- 국민건강보험공단, 예측 모델 개발

 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 의약품 안전성 조기경보 서비스 | - SGA, 한국의약품안전관리원
- 유해사례 신고 DB와 인터넷 소셜 데이터 분석

 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 의료 서비스 | - 유행병 예측과 대비 태세 향상
- 서울아산변원, 한국전자통신연구원, 한국마이크로소프트

 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 점포 이력 분석 서비스 | - 소상공인 상업 성공율 제고
- 오픈메이트, 비씨카드, 한국감정원
- 카드거래 정보와 소상공인 상가 이력, 부동산 정보 등을 연동해 분석 모형 구축

 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 지능형 뉴스 검색 서비스 | - 차세대융합기술연구원, 서울대학교
- 스마크 기기에 최적화된 뉴스 기사 요약 서비스 애플리케이션 개발

 

|}

 
 
- 우정사업정보센터  
  - 우편 서비스 빅데이터 기반 마련 및 활용  
  • 안행부

    • 빅데이터 공통 기반 및 시범서비스 구축 (40억)

    • 정부통합전산센터 : 클라우드 기반의 빅데이터 분석 파일럿 시스템 구축 사업 (12억)

  • 한국과학기술정보연구원 (KISTI)

    • 국가 과학기술 빅데이터 거버넌스 구축 (7억)

  • 서울시

    • 2015년까지 빅데이터 기술을 시정에 도입

     
  • 한국크라우드컴퓨팅연구조합

    • 2013년 SW융합 역량강화 과정 사업자에 선정됨

    • 2013년 하반기까지 클라우드, 빅데이터 전문 인력 720명 양성 계획, 2013.06

 
 

BigData 도입 사례

 
 

{| cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
|- | width="20%" align="center" valign="middle" style="background-color:#eee;" | 업체 | width="20%" align="center" valign="middle" style="background-color:#eee;" | 제품

| width="60%" align="center" valign="middle" style="background-color:#eee;" | 상세 
|- | align="center" valign="middle" style="background-color:#eee;" | GS홈쇼핑 | align="center" | FOSS |

  • DW로 구축한 추천 시스템을 FOSS 기반의 추천 시스템 전환, 2012.7 구축 완료

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 엔씨소프트 | align="center" | FOSS |

  • 로그 데이터 분석 (1일 1TB 로그)

  • 데이터 수집/저장/관리는 오픈소스, 분석은 상용 SW, SQL 엔진/관리 툴은 자체 개발

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 삼성전자 | align="center" | |

  • 셜미디어 분석을 통해 솔리드 스테이트 드라이브(SSD) 시장의 새로운 흐름을 읽음

  • 미디어솔루션센터(MSC)내 빅데이터 전담 조직 신설

    • MSC : 홍원표 사장, 소프트웨어와 콘텐츠 전략을 총괄

    • 2010년 NHN에서 영입된 함종민 상무

    • 삼성전자가 제공하는 콘텐츠 서비스에 대한 이용 형태 분석

    • 사용자 로그 분석, 콘텐츠 이용 패턴과 선호도 -> 신규 서비스 개발, 사업 모델에 반영

    • 사업자 선정 중 : 오라클과 테라데이타가 최종 후보로 선정

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 유유제약 | align="center" | |

  • 멍치료제 공략시장을 소셜미디어 분석을 통해 유아에서 여성으로 변경

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | KTH | align="center" | Daisy |

  • 2013.04 수주 : 기상청 - 산업 분야 활용을 위한 기상정보 빅데이터 플랫폼 구축 및 매시업 서비스 개발

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 삼성SDS | align="center" | |

  • 행정안전부 : ~ 2013.3, 빅데이터 공통기반 마련 및 활용을 위한 업무프로세스 재설계(BPR), 정보화전략계획(ISP) 수주

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | | align="center" |

|  
|- | align="center" valign="middle" style="background-color:#eee;" | | align="center" | | |}

 
 
  • 다음소프트, 소셜메트릭스 : 블로그, 트위터를 분석한 모니터링 정보 제공

  • 코난테크놀러지, 펄스K : 소셜 미디어 모니터링 및 분석 서비스

  • Google Trends : 검색 로그 기반 동향 분석

  • Naver Trand

  • BigData 관련 기관

    • 서울대

      • 빅데이터 센터

      • 빅데이터 포럼 (2013.5.30) : 9개 전문 분과로 운영

        • 빅데이터 인프라 기술, 데이터 과학 및 분석 기술, 법 정책, 보건의료, 생명 환경, 사회복지, 미래산업경제, 방송 문화 스포츠, 인프라 및 인력양성

 
 

산업별 적용 모델

 
 
 
 

{| cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
|- | width="30%" align="center" valign="middle" style="background-color:#eee;" | 산업군

| width="70%" align="center" valign="middle" style="background-color:#eee;" | 상세 
|- | align="center" valign="middle" style="background-color:#eee;" | 금융 |

  • 실시간 마케팅

  • 리스크 관리

    • 대출 연체 가능성 예측, 리스크 익스포저 산출, 신규 오퍼링을 위한 고객 타겟팅

     
  • 마케팅 사이클 단축 : 금융 모델 개발/활용 사이클 단축

  • 실시간 캠페인 반응, 실시간 소셜내 평판/불만, 상품 추천 엔진, 고객 행동/패턴 예측

  • 고객 확보 및 유지, 타겟 교차 판매 유도

  • 사기 감지, 위험 관리 및 규정 준수 강화

  • 카드사

    • 실시간 이벤트 정의, 실시간 이벤트 감지 및 실행, 실시간 모니터링 및 결과 분석

    • 실시간 채널 발송시스템, 실시간 마케팅 시스템 분석 정보

    • 실시간 이벤트 정의 : 7 업무 40개 요건 정의

      • 고객케어, 정보최신화, 상품마케팅, 회원마케팅, 시너지 마케팅, 가맹점 마케팅, 빅데이터 활용

    • http://www.bikorea.net/news/articleView.html?idxno=8174

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 공공 |

  • 탈세 적발

  • 트랜드 파악을 위한 시장 분석, 세부 정책 수립용 시장 분석, 동향 및 조사 보고서 분석용, 데이터 공객를 위한 정책 분석

  • 환경 검토, 테러 방지 및 유권자 관계 등

  • 국가보안, 치안, 재난, 질별, 교통, 의료 등

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 통신 |

  • 캠페인 최적화

  • 선제적 마케팅 강화 : 예측/모델링 및 최적화 기법

  • CDR 스트림, 텍스트 메시지, 모바일 웹 액세스 등을 관리하여 네트워크 최적화

  • 소셜 네트워크 분석과 영향력 분포도를 사용하여 제품과 서비스 공급을 급변하는 고객의 수요에 맞춤

  • SK텔레콤

    • 티맵 내비게이션 : 교통 정보를 실시간으로 분석, 정확한 도착 시간 제공

    • 상권 분석 서비스 : 지도, 유동인구, 업종별 월별 매출 등

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 유통 |

  • 재고 관리

  • 고객 활동 예측 : 구매 행동에 기초한 타겟 설정

  • 클레임 조기 경보 : 고객 feed-back 조기 발견 및 대응

  • 고객 중심 마케팅

  • B2B, B2 클릭스트림, 텍스트, 이미지 데이터와 고객 프로파일을 통합하여 전자상거래의 효율성과 정확성을 높이고 다양한 채널에서 원활한 고객 경험을 이끔

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 제조 |

  • 콜센터 데이터 분석

  • 설비 센서 데이터 분석 (수율/설비고장예측/생산성), 물류/배송 최적화 예측, 원자재 가격 예측

  • SNS (페이스북 게시물, 트위터 트윗, 유튜브 동영상, 블로그 댓글, 기타)를 통해 소비자 이해, 상품 판매, 서비스 제공, 브랜드 이미지 관리 및 입소문 마케팅

  • 대용량 RFID (Radio Frequency IDentification)를 활용하여 물류, 재고 및 생산을 최적화, 제조 결함을 신속하게 파악

  • GPS 및 매핑 데이터를 통해 공급만을 효율적으로 간소화

  • 생산, 품질 분야에 활용

 
 

|}

 
 
  • BigData 활용 분야

 
 
 

{| cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
|- | width="30%" align="center" valign="middle" style="background-color:#eee;" | 분야

| width="70%" align="center" valign="middle" style="background-color:#eee;" | 상세 
|- | align="center" valign="middle" style="background-color:#eee;" | 미래 예측 |

  • 패턴의 우연성/지속성 구분

  • 실시간 예측 및 자동 업데이트

  • 장기간 축적된 데이터로부터 과거와 현재의 규칙성과 상관관계를 밝히고, 이를 토대로 이벤트의 발생 여부나 수요/판매량을 예측

  • 빅데이터에서 발견한 인과관계가 일시적 또는 우연에 의한 것인지 반복적으로 지속될 패턴인지 구분

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 숨은 요구 발견 |

  • 새로운 정보의 왜곡/실제 여부 판단

  • 소비자의 일상이 담긴 데이터에서 발견한 새로운 패턴으로 경쟁사나 고객 스스로가 인지하지 목하는 고객 니즈를 발견

  • 빅데이터에서 발견한 패턴이 데이터 오류나 분석 착오가 아닌지 관련 전문가가 해석, 검증하여 제품 및 서비스에 활용

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 위험 감소 |

  • 일상/위기 상황 판단

  • 정성적 정보의 양과 종류가 과거보다 대폭 증가하여 이상 징후 감지, 고위험 이벤트 경고 등 포괄적인 리스크 관리

  • 상황과 이슈별로 분류한 고객 불만을 분석하여 트렌드 변화 및 특정 이슈를 관찰하고, 불만의 우선 순위를 정해 근원적 불만 요소를 식별

  • 정보 가치가 낮은 데이터를 필터링하는 알고리즘을 개발하여 일상적인 불안 요소와 긴급하고 영향력이 큰 리스크를 구별, 해석

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 맞춤형 서비스 |

  • 호불호 맥락 파악

  • 추천 서비스

  • 개별 상황에 대한 정확한 이해를 바탕으로 가장 적합한 방식과 내용으로 효과적인 메시지를 전달함으로써 서비스의 효용을 극대화

  • 상황 및 감정 관련 데이터를 종합적으로 분석하여 호불호를 느끼는 맥락을 짚어내고 획일적이지 않은 콘텐츠 콘셉트를 도출

 
 

|- 
| align="center" valign="middle" style="background-color:#eee;" | 실시간 대응 |

  • 실시간 감지/대응 체계 구축

  • 부정 거래 감시

  • 시장 사황 및 경쟁 동향을 실시간 파악하여 환경 변화에 신속하고 자동적으로 대응하는 체계를 구축함으로써 업무 성과를 제고

  • 실시간으로 경영상 기회와 위기 요인을 정확히 읽어내고 즉시 대응할 수 있는 체계를 구축

 
 

|}

 
 
  • 정보 검색 서비스 -> 정보 분석 서비스

    • 정보의 종류 : 공개된 SNS 정보, 미공개된 기업내 정보

    • 다음소프트, 솔트룩스, 삼일 PwC, SKT 스마트 인사이트, 마스터카드

    • 비씨카드 상권분석, 현대카드 상권분석 <- 여신전문금융업법 개정

     
  • BigData 분석 플랫폼 제공

    • KT 맵리듀스

     
  • BigData 분석 방법론 제공

    • 연관 관계, 의미

 
 

로그 분석 시장

 
 
 

개발 환경 구성


  • hadoop

    • conf/*

    • .jar, lib/.jar

     
  • zookeeper

    • zookeeper-3.4.5.jar

 
 

BigData Sizing


  • Sizing 기준

    • BigData 구분 기준 : 100 TB 이상

    • BigData 샘플 분석 크기 : 100 GB

    • BigData 시스템 규모 : 1 TB ~ 10 TB 처리 (55%)

    • Core당 4 GB Memory

    • Slave node당 24 TB Disk

    • Esper : Dual CPU * 2 GHz : 초당 50만건 이상의 처리 성능과 평균 3 microseconds 이하로 처리

     
  • BigData Server 구성 (250 TB당 20대)

    • Admin Node * 1

    • Working Node * 1

    • Database Node * 2

    • 수집/연동 Node * 2

    • Master Node * 2

    • Slave Node * 12

     
  • 미래부, 빅데이터 시범센터

    • 2013년 6월초 사업자 선정

    • 2013년 9월 서비스

    • 프로젝트 기간 : 3개월, 예산 : 8억 2000만원

      • 추정 S/W : 38,294만원

      • 추정 스토리지 : 27,306만원

      • 추정 서버 : 13,694만원

      • 추정 네트워크 :5412만원

     
  • Oracle BigData Appliance

    • Rack : Intel Xeon E5-2600 processor / 2 CPU * 8 Core

      • 18 Server / 2 CPU * 8 Core / 64 GB Mem. / 12 * 2TB Disk / 10GBE

      • Total 1152 GB Memory, 432 TB Disk

    • $450,000, 년간 유지보수 비용 $54,000

     
  • 5분이내에 처리 가능한 수천개의 jobs by facebook

    • ~ 350 TB : 20+ nodes

    • ~ 500 TB : 40+ nodes

     
  • 참고 문헌

    • SIZING BIG DATA PROBLEMS

    • rows * columns / sec : 초당 처리해야 하는 행 * 열의 수

    • Volume : rows가 1000만건 미만, 1000만건 이상에서 1억건 미만, 1억건 이상

    • Velocity : 시간 단위, 분단위, 초단위

    • Variety : columns이 100 미만, 100 이상에서 1000 미만, 1000 이상

 
 

단위 테스트


 
 

성능 테스트


 
 

Turning


  • Linux 2.6.30 이상 권장

    • Local file system (ext3 or xfs) : mounted with noatime attribute

    • nodiratime attribute

    • File system read-ahead buffer size : 1024 or 2048 sectors

     
  • Hadoop 설정

 
 dfs.namenode.handler.count = 64 이상 (default. 10)        //--- Numbers of name node and job tracker server threads
 dfs.datanode.handler.count = 8 이상 (default. 3)          //--- Numbers of data node server threads
 dfs.replication = 3                                       //--- replication factor for each block of an HDFS
 dfs.block.size = 128 MB or 256 MB (default. 64 MB)        //--- HDFS block size
 
 mapred.job.tracker.handler.count = 64 이상 (default. 10)  //--- Numbers of name node and job tracker server threads
 //--- Maximum number of map/reduce tasks
 mapred.tasktracker.map.tasks.maximum = node당core수 / 2 ~ node당core수 * 2
 mapred.tasktracker.reduce.tasks.maximum = node당core수 / 2 ~ node당core수 * 2
 mapred.compress.map.output = enabled                      //--- Compression of intermediate result and final output
 mapred.output.compress = enbaled                          //--- Compression of intermediate result and final output
 mapred.map.output.compression.codec = LZO                 //--- Compression of intermediate result and final output
 mapred.output.compress.codec = LZO                        //--- Compression of intermediate result and final output
 mapred.reduce.parallel.copier = 16 ~ 25 (default. 5)      //--- Number of parallel copier threads during reduce shuffle phase
 tasktracker.http.threads = 40 ~ 50                        //--- Number of work threads on HTTP server
 
 java.net.preferIPv4Stack = true   
 
 io.sort.factor = 100 이상                                 //--- Number of input streams files to be merged at once
 io.sort.mb = 200 MB (default. 100MB)                      //--- Total size of result and metadata buffers associated with a map task
 io.sort.record.percent = 조정 (default. 0.05)             //--- Percentage of total buffer size that is dedicated to the metadata
 
  • Java 6 (Java 6u12) 이상

  • vi /etc/security/kimits.conf

    • Open file descriptor limit : 64000

     
  • vi /etc/sysctl.conf

    • Open epoll file descriptor limit : 4096

 
 

IP로 위치 추적


내 IP 확인

 
 

IP로 주소 확인

 
 Country: TAIWAN (TW)
 City: (Unknown city)
 IP: 203.222.12.34
 

주소로 위도/경도 좌표 확인

 
 

위도/경도 좌표로 지도 표시

 
 

공공 정보 개방 현황


 
 

빅데이터 소스


 
 

참고 문헌


 
최종 수정일: 2024-09-30 12:26:18

이전글 :
다음글 :