상단

BigData 방법론을 정리 합니다.

 

BigData 구축 방법론


700px

 

BigData 분석 조직

  • BigData 분석 조직
    {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
    |- 
    |width="20%" align="center" valign="middle" style="background-color:#eee;"|조직 
    |width="20%" align="center" valign="middle" style="background-color:#eee;"|산출물 |width="60%" align="center" valign="middle" style="background-color:#eee;"|상세 |- |align="center" valign="middle" style="background-color:#eee;"|기획 및 설계 |align="center"| |

  • 빅데이터 분석 및 활용 가치 기획

  • 빅데이터 분석을 위한 플랫폼 설계
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 하둡 등 분산저장 시스템 구출

  • 빅데이터 플랫폼 모니터링 및 기술지원
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 분산 저장 및 병렬 처리 플랫폼 활용 개발

  • 기간 시스템 연계 및 데이터 수집, 저장, 관리
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 분산 저장 환경하에서 빅데이터 병렬 처리

  • MapReduce, Pig, Hive 등 하둡 생태계 도구 활용
    align="center" valign="middle" style="background-color:#eee;"
    align="center"
  • 전처리 데이터를 대상으로 통계 분석

  • 오픈소스 R 등 시각화 도구 활용
    |}

     
  • 데이터 검열사 (Data Hygienist) : 데이터에 대한 안전성 판단

  • 데이터 조사원 (Data Explorer) : 필요 데이터 필터링

  • 비즈니스 솔루션 설계사 (Business Solution Architecture) : 데이터 통합/체계화

  • 데이터 과학자 (Data Scientist) : 분석 모델 제시

  • 캠페인 전문가 (Campaign Expert) : 분석 자료로 결과 도출, 마케팅 캠페인에 대한 지식 필요

 
 

BigData 분석 방법론


Data Mining Process Standards

 

CRISP-DM

  • CRISP-DM (Cross-Industry Standard Process for Data Mining)

    • Reference Model : Phases -> Generic Tasks -> Specialized Tasks -> Process Instances (Actions)

    • User Guide : check lists, questionaires, tools and techniques, sequences of steps, decion points, pitfalls
      {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
      |- 
      |width="25%" align="center" valign="middle" style="background-color:#eee;"|단계 
      |width="75%" align="center" valign="middle" style="background-color:#eee;"|상세 |- |align="center" valign="middle" style="background-color:#eee;"|비즈니스 이해
      (Business Understanding) 
      |

  • 목표

    • 고객의 요구 사항과 비즈니스 목표를 이해하고 이를 데이터 마이닝의 목표로 전환

    • 결과에 영향을 주는 중요한 항목을 도출하고 마이닝 목표를 달성하기 위한 예비 계획 수립

     
  • Actions

    • Determine Business Objects : 비즈니스 관점에서 고객 요구를 이해

    • Assess Situation : 프로젝트에 영향을 미치는 요인에 대한 사실 조사

    • Determine Data Mining Goals : 기술적인 측면에서 프로젝트 목표를 결정

    • Produce Project Plan : 프로젝트의 목표를 ​​달성하기 위한 세부 계획의 준비

     
  • 기업내의 어떤 문제점을 빅데이터로 해결할 것인가?
    align="center" valign="middle" style="background-color:#eee;"
  • 목표

    • 초기 데이터를 수집, 이해하고 데이터의 품질을 정의하고 몇가지 가설을 구성하기 위한 데이터셋을 설정

     
  • Actions

    • Collect Initial Data : 초기 데이터를 수집

    • Describe Data : 수집된 데이터의 특성을 확인

    • Explore Data : 질의, 시각화, 보고서 등 데이터 마이닝 목표에 부합하는 데이터 추출

    • Verify Data Quality : 데이터의 품질 검사

     
  • 문제 해결을 위해 어떤 데이터를 사용하여야 하는가?

  • 문제 해결을 위한 데이터 이면에 숨겨져 있는 원리는?

  • 변수 선정
    align="center" valign="middle" style="background-color:#eee;"
  • 목표

    • 모델링 도구의 입력이 될 최종 데이터를 원시 데이터로부터 추출

     
  • Actions

    • Select Data : 분석에 사용할 데이터를 선별

    • Clean Data : 분석 기법에서 요구한 수준으로 데이터의 품질을 향상

    • Construct Data : 분석을 위한 구조화된 데이터 준비

    • Integrate Data : 분석을 위해 여러 테이블에서 데이터를 통합

    • Format Data : 사용하려는 모델에 적합하도록 데이터의 구문 수정

     
  • KDD : 데이터 -> (추출) 목표 데이터 -> (전처리) 사전처리 데이터

  • Process 2 : 데이터 입력 -> 데이터 확인
    align="center" valign="middle" style="background-color:#eee;"
  • 목표

    • 모델링 기법을 선택하고 최적의 값을 가진 파라메터 변수를 설정

     
  • Actions

    • Select Modeling Technique : 모델링 기법 선택

    • Generate Test Design : 모델의 유효성을 검사하고 품질을 테스트하는 절차 생성

    • Build Model : 모델을 구축하는 모델링 기법을 실행

    • Assess Model : 해석, 평가, 비교 및 데이터 마이닝 관점에서 평가 기준에 따라 모델의 순위 지정

     
  • KDD : (변환) 변환 데이터 -> (데이터 마이닝) 패턴

  • Process 2 : 모델링 (데이터 처리 및 분석)
    align="center" valign="middle" style="background-color:#eee;"
  • 목표

    • 충분한 평가를 통해서 비즈니스 목표를 달성할 것으로 확신되는 모델을 선정

    • 전체 프로세스를 재검토하고 다음 단계를 결정

     
  • Actions

    • Evaluate Results : 결과가 비즈니스 목표에 부합하는지 확인

    • Review Process : 빠트린 사항이 없도록 중요 항목을 도출하고 전체 프로세스를 요약

    • Determine Next Steps : 다음 단계를 결정

     
  • KDD : (해석/평가) 지식

  • Process 2 : 검증

  • 수리적 모델의 검증과 변수/데이터의 확인
    align="center" valign="middle" style="background-color:#eee;"
  • 목표

    • 프로세스를 통해서 획득한 지식을 가공하여 고객에게 제시

     
  • Actions

    • Plan Deployment : 비즈니스에 프로젝트의 결과를 반영하기 위한 전략 수립

    • Plan Monitoring and Maintenance : 유지 보수 전략의 준비

    • Produce Final Report : 프로젝트의 최종 보고서 작성

    • Review Project : 최종 보고서 검토

     
  • Process 2 : 정리 및 시각화
    |}

 

SEMMA

  • SEMMA (Simple, Explore, Modify, Model, Assess)

  • 분석 데이터 생성

    • 통계적 추출

    • 조건 추출

  • 비용 절감 및 모델 평가를 위한 데이터 준비
    align="center" valign="middle" style="background-color:#eee;"
  • 분석 데이터 탐색

    • 기초 통계, 그래픽적 탐색

    • 요인별 분할표

    • Clustering

    • 변수 유의성 및 상관분석

  • 데이터 조감을 통한 데이터 오류 검색

  • 모델의 효율 증대

  • 데이터 현황을 통해 비즈니스 이해, 아이디어를 위해 이상현상, 변화 등을 탐색
    align="center" valign="middle" style="background-color:#eee;"
  • 분석 데이터 수정/변환

    • 수량화, 표준화, 각종 변환, 그룹화

  • 데이터가 지닌 정보의 표현 극대화

  • 최적의 모델을 구축할 수 있도록 다양한 형태로 변수를 생성, 선택, 변형
    align="center" valign="middle" style="background-color:#eee;"
  • 모델 구축

    • Neural Network

    • Decision Tree

    • Logistic Regression

    • 전통적 통계

  • 데이터의 숨겨진 패턴 발견

  • 하나의 비즈니스 문제 해결을 위해 특수의 모델과 알고리즘 적용 가능
    align="center" valign="middle" style="background-color:#eee;"
  • 모델 평가 및 검증

    • 텍스트 교본

    • Feedback

  • 모델의 검증

  • 서로 다른 모델을 동시에 비교

  • 추가 분석 수행 여부 결정
    |}

KDD

 

BigData 분석 기법


빅데이터 분석 단계(수준)

  • 데이터 이해 -> 데이터 분석 -> 고급 분석

    • 데이터 분석

      • 정형 보고서 : 무슨일이 발생 하였는가?

      • 비정형 보고서 : 얼마나 많이, 자주, 어디에서 발생 하였는가?

      • OLAP : 검색/드릴다운, 문제의 원인은 어디에 있는가?

      • 경보 : 어떠한 행동이 필요한가?

    • 고급 분석

      • 기술 분석 (Descriptive Analytics)

        • 통계 분석 : 이 결과가 나타난 이유는?

      • 예측 분석 (Predictive Analytics)

        • 시계열 예측 : 이 추세가 계속되면 어떻게 될 것인가?

        • 예측 모델링 : 다음에 발생할 일은 무엇인가?

      • 최적화 (Optimization)

        • 최적화 : 발생할 일에 대한 가장 최선의 대안은 무엇인가?

     
  • 고급 분석 (Advanced Analytics) : 비즈니스 상황을 예측하고 효율적인 의사결정을 지원하기 위해 구조화 및 비구조화된 복잡한 형태의 데이터에서 요인들간의 상관관계와 의미있는 데이터의 패턴을 식별하고 예측하기 위한 모든 기법과 기술

    • 기술 분석 (Descriptive Analytics) : 과거에서부터 현재까지 주어진 데이터로부터 현재의 상황을 설명할 수 있는 Pattern을 찾아 사용자의 이해를 돕기 위해 표현하거나 설명 - 상관 분석, 군집, 분류, ...

    • 예측 분석 (Predictive Analytics) : 과거의 데이터나 사건으로부터 미래에 발생 가능한 상황이나 사건을 예측하여 선제적인 의사결정을 지원

    • 최적화 (Optimization) : 주어진 가능한 결과들에 대한 평가를 수행하여 최적의 결과를 도출하는 것

    • Content Analysis, Text Analytics, Realtime Analytics

 
 

BigData 분석 모형

  • BigData 분석 모형
    {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
    |- 
    |width="20%" align="center" valign="middle" style="background-color:#eee;"|모델 
    |width="40%" align="center" valign="middle" style="background-color:#eee;"|기법 |width="40%" align="center" valign="middle" style="background-color:#eee;"|알고리즘 |- |align="center" valign="middle" style="background-color:#eee;"|Classification
    (분류) 
    | 과거의 데이터를 입력으로하여 분류 모델을 생성하고, 새로운 데이터에 대하여 분류값을 예측

  • Decision Tree

  • Memory-Based Reasoning

  • Bayesian Classification
    |

  • CART

  • CHAID

  • C4.5

  • k-nearest neighbor

  • Naive Bayes
    align="center" valign="middle" style="background-color:#eee;"
    데이터의 여러 속성(변수)를 고려하여 성질이 비슷한 몇개의 집합으로 구분
  • Partition Based

  • Hierarchical Based

  • Navigation Sequencing
    |

  • k-means

  • k-medoids

  • Expectation Maximization

  • BIRCH

  • CURE

  • Markov Chain
    align="center" valign="middle" style="background-color:#eee;"
  • Market Basket Analysis

  • Sequence Discovery

  • Link Analysis
    |

  • Association Rules

  • Exponential Smoothing

  • Box-Jenkins

  • Directed Graphs
    align="center" valign="middle" style="background-color:#eee;"
  • Regression (회귀분석)

  • Neural Network
    |

  • Linear Regression

  • Robust Regression

  • Logistic

  • Supervised Learning

  • Backward Propagation

  • Feed Forward

  • Genetic Algorithm
    align="center" valign="middle" style="background-color:#eee;"
  • Exploratory Data Analysis

  • Dimensionality Reduction
    |

  • Histograms

  • Box-and-Whisker

  • Parento

  • Principal Components-Factor Analysis
    align="center" valign="middle" style="background-color:#eee;"
  • Information Retrieval or Identification of a Corpus

  • Natural Language Processing

  • Named Entity Recognition

  • Recognition of Pattern Identified Entities

  • Coreference

  • Relationship, Fact and Event Extraction

  • Sentiment Analysis

  • Quantitative Text Analysis

    |}

    • 일반적으로 모델링 준비에서 개발 완료까지 1개를 개발하는데 초급. 2MM, 중급. 1MM, 고급. 0.5MM

 
 

BigData 분석 기법

  • Data Mining/Analytic 기법

    • Decision Trees/Rules (62.6%)

    • Regression (51.2%)

    • Clustering (50.2%) : Classification, Clustering

    • Statistics (descriptive) (46.3%)

    • Visualization (32.5%)

    • Association rules (26.1%) : Association Analysis

    • Sequence/Time series analysis (17.2%) : Sequential patterns

    • Neural Nets (17.2%)

    • SVM (15.8%)

    • Bayesian (15.8%)

    • Boosting (14.8%)

    • Nearest Neighbor (12.8%)

    • Hybrid methods (11.8%)

    • Other (11.3%)

    • Genetic algorithms (11.3%)

    • Bagging (10.8%)

    • Forecasting

    • Text Mining

    • Social Network Analysis

 
 

통계 (Statistics) 분석

  • 빈도 분석

    • 각 변수 값에 속한 분포의 특성을 찾아내는 분석 기법

    • 도수분포표, 집중경향치 (Central Tendency), 분산도 (Dispersion), 히스토그램

     
  • 기술통계 분석

    • 자료의 필요 통계량을 간단히 산출하는 분석 방법, 요약 통계량과 Z-Score 계산

    • 평균, 표준편차, 최소값, 최대값, 빈도수, 분산, 범위, 평균 오차, 왜도, 첨도

     
  • 교차 분석

    • 범주형 변수인 명목/서열 자료 변수간 상관 관계인 독립성과 연관성 분석

     
  • 신뢰도 분석

    • 동일 개념을 독립 측정 방법에 의한 측정 결과가 비슷한지의 일관성의 측정

    • 설문지의 신뢰성 측정과 요인 분석시 추출인자의 신뢰성 측정

     
  • 상관관계 분석

    • 분석 대상 변수간의 관련 정도, 관계의 방향, 상관계수에 대한 가설의 검증

     
  • 회귀 분석

    • 종속 변수와 독립 변수의 관련성의 강도 파악

    • 독립 변수 값의 변화에 따른 종속 변수 값의 변화를 예측하는데 사용

     
  • T-검증

    • 독립된 두 집단간의 평균의 차이가 통계적으로 유의한지를 검증

     
  • 분산 분석

    • 두 집단 이상의 평균 차이를 검증하는데 사용, 일원 분산 분석과 다원 분산 분석

     
  • 다변량 분석

    • 종속 변수가 2개 이상시 종속 변수간 평균값의 차이 검증

    • 독립변수가 어떤 종속 변수에 더 많은 영향을 미치는 지 파악

     
  • 판별 분석

    • 독립 변수의 역할 관계를 바탕으로 종속 변수(집단 구분)를 추정하는 통계 기법

    • 집단 판별의 선형 판별 함수 생성과 집단 구분에 영향을 미치는 변수 발견

     
  • 요인 분석

    • 변수들 상호간의 상호 의존도를 분석하여 서로 유사한 변수들 끼리 묶어주는 방법

     
  • 군집 분석

    • 대상 속성들의 유사한 성향을 바탕으로 동질적인 집단으로 묶어 동일 집단내에 속하는 공통 특성을 발견

 
 

기타 분석

  • 빅데이터 분석 역량

    • 쿼리와 리포팅

    • 데이터 마이닝

    • 데이터 시각화

    • 예측 모델링

    • 최적화

    • 시뮬레이션

    • 자연 언어 텍스트

    • 지리공간적 분석

    • 스트리밍 분석

    • 비디오 분석

    • 음성 분석

     
  • 주요 용어 정리
    {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
    |- 
    |width="25%" align="center" valign="middle" style="background-color:#eee;"|용어 
    |width="75%" align="center" valign="middle" style="background-color:#eee;"|상세 |- |align="center" valign="middle" style="background-color:#eee;"|시계열 분석 | |- |align="center" valign="middle" style="background-color:#eee;"|예측 분석
    (Predictive Analytics) 
    | |- |align="center" valign="middle" style="background-color:#eee;"|데이터 마이닝
    (Data Mining) 
    |

  • 데이터 마이닝 (Data Mining) : 대규모 정형화된 데이터로부터 가치있는 정보를 추출하는 것

    • 30~1000+ 개의 변수를 분석하여 유의미한 변수가 무엇인지 어떤 규칙이 있는지, 미래에 어떻게 될지의 정보를 얻고자 하는것

    • 통계학, 기계 학습, 인공 지능, 컴퓨터 과학 등과 결합하여 사용

    • 로지스틱 회귀분석 (Logistic Regression), 주성분분석 (Principal Analytis), 판별분석 (Discriminant Analysis), 군집분석 (Clustering Analysis), 분류(Classfication), 예측(Forecasting), 연관분석(Association Analysis) 등

    • KDD (Knowledge Discovery in Databases) : 데이터 -> (추출) 목표 데이터 -> (전처리) 사전처리 데이터 -> (변환) 변환 데이터 -> (데이터 마이닝) 패턴 -> (해석/평가) 지식

    • 데이터 마이닝 표준 처리 과장 (CRISP-DM, Cross Industry Standard Process for Data Mining)

      • 비즈니스 이해 (Business Understanding) -> 데이터 이해 (Data Understanding) -> 데이터 준비 (Data Preparation) -> 모형 (Modeling) -> 평가 (Evaluation) -> 적용 (Deployment)

     
  • 한국 BI 데이터마이닝학회

  • 통계청 : 통계 정보국의 빅데이터 연구회
    align="center" valign="middle" style="background-color:#eee;"
  • 비정형 데이터의 마이닝 : Text Mining, Web Mining 등

    • 비정형 데이터 : 그림이나 문서 처럼 형태와 구조가 정형화 되어 있지 않은 데이터

    • 문서 분류 (Document Classification), 문서 군집 (Document Clustering), 메타데이터 추출 (Metadata Extraction), 정보 추출 (Information Extration) 등

    • 정보 검색, 컴퓨터 언어학, 데이터 마이닝, 통계학, 기계 학습 등

     
  • 웹 마이닝 (Web Mining) : 웹 페이지 또는 웹 로그 데이터로부터 가치있는 정보를 추출하는 데이터 마이닝

    • Web Structure Mining, Web Usage Mining, Web Contents Mining

     
  • 오피니언 마이닝 (Opinion Mining, 평판 분석) : 어떤 사안이나 인물, 이슈, 이벤트에 대한 사람들의 의견이나 평가, 태도, 감정 등을 분석
    align="center" valign="middle" style="background-color:#eee;"
  • 자연어 처리 (NLP, Natural Language Processing) : 인간의 언어를 컴퓨터가 인색하여 처리

    • 형태소 분석, 구분 분석, 개체명 인식 등
      align="center" valign="middle" style="background-color:#eee;"
  • 색인 기술

  • 시스템이 정보 검색의 수요자
    align="center" valign="middle" style="background-color:#eee;"
  • Web Craw, Spiders, Worm, Robots, Bots
    align="center" valign="middle" style="background-color:#eee;"
  • 인공 지능

  • 충분한 학습 데이터로부터 모델을 생성하고, 해당 모델을 통해 대용량 데이터를 자동 분석, 귀납 추론하는 시스템

  • 통상 SVMrhk 같은 통계 이론에 기반하며, 자동 분류, 자동 군집, 베이지안 네트워크 기반 추론 등 강력한 데이터 분석 기능을 제공
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
  • 데이터의 의미적 분석

  • 시맨틱 메타데이터 자동 추출, 시맨틱 네트워크 생성, 지식 베이스 구축, 온톨로지의 활용, 논리 및 통계적 추론 등
    align="center" valign="middle" style="background-color:#eee;"
  • 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정

    • 통계그래픽 (Statistical Graphics), 주제도 지도학 (Thematic Cartography)
      align="center" valign="middle" style="background-color:#eee;"
  • 그래프 이론을 기반으로 소셜네트워크의 연결구조, 강도 등을 분석 (명성, 영향력 등 측정)
    |} 
    파일:PredictiveAnalyticsTrend.png

  • BigData Analytics

    • Analytics

      • 예측 분석 (Predictive Analytics)

      • 컨텍스트 분석 (Context Analytics)

      • 실시간 분석 (Real-Time Analytics)

      • 고급 분석 (Advanced Analytics)

      • 감성 분석 (Sentimental Analytics)

      • 소셜 분석 (Social Analytics)

    • Models

      • Explanatory Models

      • 예측 Models

      • 의사결정 Models

    • Methods

      • Segmentation & Clustring

      • 분류

        • Decision trees

        • Logistic regression

        • Neural networks

      • 예측

        • Time Series

        • Regression

     
  • Charts : Gain Chart, Lift Chart, K-S Chart

  • Statistics : Confusion Matrix, Mean Square Error, Variables Contribution

  • MPP (Massively Parallel Processing)

  • SMP (Symmetric Multi-Processing)

 
 

BigData 수집 방법론


수집 개요

  • 빅데이터의 종류
    {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
    |- 
    |width="20%" align="center" valign="middle" style="background-color:#eee;"|빅데이터 
    |width="20%" align="center" valign="middle" style="background-color:#eee;"|종류 |width="60%" align="center" valign="middle" style="background-color:#eee;"|상세 |- |align="center" valign="middle" style="background-color:#eee;"|거래 데이터 |align="center" valign="middle" style="background-color:#eee;"|P2M
    기업 내부 데이터 
    |

  • 상거래 (아마존의 구매 리스트), 제품 사용 (구글의 검색 기록)
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
  • 보안 분야에 활용

  • 소비나 서비스 이용 로그에 기반한 개인화된 마케팅

    • 카드사 : 구매정보를 분석해서 실험하는 빅데이터 마케팅, 스마트폰앱
      align="center" valign="middle" style="background-color:#eee;"
      align="center" valign="middle" style="background-color:#eee;"
  • 클릭 정보
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    align="center" valign="middle" style="background-color:#eee;"
    }
  • BigData 소스
    {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
    |- 
    |width="30%" align="center" valign="middle" style="background-color:#eee;"|구분 
    |width="70%" align="center" valign="middle" style="background-color:#eee;"|상세 |- |align="center" valign="middle" style="background-color:#eee;"|내부 데이터 |

  • 트랜잭션 : 88%

  • 로그 : 73%

  • 이메일 : 57%
    align="center" valign="middle" style="background-color:#eee;"
  • 소셜 미디어 : 43%

  • 오디오 : 38%

  • 사진/동영상 : 34%
    align="center" valign="middle" style="background-color:#eee;"
  • 웹로그 (51%)

  • 클릭 정보 (35%)

  • 상거래, 제품 사용 (30% 대)

  • 소비자 관련 통계, 소셜 미디어, 금융 (20% 대)

  • 과학 데이터, 센서 데이터 (10% 대)
    |}

     
  • 문서 내용 검색

  • CentOS

    • PDF

 
 yum install poppler-utils   or  xpdf-utils
 pdftotext  pdfFile  textFile
  • DOC (upt to MS Word 2004)

 
 yum install catdoc
  • DOCX (MS Word 2007+)

 
 wget http://silvercoders.com/index.php?page=DocToText 
 make
 build/doctotext
 
 
 

수집 방법론

  • BigData 수집 방법론

    • 데이터 정의 -> 수집 -> 정형화 -> 중복 제거 -> 저장

    • Event 정의 -> EPL -> Output Adapter -> Input Adapter
      {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
      |- 
      |width="20%" align="center" valign="middle" style="background-color:#eee;"|단계 
      |width="20%" align="center" valign="middle" style="background-color:#eee;"|산출물 |width="60%" align="center" valign="middle" style="background-color:#eee;"|상세 |- |align="center" valign="middle" style="background-color:#eee;"|데이터 정의 |align="center"| |

  • Data Checkpoint : Volume, Quality, Relevance, Variety, Timeliness

  • 비정형 데이터 -> 텍스트 마이닝, 소셜네트워크 분석, 기계 학습

    • 웹, SNS, 음성, 문서

  • 정형 테이터 -> 수치 분석, 데이터 마이닝

    • 클리스트림, M2M (센서, GPS)
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
      -
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
      -
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
      -
      align="center" valign="middle" style="background-color:#eee;"
      align="center"
      }
 

수집 도구

  • 로그 수집 도구
    {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
    |- 
    |width="20%" align="center" valign="middle" style="background-color:#eee;"|수집 도구 
    |width="80%" align="center" valign="middle" style="background-color:#eee;"|상세 |- |align="center" valign="middle" style="background-color:#eee;"|syslog |

  • 커널이나 각종 데몬, 애플리케이션 등이 출력하는 로그를 취득해, 미리 유저가 지정한 방법으로 파일에 기록하거나 특정의 서버에 송신하는 프로그램
    align="center" valign="middle" style="background-color:#eee;"
  • 침입탐지시스템

  • Signature, Destination IP
    align="center" valign="middle" style="background-color:#eee;"
  • 네트워크 트래픽 분석

  • Destination Port, Octets
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    -
    align="center" valign="middle" style="background-color:#eee;"
    }
  • 로그 종류별 상세
    {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" 
    |- 
    |width="20%" align="center" valign="middle" style="background-color:#eee;"|소스 
    |width="20%" align="center" valign="middle" style="background-color:#eee;"|병합 필드 |width="60%" align="center" valign="middle" style="background-color:#eee;"|상세 |- |align="center" valign="middle" style="background-color:#eee;"|방화벽 |align="center"| Sensor IP, Time, Source IP, Destination IP, Destination Port, Protocol, Direction, Action | |- |align="center" valign="middle" style="background-color:#eee;"|침입탐지시스템 |align="center"| Sensor IP, Time, Source IP, Destination IP, Destination Port, Protocol, Direction, Signature | |- |align="center" valign="middle" style="background-color:#eee;"|웹 |align="center"| Sensor IP, Time, Source IP, Destination IP, Destination Port, Protocol, Method, URL, Result Code | |- |align="center" valign="middle" style="background-color:#eee;"| |align="center"| | |- |align="center" valign="middle" style="background-color:#eee;"| |align="center"| | |}

 

데이터 소스

데이터 포맷

상관 분석 유형

시각화 템플릿 유형

 

ADP 시험


 
 
 

ADP 실기 시험 문제

 
 
 

참고 문헌


 
 

분류: BigData

최종 수정일: 2024-09-30 12:26:18

이전글 :
다음글 :