빅데이터 분석 거버넌스

개요

개념 빅데이터 거버넌스는 대용량·다양성·실시간성을 갖는 빅데이터를 대상으로, 수집·저장·처리·분석·활용 전 과정에 대한 표준, 품질, 보안, 메타데이터, 권한 및 플랫폼 운영체계를 통합 관리하는 체계
개념도

 

체계

 

구분 상세설명 업무
분석 프로세스 - 요건정의, 모델링
- 검증 및 테스트, 적용
- EDA(탐색적 데이터 분석)
- CDA(확증적 데이터 분석)
분석 전문 인력 - 기초통계학 및 분석 방법에 대한 지식과 분석 경험 - 데이터 사이언티스트
분석 조직 - 데이터 분석 가치 발굴 및 과제 정의
- 인사이트 실행
- 데이터분석 컨트롤 타워
분석수준 진단 데이터 분석의 도입 여부와 활용에 대한 명확한 분석 수준에 대한 점검 - 분석 준비도
- 분석 성숙도
분석 교육 - 데이터 훈련 프로그램 진행
- 비즈니스 전체 분야 데이터 분석 업무 활용
- 가설 검증 능력 확보

- 데이터 분석의 도입 여부와 활용에 대한 명확한 분석수준에 대한 점검을 진행하고 이를 통해 분석 방향성 결정

 


 

빅데이터 분석 방법론

데이터 핵심 가치 추출 및 활용, 데이터 분석 방법론의 필요성

 

 

구분 KDD CRISP-DM
(Cross Industry Standard Process For DataMining)
SEMMA
개념 Knowledge(지식) 기반 즉, Database의 데이터를 통해 통계적 패턴이나 지식을 찾기 위한 표준화된 처리 절차와 방법에 대한 데이터 분석 방법론
( 데이터에서 의미 있는 지식을 찾아내기 위한 전체 발견 절차)

비즈니스의 이해 기반으로 데이터 이해, 모델링, 평가 및 배포 등 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 및 분석 방법론
( 현업 문제를 이해하고 분석해서 실제 활용까지 연결하는 방법론)












SAS사 주도 통계적 방법 기반으로 데이터 샘플링, 탐색, 수정, 모델링, 검증 등의 기능을 제공하여 사용자가 쉽게 마이닝이 가능한 데이터 분석 방법론
( 데이터를 뽑고 살펴보고 고치고 모델 만들고 검증하는 실무 중심 분석 절차)












기반 기술 프로파일링 기술 기반 4단계 계층적 프로세스 모델 기반 통계 기술 기반
추출 대상 Database 도메인 지식 자사 기능
주요 특징 기술과 데이터베이스 중심으로 정리 비즈니스 상황에 따른 결과 해석
(비즈니스 이해, 데이터 마이닝 방법론)
기술적 관점 기반의 분석
(비즈니스 관점 분석이 미약함)
주요 기술 Classification(분류)
Clustering(군집)
Predictive(예측)
RACI 차트(역할별 책임)
Exploratory Data Analysis(EDA)
Correlation Analysis
Neural Network
Logistic Regression
활용 분야 데이터 마이닝
데이터 패턴 해석
ML/AI 응용
비즈니스 데이터 분석
비즈 애플리케이션 적용
일반 데이터 분석
동향 연구활용 IBM SPSS 중점 추진 SAS 통계 패키지 활용
반복 여부 평가 결과 미 충족 시 반복 수행 단계별 반복 수행(분석 품질 향상) 목표 도달까지 반복
순환
분석 단계 5단계 6단계 5단계
분석
상세 절차

- 각 방법론마다 분석 대상 및 목적이 상이하여, 대상/목적에 따른 적합한 데이터 분석 방법론 선정이 중요함

CRISP-DM

개념 - 계층적 프로세스 모델로, 비즈니스 이해를 바탕으로 6단계로 수행하는 데이터 마이닝 방법론
특징 비즈니스 이해, 데이터 마이닝

 

 

빅데이터 분석 시 고려사항

구분 내용
인력/조직 - 분석 전문가 영입
- 분석 전문가 교육 과정
- 관리자 및 운영자의 데이터 분석능력 제고
- 경영진 분석 업무 이해 능력 제고
- 사용자 적극적 참여 및 피드백·개선
기술/프로세스 - 업무에 적합한 분석 기법 사용
- 분석 기법 정기적 개선 및 검증·평가
- 시스템 데이터 통합
- EAI, ETL, ELT 적극 활용
- 분석 성능을 고려한 모델 및 알고리즘 선정
비즈니스/Data - 분석에 필요한 데이터 신뢰성·적시성 고려
- MDM(기준데이터관리) 도입
- 예측·해석·시각화 등 최적화 수행
- 업무 도메인 성격에 부합하는 데이터 분석 방법론 선택

 


빅데이터 플랫폼 아키텍처

개요

개념 - 다양한 데이터를 처리/분석하여 지식을 추출하고, 이를기반으로 지능화된 서비스를 제공하는데 필요한 IT 환경
개념도

 

 

빅데이터 플랫폼 인프라 구조 설계

가. 개념도

나. 상세설명

구분 특징 설명
사용자 계층 분석 애플리케이션
(Analytic Applications)
- 리포팅이나 시각화 툴 등이 포함되며, 예측 분석 툴로는 통계 기반의 SPSS, SAS, R 등이 있음
사용자 인터페이스
(Visualization & Discovery /
Application Development /
Systems Management)
- 사용자 인터페이스는 크게 비즈니스 현업 사용자, 개발자, 관리자로 나뉨
데이터 처리 계층 가속기 (Accelerators) - 소프트웨어 성능을 높이는 도구로, 웹 애플리케이션 가속기는 사이트 접속 시간이나 다운로드 속도 향상에 사용됨
데이터 관리 계층 정보 통합과 거버넌스
(Information Integration &
Governance)
- 빅데이터 플랫폼은 정보 통합 차원에서 구조적, 비구조적, 스트리밍의 여러 데이터를 다뤄야 함
-거버넌스 측면에서는 개인정보 보안, 빅데이터 관련 메타데이터, 데이터 생명주기 관리와 마스터 데이터 연계가 있음

 

빅데이터 플랫폼 데이터 구조 설계

가. 개념도

나. 상세설명

데이터 유형 데이터 형태 기술 특징 데이터 종류
정형 데이터 RDB - RDB
- Aggregator
- 관계형 데이터베이스에서 정형 데이터를 수집하여 HDFS나 HBase 등의 NoSQL에 저장 - RDB
- 스프레드시트 등
반정형 데이터 HTML - Crawling - SNS, 뉴스, 웹 정보 등 인터넷상의 웹 문서와 정보 수집 - HTML, XML, JSON, 웹문서, 웹로그, 센서 데이터 등
실시간
데이터
- Open API - 서비스, 정보, 데이터 등을 개방된 API로 수집
XML - RSS - 웹 기반의 최신 정보를 공유하기 위한 서비스
Log 데이터 - Log Aggregator - 웹서버 로그, 웹로그, 트랜잭션 로그 등 각종 로그 데이터
비정형 데이터 File 데이터 - FTP - CP/IP 프로토콜을 활용하는 인터넷 서버를 통한 각종 파일 송수신 - 소셜 데이터, 문서(워드, 한글), 이미지, 오디오, 비디오 등
WMV, MP3 등 - Streaming - 인터넷에서 음성, 오디오, 비디오 데이터를 실시간 수집

- 정형 데이터는 전통적인 관계형 데이터베이스가 가장 일반적으로, 데이터는 칼럼과 그 칼럼의 데이터 속성에 맞는 데이터로 레코드(행)를 구성
- 비정형 데이터는 숫자, 숫자, 문자 등이 섞여있는, 구조가 정해져 있지 않은 데이터로, Key와 그에 맞는 Value의 쌍 형태로 구성
- 반정형 데이터는 HTML과 XML이 대표적임

 

 

빅데이터 입출력 구조 설계

가. 개념도

나. 상세설명

구분 목적 설명
Hadoop 빅데이터 처리 솔루션 - 여러 개의 컴퓨터를 하나로 묶어 대용량 데이터를 처리
HDFS 하둡의 저장소 역할 - 네트워크로 연결된 여러 머신의 스토리지를 관리하는 역할
MapReduce 대용량 데이터 분산 처리 - 데이터 처리를 위한 프로그래밍 모델
Map단계 Input Data 가공 - 데이터를 가공하여 사용자가 원하는 Key-Value로 변환
- Split: 데이터 입력의 크기
Reduce단계 Key 정보 추출 - 중간 산출물을 Key 기준으로 분배하고, 사용자가 정의한 방법으로 Key 정보를 추출

 

시스템 검증 방안

- 빅데이터 시스템은 데이터 소스를 하둡 HDFS에 저장하고, 저장된 데이터는 MapReduce를 통해 처리함
- 처리된 데이터는 결과값으로 출력되며, 이는 분석 리포팅이나 트랜잭션 시스템 처리를 위해 데이터 웨어하우스로 이전됨
- 빅데이터 처리의 이 3단계마다 테스트를 수행하여 데이터가 오류 없이 처리되도록 해야 함

 

빅데이터 플랫폼 구축시 고려사항

구분 고려사항 설명
데이터 수집·저장체계 다양한 데이터를 안정적으로 수집·저장할 수 있어야 함
품질·표준관리 데이터 정합성, 표준화, 메타데이터 관리가 확보되어야 함
시스템 확장성·성능 대용량 데이터 증가에 대응할 수 있는 분산처리와 성능 확보 필요
가용성·복구성 장애 발생 시에도 서비스 지속이 가능하도록 이중화, 백업, 복구체계 필요
운영 거버넌스·연계성 조직, 역할, 권한, 운영절차와 타 시스템 연계체계 마련 필요
보안 접근통제·보호 개인정보, 중요정보 보호를 위한 권한관리와 보안대책 필요

 

+ Recent posts