데이터 과학, 빅데이터, 데이터 마이닝에서의 R

1. 데이터 과학

참조: 비지니스를 위한 데이터 과학(한빛 미디어)


  • 데이터 주도 의사 결정(Data Driven Decision making, DDD)
    수한 직관 보다는 데이터 분석에 기반해 의사 결정하는 행위를 말함
    1. DDD 1형데이터 안에서 찾아내야 하는 결정 사항(임신한 사살을 나중에 알려준 고객 데이터를 분석함으로써, 어떤 고객이 임신하게 될 지 예측)
    2. DDD 2형대규모로 반복되어 데이터 분석에 기반한 의사 결정의 정확도가 조금만 올라가도 큰 이득을 주는 결정 사항 (고객 이탈 문제) 
  • 데이터 과학과 빅데이터의 관계
    데이터 마이닝 기술을 구현하기 위해 빅데이터 기술을 종종 사용
    1. 빅데이터 기술을 대부분의 경우 데이터 마이닝 기술 및 그 외 데이터 과학 활동을 지원하는 데이터 처리에 이용
    2. 빅데이터 기술을 사용하면 생산성은 상당히 증가 

2. 데이터 과학 및 데이터 마이닝 

  • 데이터 과학과 데이터 마이닝은 종종 혼용해서 사용됨 
    1. 데이터 과학: 데이터로부터 지식을 뽑아내는 방법을 알려 주는 근본 원리 
    2. 데이터 마이닝: 원리에 따르는 기술을 이용해 데이터에서 지식을 뽑아내는 기법

3. 빅 데이터 3V

출처: 빅데이터 플랫품 전략 - 전자출판사

  • 규모(Volumne) 속도(Velocity) 다양성(Variety) 을 빅데이터 3가지 특징이라 한다.
  • 빅데이터 처리 플랫폼
    1. 디양한 데이터 소스에서 수집한 데이터를 처리, 분석하여 지식을 추출하고, 이를 기반으로 지능화된 서비스를 제공하는 데 필요한 IT 환경
    2. 빅데이터 플랫폼은 확장성 있는 대용량 처리 능력, 이기종 데이터 수집 및 통합 처리 능력, 빠른 데이터 접근 및 처리 능력, 대량의 데이터를 저장 관리할 수 있는 능력, 대량의 이기종 데이터를 원하는 수준으로 분석할 수 있는 능력을 갖춰야 한다.
  •  R 은 빅데이터 플랫폼에서 분석할 수 있는 능력을 갖춘   Software 이다

4. 상위 기업의 빅데이터 진행 단계

출처 : dbguide.net, Big Data의 시대 : Are you Ready ?

  • 데이터의 수집, 저장, 검색, 처리단계까지는 마무리되어있다고 볼 수 있다.
  • 다음은 분석에 대해 집중할 때다. 실질적인 빅데이터의 평가를 위한 요인을 제공하고 ROI를 측정할 수 있는 단계가 바로 분석이다

5. 빅데이터 요소 기술 구성 및 분류



요소 기술 설명 해당 기술
빅데이터 수집 조직내부와 외부의 분산된 여러 데이터 소스로부터 필요로 하는 데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된 기술로 단순 데이터 확보가 아닌 검색/수집/변환을 통해 정제된 데이터를 확보하는 기술 ETL/크롤링 엔진/로그수집기/센싱/RSS, Open API 등
빅데이터 공유 서로 다른 시스템간의 데이터 공유 멀티 테넌트 데이터 공유/협업 필터링 등
빅데이터 저장 작은 데이터라도 모두 저장하여 실시간으로 저렴하게 데이터를 처리하고, 처리된 데이터를 더 빠르고 쉽게 분석하여, 이를 비즈니스 의사 결정에 바로 이용하는 기술 병렬 DBMS/하둡(Hadoop)/NoSQL 등
빅데이터 처리 엄청난 양의 데이터의 저장․수집․관리․유통․분석을 처리하는 일련의 기술 실시간 처리/분산 병렬 처리/인-메모리처리/인-데이터베이스 처리
빅데이터 분석 데이터를 효율적으로 정확하게 분석하여 비즈니스 등의 영역에 적용하기 위한 기술로 이미 여러 영역에서 활용해 온 기술임 통계 분석/데이터 마이닝/예측 분석/최적화
빅데이터 시각화 자료를 시각적으로 묘사하는 학문으로 빅데이터는 기존의 단순 선형적 구조의 방식으로 표현하기 힘들기 때문에 빅데이터 시각화 기술이 필수적임 시간시각화/분포시각화/관계시각화/비교시각화/공간시각화/인포그래픽

6. Hadoop Eco-system 기반의 Batch(배치)처리 아키텍처 일반


  • Apache Hive란?
    Hive는 Hadoop 상의 오픈소스 DW 솔루션이다. DW(Data Warehouse)는 리포팅 및 분석을 위한 DB라 보면 되겠다.

7. GNU R

  • GNU R은 통계 분석과 graphics(visualization) 분야에 특화된 프로그램 언어와 패키지로 구성된 소프트웨어 환경이다
  • R은 하나의 컴퓨터에 처리해야 할 데이터를 메모리 상에 모두 올려서 하나의 CPU만으로 분석한다. 처리해야 할 데이터가 많아짐에 따라 메모리/CPU 상의 제약을 풀어 주는 패키지들이 있다.
    1. doSMP package: 멀티코어를 사용한다.
    2. Bigmemory package: shared 메모리에 데이터를 저장한다. 메모리에는 값(Value)에 대한 레퍼런스만 저장하고 디스크에 값을 저장한다.
    3. snow package: 컴퓨터 클러스터 환경에서 R 프로그램을 수행할 수 있다.

8. R의 SNOW PACKAGE


  • snow package가 클러스터 환경에서 처리하는 방식
  • 전형적인 분할 점령 방식
  • Apache Hive와 같은 고수준의 데이터 처리 기술과 결합한 rhive package도 있다.

댓글 없음:

댓글 쓰기