1. 데이터 과학
참조: 비지니스를 위한 데이터 과학(한빛 미디어) |
- 데이터 주도 의사 결정(Data Driven Decision making, DDD)
수한 직관 보다는 데이터 분석에 기반해 의사 결정하는 행위를 말함- DDD 1형데이터 안에서 찾아내야 하는 결정 사항(임신한 사살을 나중에 알려준 고객 데이터를 분석함으로써, 어떤 고객이 임신하게 될 지 예측)
- DDD 2형대규모로 반복되어 데이터 분석에 기반한 의사 결정의 정확도가 조금만 올라가도 큰 이득을 주는 결정 사항 (고객 이탈 문제)
- 데이터 과학과 빅데이터의 관계
데이터 마이닝 기술을 구현하기 위해 빅데이터 기술을 종종 사용- 빅데이터 기술을 대부분의 경우 데이터 마이닝 기술 및 그 외 데이터 과학 활동을 지원하는 데이터 처리에 이용
- 빅데이터 기술을 사용하면 생산성은 상당히 증가
2. 데이터 과학 및 데이터 마이닝
- 데이터 과학과 데이터 마이닝은 종종 혼용해서 사용됨
- 데이터 과학: 데이터로부터 지식을 뽑아내는 방법을 알려 주는 근본 원리
- 데이터 마이닝: 원리에 따르는 기술을 이용해 데이터에서 지식을 뽑아내는 기법
3. 빅 데이터 3V
- 규모(Volumne) 속도(Velocity) 다양성(Variety) 을 빅데이터 3가지 특징이라 한다.
- 빅데이터 처리 플랫폼
- 디양한 데이터 소스에서 수집한 데이터를 처리, 분석하여 지식을 추출하고, 이를 기반으로 지능화된 서비스를 제공하는 데 필요한 IT 환경
- 빅데이터 플랫폼은 확장성 있는 대용량 처리 능력, 이기종 데이터 수집 및 통합 처리 능력, 빠른 데이터 접근 및 처리 능력, 대량의 데이터를 저장 관리할 수 있는 능력, 대량의 이기종 데이터를 원하는 수준으로 분석할 수 있는 능력을 갖춰야 한다.
- R 은 빅데이터 플랫폼에서 분석할 수 있는 능력을 갖춘 Software 이다
4. 상위 기업의 빅데이터 진행 단계
- 데이터의 수집, 저장, 검색, 처리단계까지는 마무리되어있다고 볼 수 있다.
- 다음은 분석에 대해 집중할 때다. 실질적인 빅데이터의 평가를 위한 요인을 제공하고 ROI를 측정할 수 있는 단계가 바로 분석이다
5. 빅데이터 요소 기술 구성 및 분류
요소 기술 | 설명 | 해당 기술 |
---|---|---|
빅데이터 수집 | 조직내부와 외부의 분산된 여러 데이터 소스로부터 필요로 하는 데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된 기술로 단순 데이터 확보가 아닌 검색/수집/변환을 통해 정제된 데이터를 확보하는 기술 | ETL/크롤링 엔진/로그수집기/센싱/RSS, Open API 등 |
빅데이터 공유 | 서로 다른 시스템간의 데이터 공유 | 멀티 테넌트 데이터 공유/협업 필터링 등 |
빅데이터 저장 | 작은 데이터라도 모두 저장하여 실시간으로 저렴하게 데이터를 처리하고, 처리된 데이터를 더 빠르고 쉽게 분석하여, 이를 비즈니스 의사 결정에 바로 이용하는 기술 | 병렬 DBMS/하둡(Hadoop)/NoSQL 등 |
빅데이터 처리 | 엄청난 양의 데이터의 저장․수집․관리․유통․분석을 처리하는 일련의 기술 | 실시간 처리/분산 병렬 처리/인-메모리처리/인-데이터베이스 처리 |
빅데이터 분석 | 데이터를 효율적으로 정확하게 분석하여 비즈니스 등의 영역에 적용하기 위한 기술로 이미 여러 영역에서 활용해 온 기술임 | 통계 분석/데이터 마이닝/예측 분석/최적화 |
빅데이터 시각화 | 자료를 시각적으로 묘사하는 학문으로 빅데이터는 기존의 단순 선형적 구조의 방식으로 표현하기 힘들기 때문에 빅데이터 시각화 기술이 필수적임 | 시간시각화/분포시각화/관계시각화/비교시각화/공간시각화/인포그래픽 |
6. Hadoop Eco-system 기반의 Batch(배치)처리 아키텍처 일반
- Apache Hive란?
Hive는 Hadoop 상의 오픈소스 DW 솔루션이다. DW(Data Warehouse)는 리포팅 및 분석을 위한 DB라 보면 되겠다.
7. GNU R
- GNU R은 통계 분석과 graphics(visualization) 분야에 특화된 프로그램 언어와 패키지로 구성된 소프트웨어 환경이다
- R은 하나의 컴퓨터에 처리해야 할 데이터를 메모리 상에 모두 올려서 하나의 CPU만으로 분석한다. 처리해야 할 데이터가 많아짐에 따라 메모리/CPU 상의 제약을 풀어 주는 패키지들이 있다.
- doSMP package: 멀티코어를 사용한다.
- Bigmemory package: shared 메모리에 데이터를 저장한다. 메모리에는 값(Value)에 대한 레퍼런스만 저장하고 디스크에 값을 저장한다.
- snow package: 컴퓨터 클러스터 환경에서 R 프로그램을 수행할 수 있다.
8. R의 SNOW PACKAGE
- snow package가 클러스터 환경에서 처리하는 방식
- 전형적인 분할 점령 방식
- Apache Hive와 같은 고수준의 데이터 처리 기술과 결합한 rhive package도 있다.
댓글 없음:
댓글 쓰기