■ 데이터 마이닝 프로세스
- 반복적인 프로세스는 예외적인 것이 아니라 일반적이라는 점
- 한번의 프로세스로 문제를 해결 못했다고 해서 실패했다고 말할 수 없음
- 프로세스의 모든 과정은 데이터를 탐구하는 과정
(반복할수록 더 발전하게 됨)
CRISP-DM : Cross Industry Standrd Process for Data Mining |
- 비지니스의 이해
- 해결할 문제를 이해하는 것이 중요
- 문제를 파악해가는 과정을 반복하면서 문재를 재정의하고 해결책을 정의
- 분석가의 창의성이 중요
- 강력한 도구의 이용(프로그램 OR 분류, 회귀분석, 확률 추정 등)
- 데이터의 이해
- 비지니스 문제를 해결하는 것이 목표라면 데이터는 해결책을 만드는데 사용할 원자재에 해당
- 문제에 정확히 부합하는 데이터가 있는 경우는 거의 없으므로 여러 데이터의 장단점을 파악하고 비교하는 것이 중요
- 각 원시 데이터의 비용과 장점을 추정해 투자를 더 해야할지 결정
- 데이터를 더 많이 이해하게 됨에 따라 일련의 해결책도 바뀌며, 하나의 팀이 다양한 일을 하도록 분화되기도 함
- 데이터의 준비
- 데이터는 분석기술에서 원하는 형식과 일치하도록 커스덤마이징(Custumizing) 작업 필요
- 데이터를 이해하는 것과 함께 데이터를 준비하는 과정을 미리 수행
- 누설(Leak) 데이터 주의
- 모델링
- 모델링 결과로 데이터에서 드러난 규칙에 의해 모델의 종류나 패턴이 만들어 짐
- 데이터 마이닝 기법을 데에터에 적용하는 초기 단계
- 기존의 여러 기법과 알고리즘 등 데이터 다이닝에 대한 기본 지식이 중요
- 평가
- 모델링의 신뢰성 확인
- 패턴의 오류 확인
- 모델이 원래 비지니스 목적에 부합하는지 보장
- 정량적 정성적으로 평가
- 배치
- 투자 비용을 회수하기 위해 데이터 마이닝 결과를 실제 활용
- 데이터 마이닝 결과뿐만 아니라 데이터 마이닝 기술 자체를 활용
· 사기탐지나 침입 탐지처럼 데이터 과학팀이 따라가기 힘들 정도로 외부환경이
더 빨리 변함
· 기업에서 수행해야 할 모델링 작업이 너무 많아서 데이터 과학팀이 일일이
수작업으로 모델을 만들 수 없음 - 데이터 마이닝 단계 자체를 실제 운용 환경에 배치
- 반복
- 데이터 마이닝 프로세슬르 한 차례 수행하면 비지니스 문제를 더 더 많이 앎
- 프로세스를 반복할수록 더 좋은 해결책을 만들 수 있음
- 데이터 마이닝 프로세스는 탐구하는 성향이 강하므로 새로운 사실을 변견한 후에는 이전 단계로 되돌아갈 수 있는 융통성 필요
댓글 없음:
댓글 쓰기