CRISP-DM


■ 데이터 마이닝 프로세스


  • 반복적인 프로세스는 예외적인 것이 아니라 일반적이라는 점
  • 한번의 프로세스로 문제를 해결 못했다고 해서 실패했다고 말할 수 없음
  • 프로세스의 모든 과정은 데이터를 탐구하는 과정
    (반복할수록 더 발전하게 됨)


CRISP-DM : Cross Industry Standrd Process for Data Mining
  1. 비지니스의 이해
    • 해결할 문제를 이해하는 것이 중요
    • 문제를 파악해가는 과정을 반복하면서 문재를 재정의하고 해결책을 정의
    • 분석가의 창의성이 중요
    • 강력한 도구의 이용(프로그램 OR 분류, 회귀분석, 확률 추정 등)

  2. 데이터의 이해
    • 비지니스 문제를 해결하는 것이 목표라면 데이터는 해결책을 만드는데 사용할 원자재에 해당
    • 문제에 정확히 부합하는 데이터가 있는 경우는 거의 없으므로 여러 데이터의 장단점을 파악하고 비교하는 것이 중요
    • 각 원시 데이터의 비용과 장점을 추정해 투자를 더 해야할지 결정
    • 데이터를 더 많이 이해하게 됨에 따라 일련의 해결책도 바뀌며, 하나의 팀이 다양한 일을 하도록 분화되기도 함

  3. 데이터의 준비
    • 데이터는 분석기술에서 원하는 형식과 일치하도록 커스덤마이징(Custumizing) 작업 필요
    • 데이터를 이해하는 것과 함께 데이터를 준비하는 과정을 미리 수행
    • 누설(Leak) 데이터 주의

  4. 모델링
    • 모델링 결과로 데이터에서 드러난 규칙에 의해 모델의 종류나 패턴이 만들어 짐
    • 데이터 마이닝 기법을 데에터에 적용하는 초기 단계
    • 기존의 여러 기법과 알고리즘 등 데이터 다이닝에 대한 기본 지식이 중요

  5. 평가
    • 모델링의 신뢰성 확인
    • 패턴의 오류 확인
    • 모델이 원래 비지니스 목적에 부합하는지 보장
    • 정량적 정성적으로 평가

  6. 배치
    • 투자 비용을 회수하기 위해 데이터 마이닝 결과를 실제 활용
    • 데이터 마이닝 결과뿐만 아니라 데이터 마이닝 기술 자체를 활용
      · 사기탐지나 침입 탐지처럼 데이터 과학팀이 따라가기 힘들 정도로 외부환경이
        더 빨리 변함
      · 기업에서 수행해야 할 모델링 작업이 너무 많아서 데이터 과학팀이 일일이
        수작업으로 모델을 만들 수 없음
    • 데이터 마이닝 단계 자체를 실제 운용 환경에 배치

  7. 반복
    • 데이터 마이닝 프로세슬르 한 차례 수행하면 비지니스 문제를 더 더 많이 앎
    • 프로세스를 반복할수록 더 좋은 해결책을 만들 수 있음
    • 데이터 마이닝 프로세스는 탐구하는 성향이 강하므로 새로운 사실을 변견한 후에는 이전 단계로 되돌아갈 수 있는 융통성 필요

댓글 없음:

댓글 쓰기