본문 바로가기

지역정보

데이터 마이닝을 알아보는 시간

데이터 마이닝

데이터 마이닝은 대량의 데이터로부터 정보를 추출하고 이를 바탕으로 의사결정에 이용하는 것을 의미합니다. 사전적 의미로 데이터에서 채굴한다는 의미로 자료에서 가치 있는 것을 캐내는 작업을 말합니다. 즉, 대량의 데이터로부터 쉽게 드러나지 않는 유용한 정보들을 추출하는 과정을 말합니다. 여기에서 정보는 묵시적이고 잘 알려져 있지 않지만 잠재적으로 활용가치가 있는 정보를 의미합니다. 데이터 마이닝은 흔히 정보 발견이라고도 불리며 지식추출, 정보 추수, 정보 고고학, 자료 패턴 처리 등으로 불리기도 합니다. 데이터 마이닝은 정보기술의 발달과 더불어 발전되어 왔습니다. 특히 데이터베이스 기술의 발달과 데이터웨어하우징, 인공지능의 전문가 시스템과 기계학습 등이 데이터 마이닝을 발달시키는데 주요한 요인을 제공하였습니다. 데이터 마이닝은 현재 광범위한 영역에서 활용되고 있으며, 기업에서 뿐만 아니라, 공공기관, 특히 검찰이나 경찰, 생명공학 등 보다 복잡한 정보 분석이 요구되는 기관에서는 예외 없이 데이터 마이닝을 활용하고 있습니다. 이런 추세라면 데이터 마이닝 기법과 그 분야는 앞으로도 계속 확장될 전망입니다. 데이터 마이닝 분석 과정 데이터 마이닝의 분석 과정은 일반적으로 단계를 나누는 방법에 따라 델파와 셈마로 구분됩니다. 델파는 분석 자료의 설계, 자료에 대한 탐색, 결과의 정리, 그리고 모형 도출 및 최종 모형 선정을 위한 분석의 5단계로 구분하며 셈 마는 샘플링, 탐색, 변형 및 조정, 모형화, 평가의 5단계로 구분합니다. 다음은 설계입니다. 데이터 마이닝 과정 중 가장 중요한 부분 중 하나입니다. 분석하고자 하는 원본 데이터를 분석이 가능한 형태로 재구성하여 데이터 마트를 구축하고 필요에 따라 데이터를 샘플링합니다. 그리고 탐색입니다. 각 변수에 대해 분포, 분석 목적과의 관계, 변수 간 비선형 관계 등을 관찰하기 위해 분산분석이나 크로스테뷸레이션 등의 통계분석 방법을 사용하거나 각종 그래프를 통한 시각적 관찰을 사용합니다. 다음은 결과 정리입니다. 탐색 과정에서 발견된 여러 가지 결과들을 조합하는 과정으로 각 변수에 대하여 결측치를 확인하고 그 원인을 파악합니다. 결측치가 지나치게 많은 변수는 일반적으로 분석에서 제외시키기도 하지만, 중요 변수인 경우 변수의 설계를 다시 해야 할 수도 있습니다. 모형 도출 자료의 탐색과 결과 정리 후 데이터 마트 재구성이 필요한 경우 설계 단계부터 다시 시작하거나 기존의 변수를 변환하거나 변수들 간의 결합을 통하여 분석에 새로운 변수를 생성합니다. 아울러 분석에 사용될 수 없거나 상관도가 높은 변수들은 데이터 마트에서 제외하는 작업도 이 과정 중에 해야 할 일입니다. 그리고 변환되거나 결합되어 새롭게 생성된 변수는 탐색과정을 통해 다시 관찰되어야 합니다. 그리고 분석입니다. 모형 도출에 필요한 자료들이 준비되면 적절한 모형들을 선택하여 모형 적합을 시도합니다. 데이터 마이닝에서 주로 사용하는 비모수적인 모형은 앞으로의 자료에 대한 예측력이나 분류에 대한 정확성을 모형 도출 시 측정할 수 없다는 단점이 있습니다. 이와 같은 단점을 극복하기 위해 분석에 사용할 전체 자료 중 70%만 모형 적합에 사용하고 나머지는 구하여진 모형의 정확성을 측정하기 위한 확인 자료로 사용합니다. 여러 모형들에 대한 평가는 동일한 확인 자료에 의한 오류에 의해 이루어지고 그중 가장 정확하고 안정적이며 목적에 맞는 모형이 선택됩니다. 샘플링을 알아보겠습니다. 샘플링 단계는 데이터 마이닝의 특성상 방대한 양의 데이터를 보아야 하기 때문에 필요한 단계로 방대한 양의 데이터에서 그 데이터를 가장 잘 대표할 수 있는 일부의 데이터를 추출하는 것입니다. 이를 통해 시간과 비용을 절감해서 효율적으로 작업을 진행할 수 있습니다. 가장 널리 사용되는 샘플링 방법은 단순 임의 추출법, 층화 추출법, 계통추출법, 집락 추출법 등이 있습니다. 샘플링 과정에서 가장 유의할 점은 모집단을 대표할 수 없는 한쪽으로 치우쳐진 샘플이 추출되는 경우로 이는 샘플링 후 기본적인 몇 가지의 자료 탐색과정을 반드시 거쳐야 합니다. 탐색입니다. 탐색은 데이터의 탐색과정에서 이미 알고 있는 사실들을 확인하여 수치화하는 작업을 시작으로 보유하고 있는 수많은 변수의 관계를 살펴보는 단계입니다. 실제로 한 모집단으로 알고 있던 것이 두 개 이상으로 나우 어지기도 하고 수십 개 이상의 많은 변수들이 실제로 우리에게 정보를 제공하는 소수의 변수들로 줄어들기도 하고 기존의 변수들이 새로운 변수로 바꾸어지기도 합니다. 단계 변형 및 조정입니다. 단계 변형 및 조정은 여러 가지 정보들에 대해 기존의 변수를 이용하여 새로운 변수를 생성함으로써 얻어지는 것이다. 이 단계에서 생성되거나 변형된 변수들이 다음 단계인 모형화 단계에서 아주 유용하게 이용되게 됩니다. 특히, 마이크로어레이 자료는 유전자의 수는 많고 표본 수는 적기 때문에 일반적 통계적 가정의 많은 수의 표본을 만족할 수 없어서, 이미 알려진 기존의 방법을 적용하려면 변수의 수를 줄여야 가능하므로 반응 범주와 밀접한 연관을 갖는 변수를 선택하여야 좋은 분류 분석이 가능합니다. 모형화입니다. 모형화는 데이터 마이닝 기법의 과정들 중에서 가장 중요한 단계로, 선행 단계에서 선정된 주요한 변수들을 사용해서 다양한 모형을 생성하게 되는 단계입니다. 예를 들면 연관성 규칙에서는 아프리오리 알고리즘을 통해서 연관성 규칙을 생성하는 것을 말합니다. 평가입니다. 평가는 적합한 두 개 이상의 모형의 효과를 비교해서 가장 좋은 모형을 선택하게 도와주는 단계입니다. 선택된 모형은 실제 모집단에 반영해서 그 효과를 재평가할 수 있고, 이렇게 해서 새로운 문제를 제시해서 이전 작업을 다시 반복할 수도 있습니다. 데이터 마이닝의 기능 데이터 마이닝의 기능에는 분류성, 연관성, 연속적 또는 일시적 패턴, 군집과 세분화, 유사 시간적 순차성이 있습니다. 연관성 규칙은 하나의 거래나 사건에 포함되어 있는 둘 이상의 품목들의 경향을 파악해서 상호 관련성을 발견하는 것으로, 즉, 대용량 데이터베이스에 존재하는 항목 간의 관련성을 찾아내는 작업을 말합니다. 아그라왈이 1993년에 처음 소개한 이후 1994년에는 후보 항목 집합을 구성하고, 발생 빈도수를 계산하고 난 후에 사용자가 정의한 최소 지지도를 기초로 빈발 항목 집합들을 결정하는 아프리오리, 아프리오리티드 알고리즘을 제안하였습니다. 연관성 규칙은 특정 아이템 집합에서 특정 아이템의 거래가 발생하면 다른 특정 아이템 집합의 특정 아이템의 거래가 발생하는 현상을 연관성이라고 하고 이러한 현상을 발견하고자 하는 분석을 데이터 마이닝 기법에서 연관성 분석 또는 연관성 규칙 발견 분석이라고 합니다. 마케팅에서는 고객이 동시에 구매한 장바구니를 살펴봄으로써 거래되는 상품들의 관계를 발견하거나 분석한다는 의미에서 장바구니 분석이라고 합니다. 연관성 규칙 분석을 위한 알고리즘은 다양하지만 본 연구에서는 웨카에서 제공하는 아프리오리, 프레딕티브아프리오리, 터티우스를 사용합니다. 아프리오리 알고리즘은 연관성 규칙 분석의 대표적인 알고리즘이며 프레딕티브아프리오리 알고리즘은 아프리오리 알고리즘과 거의 흡사한 알고리즘이나 최소 지지도와 최소 신뢰도를 분석자가 지정하지 않는다는 점이 가장 큰 차이점입니다. 아프리오리 알고리즘 연관성 규칙의 대표적인 알고리즘은 아그라왈 등이 연구한 아프리오리 알고리즘이다. 분석 대상 트랜잭션을 탐색하고 최소 지지도와 최소 신뢰도를 결정합니다. 결합된 빈발 항목 집합 수가 전체 항목수와 동일할 때까지 다음 과정을 반복합니다. 군집 분석은 탐색적 자료 분석 방법으로 유사성을 갖는 자료들끼리 서로 묶어서 군집을 형성해나가는 분석 방법입니다. 오랜 역사를 갖고 있으며 그동안 여러 응용 분야에 걸쳐 널리 사용되어 왔습니다. 마이크로어레이 자료에서는 에이슨 에탈 1998년에 처음으로 적용한 이래 이 분야의 가장 대표적인 분석 방법으로 자리를 잡았습니다. 이 기술의 적용으로 개별 유전자 각각에 대한 분석 차원을 넘어서 대규모의 유전자 전체에 대한 발현 형태를 밝혀낼 수 있게 되었습니다.