본문 바로가기

지역정보

텍스트 마이닝의 개요 중요한 이유 몇 가지

텍스트 분석의 이유

우리가 텍스트를 분석하는 이유는 여러 가지가 있다. 텍스트(text)는 여러 의미가 있는데 글자로 이루어진 단위라고 생각하면 쉽다. 여러 다양한 이유 중에서도 텍스트 분석의 궁극적 목표는 원문을 이해하는 것이다. 이런 궁극적인 목표에 이루기 위해서는 텍스트 분석 기술에 더 많은 발전과 진보가 이루어져야 한다. 이 때문에 텍스트 분석의 목표는 전체를 이해하는 작업보다는 처리가 용이하고 다루기 쉬운 하위작업들을 선행해서 다루어 왔다. 텍스트 분석이 뭘까? 텍스트 분석은 텍스트 마이닝(text mining)의 고유의 영역이다. 마이닝(mining)은 '캐다'다는 의미로 텍스트로부터 알아내고자 하는 것은 캐내는 것이라 이해할 수 있다. 텍스트 마이닝은 비정형 텍스트에서 흥미롭고 의미 있는 정보를 발견하는 연구영역으로, 일반적으로 특정한 목적에 대해 의미 있는 정보를 뽑아내는 일련의 텍스트 분석 및 처리과정을 통해 이루어진다.(Hearst, 1999; Feldman & Sanger, 2007). 비정형이라는 말은 일정한 형태나 형식이 없다는 말이다. 여기서 흥미롭다는 것은 특별하고 숨겨져 있으며, 기존에 알려져 있지 않고 잠재적으로 유용한 것을 의미한다. 텍스트 마이닝과 데이터 마이닝의 차이점은 무엇일까. 텍스트 마이닝이 데이터 마이닝과 가장 큰 차이점은 데이터 마이닝의 분석 대상이 되는 데이터가 관계형 데이터베이스와 같은 곳에 정형화된 데이터로 소장되어 있고 이런 정형화된 데이터에서 유용한 패턴을 찾는 것이 데이터 마이닝의 주된 임무이다. 반면에 텍스트 마이닝은 비정형화된 텍스트에서 유용한 패턴이나 정보를 찾는 것이다. 즉, 자료가 비정형이냐 정형이냐의 차이인 것이다. 최근 빅데이터 시대를 맞이하여 웹 2.0과 소셜 네트워킹 사이트들의 급격한 성장이 이루어졌고 방대한 양의 비정형 데이터가 생산되고 있다. 우리가 알고 있는 페이스북, 트위터, 카카오톡 등 텍스트로 이루어진 네트워크가 비정형 데이터라고 할 수 있다. 비정형 텍스트 데이터는 얼마나 많을까? 전 세계적으로 텍스트 데이터가 차지하고 있는 비율을 추측해 본다면 세상에 존재하는 데이터 중 적어도 70~80%가 비정형화 데이터이다(Chakraborty, 2014). 여기에는 이메일, 신문, 웹기사, 내부 문서, 전화 통화 속기록, 연구 보고서, 블로그, 특히 데이터 등 다양한 데이터가 속한다. IDC의 디지털 유니버스 스터디에 따르면 2010년대 초반에 전 세계 비정형 데이터의 총 규모는 1.8제타바이트이고 2020년에는 약 40제타바이트로 증가할 것이라고 예측하였다. 텍스트 마이닝의 중요성과 활용을 살펴 보자. 이에 따라 텍스트 마이닝의 중요성이 한층 커졌으며 또한 하드웨어와 소프트웨어에서의 최근의 진보는 텍스트 마이닝이 적용될 수 있는 다양한 분야가 생겨났다. 예를 들어, 경영학에서 상품평에 나타난 고객의 의견들을 분석함으로써 상품에 대한 고객들의 만족도를 조사할 수 있다. 공공정책적인 측면에서 정부의 정책에 대해서 온라인에 나타난 대중들의 생각을 분석해서 정책전략 수집 및 홍보 등에 활용할 수 있다. 의료 정보의 경우 의학 학술문헌에 보고된 질병과 특정 유전자와의 관계들을 네트워크화해서 질병과 유전자 간의 새로운 관계를 규명할 수도 있다. 이처럼 다양한 영역에서 텍스트 마이닝이 사용되고 있으며 그 중요도는 비정형 데이터의 급속한 증가와 맞물려서 점점 증대될 것이다.