데이터 마이닝 - 걷히는 안개를 바라 보면서

http://ee.snu.ac.kr/~shim 

데이터 마이닝은 여러 가지로 정의할 수 있지만 쉽게 설명하면 많은 양의 데이터에 함축적으로 들어가 있는 지식이나 패턴을 찾아내는 기술이다. 데이터 마이닝은 최근부터 연구가 시작되고 소프트웨어가 개발된 최첨단의 전산학 분야중의 하나다. 1983년에 IBM Almaden 연구소에서 Rakesh Agrawal 박사를 중심으로 Quest 데이터 마이닝 프로젝트가 시작된 이후로 선진국의 유수 연구소와 대학원을 중심으로 활발하게 연구가 되어왔다. 1994년 필자가 IBM Almaden 연구소에서 Rakesh Agrawal 박사의 지도 아래 데이터 마이닝 연구를 시작할 때만 하더라도 이 새로운 분야가 정말 성공할 수 있을지, 또 사람들을 위해 정말로 유용하게 쓰일 수 있는지 확실하지는 않았다. 정말로 안개가 가득한 산 속에서 어디로 가야할지 모르고 헤매는 듯한 기분으로 데이터 마이닝 연구를 시작했다. 하지만 그 뒤로 IBM Almaden 연구소와 벨(Bell) 연구소에서 데이터 마이닝에 관련된 여러 가지 기술을 개발했고 여러 논문을 썼으며 또 미국 특허들을 취득하거나 신청했다. 그러는 가운데 데이터 마이닝에 관한 필자의 안목도 조금씩 늘어갔다. 처음에 뿌연 안개 속에서 헤매는 것 같았던 때에 비하면 이제는 필자에게는 그 안개가 하나씩 걷히는 것 같은 기분이다. 이제 데이터 마이닝에 관해 좀 더 확실하게 볼 수 있게 되었고, 새로운 데이터마이닝 알고리즘의 개발과 데이터마이밍 가술을 여러 가지 응용분야에 적용해 보려고 노력하고 있다. 본 튜토리얼은 의료분야에 종사하시는 분들에게 최근에 개발된 데이터마이닝 기술을 소개하여 의료 분야에서 데이터마이닝 기술을 적용해 볼수 있도록 도와주고 또한 같이 공동 연구를 할 수 있는지 알아보는 기회로 삼고자 한다.

데이터 마이닝, 왜 알아야 하나
 이제는 많은 회사들이 자신의 비즈니스에 관련된 여러 가지 데이터를 모아 데이터베이스 시스템에 넣어두고 있고 또 이 데이터의 양은 매년 끊임없이 증가하고 있다. 또한 인터넷과 전자상거래의 급속하게 보급되면서 많은 양의 소비자와 구매에 관련된 데이터가 자동으로 컴퓨터에 모이게 됐다. 이로 인해 과거에는 가능하지 않았던 아주 거대한 양의 데이터를 우리 주변에서 너무나 쉽게 찾아볼 수 있는 시대가 됐다. 하지만 이렇게 모아놓은 데이터로부터 아주 유용한 정보를 찾아내 마케팅이나 회사의 이익을 효율적으로 증대하기 위해 사용하는 데는 아직도 어려움이 많다. 그 이유 중 하나는 이 정보가 아주 많은 양의 데이터 안에 함축적으로 숨어 있기 때문에 사람의 눈으로 일일이 조사하는 것이 불가능하기 때문이다. 다행스럽게도 새로 도래한 데이터 마이닝 분야에서 개발된 기술은 이러한 데이터로부터 유용하고 값진 정보를 아주 효과적으로 찾아내 큰 회사뿐만 아니라 개인의 일상생활도 편리하게 도와줄 수 있다. 

데이터 마이닝이란
 앞서 설명한 것처럼 데이터 마이닝은 많은 양의 데이터에 함축적으로 들어가 있는 지식이나 패턴을 찾아내는 기술이라고 정의할 수 있다. 데이터 마이닝 기술은 백화점에서 물건을 진열할 때 고객의 움직임을 줄여주기 위해 활용할 수 있고, 고객의 구매 패턴을 보고 유용한 패턴을 찾아내 소비자가 살 물건을 미리 예측하고, 쿠폰을 발행해 관심을 유발함으로써 판매를 증진할 수도 있다. 보험 회사에서는 고객이 다른 회사로 옮기는 것을 방지하거나 고객의 위험성에 따라 보험료를 차등화해 제공하는 데 사용할 수 있다. 또 신용카드 회사에서는 훔친 신용카드를 사용하는 경우를 발견해 더 이상의 불법 사용을 막는 데 사용할 수 있고, 새로운 고객이 신용카드를 신청할 경우에 카드 발급 결정에 사용할 수도 있다.
전자 상거래를 위한 웹 서버인 경우에는 소비자가 방문한 웹 페이지와 구매한 물건과 소비자의 특징을 보관하고 있기 때문에 이 데이터를 분석하면 각각의 사용자에 맞는 웹 페이지를 동적으로 그때 그때 생성해주거나, 모든 소비자에게 동일한 웹 페이지를 제공하는 것이 아니라 소비자의 관심에 따라 다른 웹 페이지를 동적으로 만들어 제공하는 개인화(pesonalization) 서비스를 가능하게 할 수도 있다. 또 피자헛 가게를 새로운 장소에 개점할 경우에 과거의 다른 피자헛 가게가 세워진 곳에 관련된 정보로부터 새로 세우는 장소에서 성공할지를 예측하는 데도 사용할 수 있다. 
또한 교차 판매(cross-selling)나 상승 판매(up-selling) 등을 통해 회사의 판매 실적을 더 높일 수도 있다. 교차 판매란 서로 다른 부류에 속하는 상품이지만 서로 연관돼서 고객들이 구매하는 경우에 알아낸 후 연관된 상품을 고객에게 추천해 판매하는 것을 뜻한다. 예를 들어 장난감을 사는 고객이 생명보험에 들 가능성이 많다면 장난감을 사는 고객에게 생명보험에 관한 정보도 제공해 보험에 가입할 수 있도록 만드는 것을 말한다. 이 밖에도 여러 분야에서 데이터 마이닝 기술을 유용하게 사용할 수 있다. 

데이터 마이닝 기술의 실제 사용 예
유럽의 휴대전화 회사
 유럽의 어느 회사에서는 분기마다 소비자 중 4% 정도가 다른 전화 회사로 바꾸고 있었다고 한다. 이때 회사에서 모든 소비자를 무작위로 일일이 전화로 접촉할 경우에 25명당 약 한 명 꼴로 다른 회사로 바꾸려는 소비자를 만날 수 있었다고 한다. 회사 직원이 전화로 고객을 접촉하기 위해서는 한 명당 약 3.10달러가 들기 때문에 이탈하려는 소비자 하나 찾기 위해 25명을 접촉할 경우에 드는 비용은 약 80.00달러였다. 하지만 전화 회사를 바꾸려는 한 명의 소비자를 찾기 위해 60.00달러 정도의 돈을 써서 바꾸지 않도록 할 수 있어야만 손해를 보지 않는다고 한다. 그래서 이 회사는 데이터 마이닝 기술을 써서 휴대전화 carrier를 다른 회사로 바꾸려는 사람들의 그룹을 찾아낸 후 집중적으로 접촉해, 다른 회사 서비스로 바꾸는 소비자의 비율을 1%대로 떨어뜨려 회사의 이익을 증대시켰다고 한다.

미국의 제약회사
 미국의 어떤 제약회사에서는 3만 5000개의 약국에 관련된 정보를 수집했는데 열두 달 동안 처방전을 발행한 60만 명 중에서 2500명이 제품의 브랜드를 바꾸었다고 한다. 이 회사의 경우에 있어 각각의 처방전을 발행하는 사람들로부터 처방전 하나만 더 발행하도록 할 경우에 매년 5200만 달러를 각각의 회사에 더 벌게 해줄 수 있다고 한다. 그래서 의사들이 처방전을 환자에게 줄 때 왜 다른 제약회사의 제품으로 바꾸는지에 관한 원인을 찾기 위해 데이터 마이닝 기술을 사용했다고 한다. 

프랑스 파리의 교통 흐름 예측
 파리에서 사람들이 사용하는 교통수단에 대한 40만 명의 조사(survey) 데이터를 모은 후 파리에 사는 사람들 중에서 어떤 사람이 걸어 다닐지, 자가용을 이용할지, 대중교통 수단을 이용할지 분류 기법을 이용해 예측한 후 대중교통 정책을 수립하는 데 사용했다고 한다.

미국에서 의료보험 사기를 찾아냄
 의사들이나 병원에서 의료보험회사에 제출하는 수많은 청구서 중에는 여러 가지 사기 청구가 존재한다. 예를 들면 의사가 환자를 5cm 꿰맨 후 의료보험 회사에는 10cm로 청구하고 그 대신 환자에게는 진료비를 할인해 주는 경우가 종종 있다고 한다. 또 같은 환자에 대해 같은 청구를 두 번하는 경우도 있다고 한다. 이러한 의료 보험 사기 청구를 발견하는 데도 데이터 마이닝 기술을 사용한다.

백화점에서 고객유지와 세일 캠페인
 어떤 백화점에서는 새로운 백화점이 가까운 곳에 생길 때 고객 이탈 방지를 위해 쿠폰이나 그밖에 여러 가지 보너스를 제공하는 데 데이터 마이닝 기술을 사용한다고 한다. 또 효과적인 타겟 마케팅(target marketing)을 하는 데도 사용했다고 한다.

은행에서 신용카드 발급에 사용함
 4000만 명의 신용카드 고객이 있는 미국의 어느 은행에서는 새로운 신용 카드 고객의 과거 사실로부터 가장 이익을 많이 내 줄 수 있는 고객과 또 손해를 끼칠 수 있는 고객을 찾아내 회사의 이익을 증대시켰다고 한다.

데이터 마이닝 - 어디로 향하고 있는가?
 지금까지 짧은 역사이지만 많은 유용한 데이터 마이닝 기술과 소프트웨어가 개발됐다. 하지만 이 기술들이 정말로 얼마나 우리 일상생활을 얼마나 편리하게 도와줄 수 있을지는 아직도 두고 보아야 할 단계에 있다. 인터넷과 웹의 발전은 여러 가지 웹 마이닝 문제를 우리에게 새롭게 제시하고 있다. 인터넷의 많은 웹 사이트에서는 고객들이 스스로 자신의 ID를 등록하고 자신에 관한 신상명세서를 스스로 입력한다. 그리고 여러 가지 사용 기록이 자신도 모르는 사이에 자동으로 컴퓨터에 저장된다. 이러한 많은 양의 데이터는 과거에 감히 상상할 수 없었던 것이다. 또한 생물정보학 (Bioinformatics)분야에서도 데이터마이닝 기술을 작용해 보려는 노력들이 최근에 진행되고 있다. 현재로는 이 두 분야에 데이터마이닝 기술의 개발과 적용이 가장 시급하면서도 앞으로 가장 매력적인 데이터 마이닝의 한 분야가 될 것이다.


2003년 7월 

서울대학교 컴퓨터공학과 교수 심 규 석