abstract

　

　
　
의료 정보와 데이터마이닝의 응용

http://ee.snu.ac.kr/~shim

데이터 마이닝은 많은 양의 데이터에 함축적으로 들어가 있는 지식이나 패턴을 찾아내는 기술이다. 최근 들어 여러 생물들의 유전자 정보 및 다양한 증상에 대해 새로운 의학적인 사실을 도출해 내는데 데이터마이닝을 많이 이용하고 있다. 인간의 의료 정보는 모든 생물 정보 데이터 중에서도 가장 분석할만한 가치가 있는 데이터이다. 인간만이 언어로 communication을 할 수 있기 때문에 동물에 관한 관찰로는 얻기가 아주 힘든, 자신의 몸에 나타나는 증상이나 통증, 느낌, 기분 상태 같은 정보를 아주 상세히 얻을 수 있기 때문에, 모든 생물 중 인간이 가장 자세하게, 그리고 정확하게 관찰될 수 있다. 또한 컴퓨터 과학의 발전과, 인터넷 및 웹의 출현, 그리고 모바일 컴퓨팅의 발전으로 인해, 자동적으로 환자에 대해서 발생했던 증상이나, 테스트 그리고 처방 및 치료 내용 같은 환자에 관한 정보가 수작업 없이도 실시간으로 기록되고 있다. 예를 들어서 당뇨병 환자가 자신이 가지고 다니는 테스터로 혈당 수치를 측정 할 때마다, 그 기록은 무선으로 병원에 보내지고, 그 기록을 통해서 환자기 위험 하다고 판단 되면, 환자에게 병원으로 오라는 요청을 할 수 있다. 더욱이 최근에 많은 사람들의 주목을 받고 있는 Bio-Informatics (생물 정보학)의 발전으로 인해, 인간의 유전 정보 까지도 함께 데이터로 환자의 데이터와 함께 모아서 분석하고 마이닝 할 수 있는 시대가 도래하게 되었다.
최근 들어서 수많은 사람들의 의료정보가 electronic form 형태로 모아지고 있다. 하지만 수집되는 데이터의 양은 많지만 윤리나, 법 또는 사회적인 제한 때문에, 그 데이터 자체를 구하기가 매우 어렵다. 인간의 의료 정보가 동물에 대한 정보보다 보다 정확하고 상세함에도 불구하고, 마이닝 하고자 하는 데이터 자체를 구하기가 쉽지 않은 현실이다. 따라서 privacy와 security문제를 해결하기 위한 방안을 세울 필요가 있다.
의료정보는 주로 텍스트의 형태로 보관되어 있는데 이러한 데이터들을 인터넷을 통하여 공유하게 되면 더욱 유용하게 사용할 수 있다. 하지만 단순한 문장으로 이루어진 텍스트 데이터를 공유하여 서로 도움을 얻기에는 어려운 점이 많다. 다행이 최근에 인터넷 상의 데이터 유통의 표준으로 자리 잡고 있는 XML을 사용하면 잘 정의된 태그(tag)를 이용하여 자유롭고 손쉽게 텍스트 상태의 의료 정보의 의미와 구조를 공유 할 수 있다. 또한 많은 상업용 데이터베이스 시스템 소프트웨어들이 이미 XML 데이터를 효과적으로 보관하고 질의를 처리 할 수 있도록 만들어져 시판되고 있기 때문에 별 다른 어려움 없이 컴퓨터를 이용하여 안전하고 효율적으로 XML 형태의 의료정보를 보관하고 공유할 수 있다.
이번 세미나에서는 의료정보에서의 데이터마이닝 응용 사례를 소개하고 의료 및 바이오 데이터의 보관과 교환에 효율적으로 쓸 수 있는 XML, 그리고 의료정보 데이터마이닝에 유용하게 사용 될 수 있는 decision tree와 clustering을 포함한 데이터마이닝 기술에 대해서 자세히 알아 본다.

2003년 11월

서울대학교 전기컴퓨터 공학부 교수 심 규 석

　


	의료 정보와 데이터마이닝의 응용 http://ee.snu.ac.kr/~shim 데이터 마이닝은 많은 양의 데이터에 함축적으로 들어가 있는 지식이나 패턴을 찾아내는 기술이다. 최근 들어 여러 생물들의 유전자 정보 및 다양한 증상에 대해 새로운 의학적인 사실을 도출해 내는데 데이터마이닝을 많이 이용하고 있다. 인간의 의료 정보는 모든 생물 정보 데이터 중에서도 가장 분석할만한 가치가 있는 데이터이다. 인간만이 언어로 communication을 할 수 있기 때문에 동물에 관한 관찰로는 얻기가 아주 힘든, 자신의 몸에 나타나는 증상이나 통증, 느낌, 기분 상태 같은 정보를 아주 상세히 얻을 수 있기 때문에, 모든 생물 중 인간이 가장 자세하게, 그리고 정확하게 관찰될 수 있다. 또한 컴퓨터 과학의 발전과, 인터넷 및 웹의 출현, 그리고 모바일 컴퓨팅의 발전으로 인해, 자동적으로 환자에 대해서 발생했던 증상이나, 테스트 그리고 처방 및 치료 내용 같은 환자에 관한 정보가 수작업 없이도 실시간으로 기록되고 있다. 예를 들어서 당뇨병 환자가 자신이 가지고 다니는 테스터로 혈당 수치를 측정 할 때마다, 그 기록은 무선으로 병원에 보내지고, 그 기록을 통해서 환자기 위험 하다고 판단 되면, 환자에게 병원으로 오라는 요청을 할 수 있다. 더욱이 최근에 많은 사람들의 주목을 받고 있는 Bio-Informatics (생물 정보학)의 발전으로 인해, 인간의 유전 정보 까지도 함께 데이터로 환자의 데이터와 함께 모아서 분석하고 마이닝 할 수 있는 시대가 도래하게 되었다. 최근 들어서 수많은 사람들의 의료정보가 electronic form 형태로 모아지고 있다. 하지만 수집되는 데이터의 양은 많지만 윤리나, 법 또는 사회적인 제한 때문에, 그 데이터 자체를 구하기가 매우 어렵다. 인간의 의료 정보가 동물에 대한 정보보다 보다 정확하고 상세함에도 불구하고, 마이닝 하고자 하는 데이터 자체를 구하기가 쉽지 않은 현실이다. 따라서 privacy와 security문제를 해결하기 위한 방안을 세울 필요가 있다. 의료정보는 주로 텍스트의 형태로 보관되어 있는데 이러한 데이터들을 인터넷을 통하여 공유하게 되면 더욱 유용하게 사용할 수 있다. 하지만 단순한 문장으로 이루어진 텍스트 데이터를 공유하여 서로 도움을 얻기에는 어려운 점이 많다. 다행이 최근에 인터넷 상의 데이터 유통의 표준으로 자리 잡고 있는 XML을 사용하면 잘 정의된 태그(tag)를 이용하여 자유롭고 손쉽게 텍스트 상태의 의료 정보의 의미와 구조를 공유 할 수 있다. 또한 많은 상업용 데이터베이스 시스템 소프트웨어들이 이미 XML 데이터를 효과적으로 보관하고 질의를 처리 할 수 있도록 만들어져 시판되고 있기 때문에 별 다른 어려움 없이 컴퓨터를 이용하여 안전하고 효율적으로 XML 형태의 의료정보를 보관하고 공유할 수 있다. 이번 세미나에서는 의료정보에서의 데이터마이닝 응용 사례를 소개하고 의료 및 바이오 데이터의 보관과 교환에 효율적으로 쓸 수 있는 XML, 그리고 의료정보 데이터마이닝에 유용하게 사용 될 수 있는 decision tree와 clustering을 포함한 데이터마이닝 기술에 대해서 자세히 알아 본다.
	2003년 11월 서울대학교 전기컴퓨터 공학부 교수 심 규 석