시맨틱 웹과 온톨로지

 

 

정보를 해석하다, 시멘틱 웹

웹은 유럽 입자물리연구소에서 팀 버너스 리가 1989년부터 1990년 크리스마스까지 개념화한 후, 6개월 만에 구현한 시스템이다. 개념은 아주 단순했다. 그때까지 컴퓨터 내부 정보를 연결하는 목적에서 사용하던 하이퍼텍스트 개념을 인터넷으로 다른 컴퓨터 내의 정보와도 연결할 수 있게 확장하는 시도였다. 하이퍼텍스트는 링크로 서로 관련이 있는 정보를 거미줄처럼 묶어 정보에 능동적으로 접근할 수 있게 한 새로운 개념의 텍스트다. 웹은 인터넷을 통해 전 세계 모든 컴퓨터에 공개된 정보를 링크로 연결한 거대 하이퍼텍스트다.

1969년 10월 29일에 태어난 인터넷은 사용하기 몹시 어려워 웹이 도입되지 전까지 아주 제한적으로 사용됐다. 웹은 이런 인터넷의 약점을 극복하고 전 세계 정치, 경제와 문화를 아우르는 거대한 정보망이 됐다. 더구나 일방적으로 제공되는 정보만 활용하던 수동적 인터넷 사용자가 인터넷 정보를 짜기워 새로운 정보를 창출하는 능동적 사용자로 진화했다. 이런 능동적 웹을 이전의 웹과 구별해서 웹 2.0이라고 부른다. 그런데 웹1.0과 웹 2.0은 모두 사람이 직접 링크를 따라가면서 정보의 획득, 분석과 통합을 해야 하는 근본 적 한계가 있다. 기계는 단순히 링크를 따라 연결된 문서를 보여 줄 뿐이다. 이런 한계는 개인 차원에서 보면 웹에서 찾은 정보는 아주 편향될 수 있으며, 동시에 정보 획득에 큰 어려움을 준다.

예를 들어 ‘박지성 아버지의 이름’을 알고 싶다고 하자. 검색엔진은 명사인 ‘박지성’, ‘아버지’와‘이름’을 분리하고, 이 세 단어가 나오는 모든 문서를 찾아 준다. 기계는 여기까지가 끝이다. '박지성의 아버지가 털어놓은 박지성의 원래 이름은 박지선’이라는 제목과 ‘박지성 아버지 박성종 씨 전격 인터뷰’라는 제목의 문서를 구별해서 ‘박성종’이라는 이름을 찾는 것은 사람의 몫이다. 기존 기술로는 ‘박지성’, '아버지’와 ‘이름’이 다 나오는 문서가 신뢰도가 높다고 보아 ‘박지선’을 아버지 이름으로 판단할 가능성이 크다. 그 이유는 기계가 아직 의미를 파악하지 못하기 때문이다. 더구나 ‘The name of the father of Jisung Park’이 우리가 찾으려는 사람과 같다는 것은 어떻게 기계가 알까? 조금 더 나가자. 경신중학교를 나온 다른 축구 선수 ‘박지성’의 정보를 찾으려면 어떻게 해야 할까? ‘박지성’이란 이름의 어린이가 나오는 프로그램을 보았는데, 그 어린이 이름을 예로 쓰려고 검색엔진을 찾다 실패했다.

팀 버너스 리는 이 문제를 기존 웹의 한계로 보았다. 따라서 웹에 기계가 의미를 알 수 있는 방식으로 정보를 제공하고, 기계가 의미에 따라 정보를 해석하여 통합해 사용자에게 제공하는 환경을 가정한 것을 시맨틱 웹(웹 3.0)이라 불렀다. 따라서 시맨틱 웹은 구체적 시스템이 아니고 팀 버너스 리가 꿈꾸는 웹의 개념이며 모형이다.

시멘틱 웹의 구성원리

어떤 개념이든 표현하려면 언어가 필요하다. 웹1.0은 인간이 문서를 읽을 수 있게 하려고 HTML(Hypertext Markup Language)이라는 표준 언어를 만들었으며, 문서가 있는 위치를 나타내기 위해 URL(Universal Resource Locator)이라는 표현방법을 제시했다. 같은 이유에서 ‘WWW 컨소시엄(웹 표준화 기구)’에서는 의미관계를 표현하는 데 쓰는 RDF(Resource Description Format)라는 메타언어를 제시했다. RDF는 <객체(주체), 자질(술어), 값(객체)>의 3항으로 의미를 표현한다. 객체는 인터넷에서 접근할 수 있는 자원(resource)을 뜻한다. 자원은 사람, 기기, 홈페이지, 용어 등 무엇이든 될 수 있다. 또 각 객체를 구별하려는 목적에서 URI(Universal Resource Identifier)라는 표준 명명법도 제안했다. URL은 자원의 위치를 표시하지만, URI는 주민등록번호처럼 웹에서 자원을 지칭하는 절대적이고 유일한 이름이다.

“박지성의 아버지는 박성종”이라는 문장을 RDF로 표현하면 <@121, 아버지, @532>, <@121, 이름, "박지성”>, <@532, 이름, "박성종”>처럼 표현할 수 있다. '@121’이나 ‘@532’는 우리가 사용하는 지식 표현에서 사람을 구별하는 URI 표기라고 가정하자. 우리나라 정부의 자료라면 주민등록번호가 될 것이다. “아버지”는 관계를 나타내는 용어다. <@121, 영어 이름, “Park Jisung”>으로 ‘@121’의 영어 이름을 추가할 수도 있다. 여기서는 ‘아버지’나 ‘이름’과 ‘영어 이름’ 따위로 자질을 표현했지만, 다른 사람은 “아버지” 대신에 “부자 관계”나 “father-of”로 쓸 수도 있다. RDF로 지식을 표현할 때 쓰는 용어집합을 “용어공간(name space)”이라 한다. 법률이나 규정 앞부분에서 사용할 용어를 설명한 것을 볼 수 있는데 이것이 “용어 공간”의 예다. 그런데 사람마다 다르게 용어를 쓴다면 기계가 의미를 해석하기는 불가능하다. 기계가 의미를 해석하는 표준 뼈대를 온톨로지(ontology)라 한다.

온톨리지, 어떻게 사용되나

온톨로지는 응용목적에 따라 표현하는 내용과 방법이 다를 수 있다. '박지성’이란 객체를 축구선수 온톨로지로는 언제 데뷔하여, 어디서 뛰었고, 몇 골을 넣었는지로 표현할 수 있고, 가족 온톨로지로는 부모가 누구고, 형제가 누구인지로 표현할 수 있다. 즉 온톨로지는 문제를 보는 관점의 표현으로 해석할 수 있다. 청소년의 인터넷 접근을 제한하려고 미국 학부모가 모여서 홈페이지의 등급을 매긴 것이 웹 2.0의 시초다. 이 등급 정보를 기계가 이해할 수 있게 표준화한 얼개를 만들면 온톨로지가 된다. 그런데 등급을 ‘금지’, ‘보통’과 ‘권장’처럼 3단계로 표현할 수도 있으며, 4단계나 5단계로 나누어 숫자로 표현할 수도 있다. WWW 컨소시엄은 온톨로지를 표현할 표준 언어로 OWL(Web Ontology Language)을 제안했다. OWL로 “같은 부모를 둔 사람은 형제다”라는 추론규칙도 추가할 수 있다. A 라는 용어공간에서는 박지성을 ‘@121’로 표현했지만, B라는 용어 공간에서는 ‘P1243’으로 표현했다고 하자. OWL을 이용해 <A: @121, same-person, B:P1234>로 표현해서 두 사람이 동일인임을 표현할 수 있다. <A:영어 이름, same-attribute, B:name>처럼 표현해서 A용어공간에서 쓴 “영어 이름”이 B 용어공간의 “name”과 같다는 것을 표현할 수도 있다.

웹에 의미정보를 제공하려는 사람마다 다른 온톨로지를 사용한다면 의미에 의한 지식 통합은 어렵다. 팀 버너스 리는 응용 목적이나 분야에 따라 표준화한 온톨로지를 공개하고, 이에 따라 의미정보를 넣는다면 기계가 의미에 의한 정보처리를 할 수 있다고 주장한다. 현재 인터넷에는 이미 수많은 온톨로지가 공개되어 있다. 온톨로지를 이용하여 의미정보를 표현하는 과정을 의미 태깅(semantic tagging)이라 한다.

시맨틱 웹 개념이 잘 적용된 예가 위키피디아다. 위키피디아의 온톨로지를 쓰려면 ‘시맨틱 미디어 위키(Semantic Media Wiki)’를 사용하면 된다. '마이클 조든은 슈팅가드였다’는 문장에서 ‘마이클 조든’을 ‘http://en.wikipedia.org/wiki/Michael_Jordan’으로 태깅하고, ‘슈팅가드’를 ‘http://en.wikipedia.org/wiki/Shooting_guard’로 태깅하면 위키피디아에서 정의한 뜻이 된다. 시맨틱 미디어 위키에서는 위키피디아의 용어 URL이 URI 역할을 한다. 따라서 시맨틱 미디어 위키로 태깅한 문서에서 URI는 위키피디아의 해당단어의 뜻이 된다. 표준국어대사전의 어휘를 온톨로지로 사용한다면 조사 ‘-이다’는 ‘표준국어대사전:이다04’로 태깅된다.

팀 버너스 리는 시맨틱 웹을‘ 정보에 기반을 둔 웹(Web of data)’이라 불렀다. 시맨틱웹은 특정 시스템이 아니고 웹의 발전 방향을 개념화하고, 이를 지원하는 데 필요한 도구를 개발하는 과정을 말하며, 궁극적으로 만들어질 웹의 미래를 말한다. 시맨틱 웹에 관해서는 아직 통일된 개념화가 이루어지지 않았고, 부정적으로 보는 의견도 다수 있다. 그러나 전 세계 모든 웹 사용자가 능동적으로 참여한다면, 아니 참여할 분위기가 조성된다면 불가능한 꿈만은 아니다.

▲ 권혁철(정보컴퓨터공) 교수
저작권자 © 채널PNU 무단전재 및 재배포 금지