본문 바로가기

He's Column/Web2.0

통합검색 스토리 2 – 네이버 통합검색의 원리

지난 NHN 스토리에 ‘세계 최초 네이버 통합검색 스토리’를 소개해드린 이후, 많은 분들께서 네이버 통합검색 서비스에 놀라움과 관심을 보여주셨습니다. 일상 생활에서 자주 쓰는 네이버 검색 서비스에 그런 뒷이야기가 숨어있는지 몰랐다는 말씀을 전해주신 분들도 있었습니다. ^^ 또한, 네이버 통합검색이 어떤 원리로 작동되는지 궁금하다는 분들도 많았는데요, 오늘 NHN 스토리에서는 제2탄으로 네이버 통합검색 서비스에 숨겨진 원리에 대해 밝혀드리도록 하겠습니다. 

검색엔진의 경쟁력을 결정짓는, 검색 모델링

여러분들도 잘 아시는 것처럼 검색엔진은 웹에 있는 정보들을 수집하는 역할을 합니다. 그러나, 똑똑한 검색엔진이 사용자의 의도에 맞는 문서를 빨리 찾았다 해도 이를 아무 의미나 원칙 없이 나열하기만 한다면 안될 것입니다. 주어진 상황에 더 적합한 정보를 상단에 보여줌으로써 이용자가 원하는 문서를 조금이라도 더 빨리 찾을 수 있도록 해야 진정으로 스마트한 검색서비스라고 할 수 있을 것입니다.

검색엔진이 적합한 문서의 순서대로 검색결과를 보여주는 작업을 위해 수학적 혹은 경험적인 공식(모델)을 사용하는 것을 검색 모델링이라고 합니다. 이 검색 모델링을 얼마나 잘 적용하느냐에 따라 이용자들의 만족도는 크게 달라집니다. 말 그대로 검색서비스의 IQ가 여기에 달려있다고 해도 과언이 아닙니다.

네이버가 최초로 통합검색을 선보인 이후 국내외 다른 검색엔진에서도 통합검색과 비슷한 서비스를 제공하고 있지만, 이들과 네이버의 검색결과가 다르게 나타나는 이유 중 가장 큰 하나는 각 검색 사이트에 따라 적용하는 기본 원리, 즉 검색 모델링이 다르기 때문입니다.

실제로 검색 모델링에는 매우 복잡한 수학적인 계산과 확률 모델 등이 들어가게 됩니다. 오늘 NHN 스토리에서는 어려운 수식 밑바탕에 깔린 네이버 통합검색의 비밀, 네이버 통합검색의 랭킹시스템에 대해 소개해드리고자 합니다.

네이버 통합검색이 동작하는 원리를 그림으로 간단히 표현한 것입니다.
각 콜렉션 별로 다른 랭킹이 적용될 뿐만 아니라, 콜렉션 자체에도 랭킹이 적용되고 있습니다.

다양한 이용자의 니즈에 대한 답을 한번에 보여주는 Multi-Ranking System

네이버 통합검색을 이용하시다 보면, ‘최신뉴스’, ‘이미지’, ‘카페 블로그’ 등 정보의 특성에 따라 검색결과가 구분되어 보여지는 것을 보실 수 있습니다. 이처럼 웹에 있는 다양한 데이터베이스를 특성에 따라 구분한(이 작업을 클러스터링이라고 합니다) 통합검색의 기본단위를 ‘콜렉션(Collection)’이라고 합니다.

네이버 통합검색은 뉴스, 이미지, 지식iN, 사이트, 웹, 지역 정보 등 수십여 개에 달하는 콜렉션을 제공하고 있으며, 검색어에 따라 검색결과에 노출되는 콜렉션의 개수와 종류가 자동적으로 달라지게 됩니다.

특히, 네이버 통합검색에서는 각 콜렉션 별로 특성에 따른 각기 다른 랭킹 모델을 적용하고 있는데요, 이를 멀티-랭킹시스템(Multi-Ranking System)이라고 합니다.

네이버 멀티-랭킹시스템에 따라, 최신뉴스 콜렉션에는 최신성이 중요하게 반영된 ‘뉴스랭킹모델’이, 지식iN에는 최신성, 유사도 이외에도 답변을 한 이용자의 신뢰도까지 고려한 ‘지식iN랭킹모델’이 적용되기 때문에, 네이버 통합검색에서는 각 콜렉션 별로 가장 양질의 정보가 나올 수 있게 됩니다.

특히, 콜렉션의 랭킹모델은 또 다른 콜렉션의 모델과도 미세하게 조율되어 있어, 전체적으로 각 콜렉션 마다 가장 적합하면서도 서로 중복되지 않는 검색결과를 보여주도록 제공되고 있습니다. 이 때문에 네이버의 통합검색결과는 전체적으로 다양한 정보를 두루 제공할 수 있게 되어, 더욱 양질의 결과를 제공해드릴 수 있게 됩니다.

예를 들어 살펴볼까요? 최근 개최된 윔블던 테니스에서 우승한 ‘로저 페더러’ 키워드 검색결과를 보면, 최신 뉴스 콜렉션에는 페더러의 우승 뉴스가, 블로그 콜렉션에는 슈테피 그라프와 로저 페더러를 비교한 블로거의 평가글이, 사이트 콜렉션에는 페더러의 공식 홈페이지 및 관련 사이트 검색 결과가 나오고 있어, 각 콜렉션 마다 페더러를 검색한 이용자들에게 유용한 정보를 제공해주고 있다는 것을 볼 수 있습니다.

이러한 멀티랭킹시스템으로 인해 네이버 웹 페이지 검색결과는 다른 검색엔진의 웹 검색과는 다른 랭킹 시스템을 이용하고 있으며, 1:1로 비교하는건 무리가 있을 수 있습니다. 그 이유는 만약, 해외 검색엔진과 동일한 알고리즘을 네이버 웹문서 컬렉션에 적용한다면, 사이트, 블로그, 뉴스 등 다른 컬렉션과 상당 부분 중복되는 결과를 보여줘 만족도가 떨어질 수 있기 때문입니다.

콜렉션에도 랭킹이 적용된다?! Naver Collection Ranking!

네이버 통합검색의 또 다른 비밀은 바로, 문서뿐 아니라 콜렉션 자체에도 랭킹이 적용된다는 사실입니다. 콜렉션랭킹(Collection Ranking)이라고 부르는 이 기술에 따라 네이버 통합검색은 ‘지식iN’, ‘사전’, ‘뉴스’, ‘블로그’ 등 콜렉션들의 노출순서가 고정되어 있지 않고, 그 순서가 유동적으로 변화하도록 합니다.

콜렉션랭킹의 기본 아이디어는 네티즌들의 검색행동분석을 통해 원하는 정보가 위치할 확률이 높은 콜렉션을 순서대로 보여준다는 점입니다. 이를 통해 이용자들은 좀 더 빠른 시간 내에 원하는 정보가 담긴 콜렉션을 찾게 될 확률이 그만큼 높아지는 것이지요.

따라서, 네이버 통합검색은 지금 현재 많은 이용자들이 원하는 정보가 어떤 것인지에 따라 동일한 검색어에 대해서도 콜렉션의 노출순서가 달라질 수 있게 됩니다.

콜렉션 랭킹을 통해 통합검색에 노출된 콜렉션 순서를 살펴보면, 같은 검색어를 입력한 다른 이용자들은 어떤 콜렉션의 정보를 많이 찾았는지 알아볼 수 있습니다. 예를 들면, ‘서머타임’이라는 키워드의 경우 서머타임의 뜻이나 도입 배경 등에 대한 이용자들의 니즈가 높아 지식iN, 사전 콜렉션이 상단에 위치하고 있고, 가수 ‘이효리’의 경우는 인물정보와 음악 콜렉션이 검색결과 상단에 위치하고 있다는 것을 알 수 있습니다.

네이버 통합검색에는 멀티-랭킹시스템과 콜렉션랭킹 이외에도 더욱 다양한 기술과 비밀이 숨겨져 있습니다. 그 중에서도 특히 중요하게 꼽히는 것은 대용량 처리기술입니다. 한국은 세계에서 가장 이용자들의 인터넷 이용이 활발한 곳입니다. 네이버와 같이 하루 1,600만 명이 방문하며 1억 번 이상의 검색이 이뤄지는 곳(2007년 7월 현재, 1초에 1,172번 이상의 검색이 이뤄지고 있습니다)에서는 질 높은 검색 서비스 못지 않게 빠르고 안정적인 서비스도 중요하게 됩니다. 이를 위해서 네이버는 대용량 검색 서비스를 위한 R&D에도 노력의 고삐를 늦추지 않고 있답니다. 

1초도 안 되는 시간 안에 내가 원하는 검색결과를 가져다 주는 검색창 뒤에 이렇게 다양한 원리와 노력이 숨어있다는 사실, 신기하지 않으세요? 지금 이 순간에도 네이버 통합검색의 업그레이드는 계속되고 있습니다. 앞으로도 네이버 통합검색, 많이 사랑해주세요! ;)

감사합니다.