지난 NHN 스토리에 ‘세계 최초 네이버 통합검색 스토리’를 소개해드린 이후, 많은 분들께서 네이버 통합검색 서비스에 놀라움과 관심을 보여주셨습니다. 일상 생활에서 자주 쓰는 네이버 검색 서비스에 그런 뒷이야기가 숨어있는지 몰랐다는 말씀을 전해주신 분들도 있었습니다. ^^ 또한, 네이버 통합검색이 어떤 원리로 작동되는지 궁금하다는 분들도 많았는데요, 오늘 NHN 스토리에서는 제2탄으로 네이버 통합검색 서비스에 숨겨진 원리에 대해 밝혀드리도록 하겠습니다. 

검색엔진의 경쟁력을 결정짓는, 검색 모델링

여러분들도 잘 아시는 것처럼 검색엔진은 웹에 있는 정보들을 수집하는 역할을 합니다. 그러나, 똑똑한 검색엔진이 사용자의 의도에 맞는 문서를 빨리 찾았다 해도 이를 아무 의미나 원칙 없이 나열하기만 한다면 안될 것입니다. 주어진 상황에 더 적합한 정보를 상단에 보여줌으로써 이용자가 원하는 문서를 조금이라도 더 빨리 찾을 수 있도록 해야 진정으로 스마트한 검색서비스라고 할 수 있을 것입니다.

검색엔진이 적합한 문서의 순서대로 검색결과를 보여주는 작업을 위해 수학적 혹은 경험적인 공식(모델)을 사용하는 것을 검색 모델링이라고 합니다. 이 검색 모델링을 얼마나 잘 적용하느냐에 따라 이용자들의 만족도는 크게 달라집니다. 말 그대로 검색서비스의 IQ가 여기에 달려있다고 해도 과언이 아닙니다.

네이버가 최초로 통합검색을 선보인 이후 국내외 다른 검색엔진에서도 통합검색과 비슷한 서비스를 제공하고 있지만, 이들과 네이버의 검색결과가 다르게 나타나는 이유 중 가장 큰 하나는 각 검색 사이트에 따라 적용하는 기본 원리, 즉 검색 모델링이 다르기 때문입니다.

실제로 검색 모델링에는 매우 복잡한 수학적인 계산과 확률 모델 등이 들어가게 됩니다. 오늘 NHN 스토리에서는 어려운 수식 밑바탕에 깔린 네이버 통합검색의 비밀, 네이버 통합검색의 랭킹시스템에 대해 소개해드리고자 합니다.

네이버 통합검색이 동작하는 원리를 그림으로 간단히 표현한 것입니다.
각 콜렉션 별로 다른 랭킹이 적용될 뿐만 아니라, 콜렉션 자체에도 랭킹이 적용되고 있습니다.

다양한 이용자의 니즈에 대한 답을 한번에 보여주는 Multi-Ranking System

네이버 통합검색을 이용하시다 보면, ‘최신뉴스’, ‘이미지’, ‘카페 블로그’ 등 정보의 특성에 따라 검색결과가 구분되어 보여지는 것을 보실 수 있습니다. 이처럼 웹에 있는 다양한 데이터베이스를 특성에 따라 구분한(이 작업을 클러스터링이라고 합니다) 통합검색의 기본단위를 ‘콜렉션(Collection)’이라고 합니다.

네이버 통합검색은 뉴스, 이미지, 지식iN, 사이트, 웹, 지역 정보 등 수십여 개에 달하는 콜렉션을 제공하고 있으며, 검색어에 따라 검색결과에 노출되는 콜렉션의 개수와 종류가 자동적으로 달라지게 됩니다.

특히, 네이버 통합검색에서는 각 콜렉션 별로 특성에 따른 각기 다른 랭킹 모델을 적용하고 있는데요, 이를 멀티-랭킹시스템(Multi-Ranking System)이라고 합니다.

네이버 멀티-랭킹시스템에 따라, 최신뉴스 콜렉션에는 최신성이 중요하게 반영된 ‘뉴스랭킹모델’이, 지식iN에는 최신성, 유사도 이외에도 답변을 한 이용자의 신뢰도까지 고려한 ‘지식iN랭킹모델’이 적용되기 때문에, 네이버 통합검색에서는 각 콜렉션 별로 가장 양질의 정보가 나올 수 있게 됩니다.

특히, 콜렉션의 랭킹모델은 또 다른 콜렉션의 모델과도 미세하게 조율되어 있어, 전체적으로 각 콜렉션 마다 가장 적합하면서도 서로 중복되지 않는 검색결과를 보여주도록 제공되고 있습니다. 이 때문에 네이버의 통합검색결과는 전체적으로 다양한 정보를 두루 제공할 수 있게 되어, 더욱 양질의 결과를 제공해드릴 수 있게 됩니다.

예를 들어 살펴볼까요? 최근 개최된 윔블던 테니스에서 우승한 ‘로저 페더러’ 키워드 검색결과를 보면, 최신 뉴스 콜렉션에는 페더러의 우승 뉴스가, 블로그 콜렉션에는 슈테피 그라프와 로저 페더러를 비교한 블로거의 평가글이, 사이트 콜렉션에는 페더러의 공식 홈페이지 및 관련 사이트 검색 결과가 나오고 있어, 각 콜렉션 마다 페더러를 검색한 이용자들에게 유용한 정보를 제공해주고 있다는 것을 볼 수 있습니다.

이러한 멀티랭킹시스템으로 인해 네이버 웹 페이지 검색결과는 다른 검색엔진의 웹 검색과는 다른 랭킹 시스템을 이용하고 있으며, 1:1로 비교하는건 무리가 있을 수 있습니다. 그 이유는 만약, 해외 검색엔진과 동일한 알고리즘을 네이버 웹문서 컬렉션에 적용한다면, 사이트, 블로그, 뉴스 등 다른 컬렉션과 상당 부분 중복되는 결과를 보여줘 만족도가 떨어질 수 있기 때문입니다.

콜렉션에도 랭킹이 적용된다?! Naver Collection Ranking!

네이버 통합검색의 또 다른 비밀은 바로, 문서뿐 아니라 콜렉션 자체에도 랭킹이 적용된다는 사실입니다. 콜렉션랭킹(Collection Ranking)이라고 부르는 이 기술에 따라 네이버 통합검색은 ‘지식iN’, ‘사전’, ‘뉴스’, ‘블로그’ 등 콜렉션들의 노출순서가 고정되어 있지 않고, 그 순서가 유동적으로 변화하도록 합니다.

콜렉션랭킹의 기본 아이디어는 네티즌들의 검색행동분석을 통해 원하는 정보가 위치할 확률이 높은 콜렉션을 순서대로 보여준다는 점입니다. 이를 통해 이용자들은 좀 더 빠른 시간 내에 원하는 정보가 담긴 콜렉션을 찾게 될 확률이 그만큼 높아지는 것이지요.

따라서, 네이버 통합검색은 지금 현재 많은 이용자들이 원하는 정보가 어떤 것인지에 따라 동일한 검색어에 대해서도 콜렉션의 노출순서가 달라질 수 있게 됩니다.

콜렉션 랭킹을 통해 통합검색에 노출된 콜렉션 순서를 살펴보면, 같은 검색어를 입력한 다른 이용자들은 어떤 콜렉션의 정보를 많이 찾았는지 알아볼 수 있습니다. 예를 들면, ‘서머타임’이라는 키워드의 경우 서머타임의 뜻이나 도입 배경 등에 대한 이용자들의 니즈가 높아 지식iN, 사전 콜렉션이 상단에 위치하고 있고, 가수 ‘이효리’의 경우는 인물정보와 음악 콜렉션이 검색결과 상단에 위치하고 있다는 것을 알 수 있습니다.

네이버 통합검색에는 멀티-랭킹시스템과 콜렉션랭킹 이외에도 더욱 다양한 기술과 비밀이 숨겨져 있습니다. 그 중에서도 특히 중요하게 꼽히는 것은 대용량 처리기술입니다. 한국은 세계에서 가장 이용자들의 인터넷 이용이 활발한 곳입니다. 네이버와 같이 하루 1,600만 명이 방문하며 1억 번 이상의 검색이 이뤄지는 곳(2007년 7월 현재, 1초에 1,172번 이상의 검색이 이뤄지고 있습니다)에서는 질 높은 검색 서비스 못지 않게 빠르고 안정적인 서비스도 중요하게 됩니다. 이를 위해서 네이버는 대용량 검색 서비스를 위한 R&D에도 노력의 고삐를 늦추지 않고 있답니다. 

1초도 안 되는 시간 안에 내가 원하는 검색결과를 가져다 주는 검색창 뒤에 이렇게 다양한 원리와 노력이 숨어있다는 사실, 신기하지 않으세요? 지금 이 순간에도 네이버 통합검색의 업그레이드는 계속되고 있습니다. 앞으로도 네이버 통합검색, 많이 사랑해주세요! ;)

감사합니다.

댓글을 달아 주세요


세계 최초 네이버 통합검색 스토리

He's Column/Web2.0 2007.08.03 11:31 Posted by 깜냥 윤상진





네이버 공식 블로그에서 검색의 역사를 설명한 글이 있어 소개합니다.

검색의 진화


인터넷에 검색엔진이 등장한지 어느덧 10년이 지났습니다. 이 기간 동안 정보를 찾고자 하는 이용자들의 검색욕구는 커졌고, 검색의 대상이 되는 정보 역시 다양해졌습니다. 또한 검색 서비스 역시 이용자들의 검색욕구에 맞춰 끊임없이 진화해왔습니다.

한국의 검색 서비스도 현재의 모습에 이르기까지 지난 10여 년 간 발전을 거듭해왔습니다. 이제, 검색 서비스는 ‘우리 동네 치과 중 이 안 아프게 뽑는 곳은?’ 이라는 질문부터, ‘핫 이슈를 표현할 때 왜 뜨거운 고구마라고 하지 않고, 뜨거운 감자라고 할까’라는 다소 엉뚱한 궁금증까지 해결해주는 유용한 도구로 생활 깊숙이 자리잡았습니다.
이제 탄생 7년째에 접어든 네이버 통합검색. 한국의 검색 서비스 표준으로 자리잡았습니다.

외국 검색 사이트와 달리 한국의 사이트는 독특한 검색 서비스를 제공하고 있습니다. 웹 검색이라는 이름으로 검색결과를 나열하는 외국과 달리, 한국은 이미지, 뉴스, 사이트, 웹문서 등 특성에 따라 검색결과를 구분해 한 페이지에 보여주는 ‘통합검색’ 서비스를 제공하고 있기 때문입니다.

얼마 전에는 세계 최대의 검색엔진인 구글이 기존 웹 검색 방식의 검색 서비스를 개선하는 과정에서 통합검색과 기본원리가 비슷한 ‘Universal Search’를 선보여, 한국의 통합검색은 세계적으로 화제가 되기도 했습니다.

그런데 여러분! 통합검색 서비스를 7년 전, 네이버가 최초로 선보였다는 사실, 혹시 알고 계신가요?

네이버 세계 최초 통합검색을 선보이다!

네이버가 통합검색을 시작하게 된 이유는 한국의 웹 환경과 밀접한 관련이 있습니다. 네이버가 처음 검색서비스를 시작할 당시 국내 웹 환경은 몇 십억 건의 사이트에서 원하는 문서를 빠르게 찾아주기 위해 검색엔진끼리 서로 경쟁하던 영어권 환경과는 많이 달랐습니다. 네이버가 정식으로 서비스를 선보인 1999년, 한국 웹사이트 개수는 5만 개에 불과했습니다. (한국인터넷진흥원, 1999년 6월) 특히, 검색에 유용한 정보를 포함한 웹 사이트로 제한한다면 그 수는 더욱 적었습니다. 한 마디로, 검색 서비스는 있지만, 검색할 사이트가 없는 상황이었습니다.

열악한 한국의 웹 환경에 비해 초고속인터넷과 PC 등 한국의 인터넷 서비스 인프라는 빠른 속도로 발전하면서 이용자들의 검색욕구도 점차 다양화되었습니다. 네이버는 이런 변화 속에서 사이트나 웹문서 위주의 검색엔진으로는 이용자들의 다양한 검색욕구를 따라갈 수 없을 것이라고 판단했습니다.

통합검색이 출시될 당시 네이버 첫 화면입니다. 지금과는 사뭇 다른 모습이죠?
실시간급상승검색어의 초기 모습이라고 할 수 있는 인기검색어 서비스 ‘넥서치 베스트50’도 눈에 띕니다.

또한, 네이버는 당시 많이 입력되던 ‘핑클’이라는 검색어에는 멤버들의 프로필을 알고 싶어하거나, 사진을 보고 싶어하거나, 팬 카페에 가입하고 싶어하는 등 이용자들의 다양한 검색의도가 존재한다는 것을 알 수 있었습니다. 네이버는 이용자들이 검색 서비스로부터 궁극적으로 원하는 것은 ‘사이트’를 찾는 것이 아닌, ‘정보’를 찾아주는 것에 있다는 점에 주목했습니다.

이러한 인식을 바탕으로 네이버는 2000년 8월 기존의 사이트 위주의 검색 서비스를 벗어나, 검색결과를 ‘웹문서’, ‘사이트’, ‘사전’, ‘뉴스’, ‘블로그’ 등 정보가 가지는 특성에 따라 보여주는 통합검색 서비스를 세계 최초로 선보였습니다.

현재 네이버 통합검색은 지식iN, 카페/블로그, 사전, 이미지, 동영상, 음악, 뉴스, 지역, 책, 쇼핑, 내PC 등 다양한 콜렉션을 제공하고 있습니다. 또한 키워드별로 어떤 정보를 가장 많이 찾는지를 계산해, 콜렉션이 노출되는 순서가 자동적으로 달라지는 Collection Ranking을 적용하고 있습니다.

환경오염과 관련된 두 개의 키워드에 대해 네티즌들은 어떤 콜렉션에 위치한 검색결과를 많이 볼까요?
‘몬트리올의정서’는 백과사전, 블로그 ,지식iN 순으로 통합검색결과가 노출되는데 반해, ‘엘니뇨’의 경우 지식iN, 사이트, 사전 순으로 통합검색결과가 노출되고 있습니다. ^^


Q&A 검색 서비스, 기억 나세요?

네이버가 통합검색을 처음 선보일 당시, 독특한 서비스를 함께 제공했는데요, Q&A 검색 서비스가 바로 그 것입니다.

네이버가 통합검색을 선보이면서 함께 국내에 최초로 소개한 Q&A 검색 서비스 화면입니다.
네티즌이 입력한 검색어에 대해, 한번 더 정교한 질문을 던져,정확하게 원하는 사이트 또는 정보로 이동할 수 있도록 도와주던 서비스였습니다.

Q&A 검색 서비스는 이용자의 의도를 더욱 정확하게 파악할 수 있는 추가 질문을 검색결과 상단에 보여줌으로써, 이용자가 원하는 정보를 빨리 찾을 수 있도록 도와주었습니다. 예를 들어, ‘분당 버스’라는 검색어를 입력하면, “버스노선 정보를 볼 수 있는 사이트는?”, “경기 지역 시내버스 노선을 알 수 있는 방법은?”, “분당 지역정보를 알 수 있는 사이트는?” 등 다양한 추가 질문을 보여주었습니다.

Q&A 검색 서비스는 지금은 제공되고 있지 않지만, ‘검색어 자동완성’이나 ‘연관검색어’ 등 검색어 추천 서비스로 진화되어, 더욱 정확한 정보나 추가 정보로 이용자들을 안내하는 역할을 하고 있습니다.

네이버 통합검색은 기술적, 서비스적으로 끊임없는 발전과정을 거쳐왔습니다. 또한, 국내의 부족한 웹문서 환경을 극복하기 위해, 제휴 협력도 계속됐습니다. 두산동아백과, 통계청, 국세청, LG경제연구원, 국립중앙도서관 등 전문자료 보유기관과 제휴를 맺고 고급 디지털 정보를 검색에 반영했던 것이 대표적인 사례입니다.

한국의 통합검색, 이젠 세계로!

네이버 통합검색 넥서치 탄생 당시 인쇄 광고 자료입니다.
내 생각대로 찾아준다!는 네이버 검색의 목표는 아직도 변함없이 NHN의 중심에 자리잡고 있답니다.

통합검색의 모델이 구글의 ‘Universal Search’, 지식검색의 모델이 야후의 ‘Answers’서비스에 시차를 두고 각각 구현됐듯이 한국의 인터넷 서비스가 세계에서도 인정받고 있는 것은 기분 좋은 일이 아닐 수 없습니다. NHN은 이에 자만하지 않고 더 진화된 통합검색과 지식검색 모델을 연구, 개발해나갈 예정입니다.

더욱이 올해는 일본 시장에 네이버가 첫발을 내딛는 의미 깊은 해로 기록될 전망입니다. 앞으로도 NHN이 선보이게 될 네이버 검색의 발전된 모습과 함께, 일본 시장에서의 선전을 기대해주세요! ^^
감사합니다.

댓글을 달아 주세요


BLOG main image
깜냥이의 웹2.0 이야기!
깜냥닷컴은 최근 트랜드로 급부상하고 있는 웹2.0, 소셜웹, SNS, 플랫폼에 대하여 IT업계의 실무자로써 일하면서 생각하고 있는 것들에 대하여 솔직하고 허심탄회하게 이야기하는 열린 블로그입니다.
by 윤상진

공지사항


Bookmark and Share

카테고리

깜냥이의 웹2.0 이야기! (1544)
Notice (24)
He's Story (134)
He's Talk (140)
Childcare Diary (125)
He's Column (1077)
Multimedia (23)
Various things (13)
Vision board (2)

달력

«   2018/11   »
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30  
윤상진's Blog is powered by Textcube. Designed by Qwer999. Supported by TNM Media.