메뉴 바로가기 본문 바로가기

고객지원

공지사항 내용
[NAVER] 5월 웹 검색 품질 업데이트를 안내드립니다.

안녕하세요.
비즈니스 시작과 성공을 함께하는 e-커머스 파트너 가비아CNS입니다.


 

이번 게시글에서는 네이버 웹 검색에 적용되어 있는 AI 기반 뉴럴 매칭 기술과 신뢰도 높은 출처 노출 강화를 위한 모델 개선 등 검색 기술 업데이트에 대해 소개하겠습니다.


 





│ 웹 검색 랭킹에 적용되어 있는 ‘뉴럴 매칭’ 기술이 고도화됩니다


뉴럴 매칭이란, 수억에서 수백억에 이르는 방대한 문서들 안에서 순식간에 벡터 기반으로 관련 문서를 찾아내는 알고리즘이며,

이 기술은 현대적 검색 엔진의 가장 중요한 기능 요소로서 AI 검색의 컴퓨팅 기술의 집약체라 할 수 있습니다.

 

네이버를 포함한 극소수의 글로벌 빅테크 기업들만이 웹 스케일의 검색 서비스에 뉴럴 매칭을 적용할 정도로, 이 기술은 현대적 검색 엔진의 가장 중요한 기능 요소로서 AI 검색 컴퓨팅 기술의 집약체라고 할 수 있습니다.

 

※ 관련 게시글 : [Aurora 프로젝트] 뉴럴 매칭 소개

 

 

검색 서비스는 사용자가 입력한 키워드와 많은 부분이 일치하는 문서를 찾는 것에서 시작했지만, 키워드를 단순한 글자로 보는 것이 아니라 키워드를 입력한 사용자의 핵심 의도를 분석하여 이 의도에 가장 일치하는 문서를 찾는 방향으로 발전하고 있습니다.


기존에 적용한 뉴럴 매칭이 서로 다른 단어 간의 의미적 연관성에 집중한 것이었다면, 이번 업데이트에서는 문서 전체의 주제까지 고려할 수 있도록 개선한 것이 특징입니다.


 

예를 들어, “아이가 밤새 열이 날 때”를 검색한 이용자에게,

다음과 같이 두 개의 문서가 있다면 어느 쪽을 잘 보여 주는 것이 더 만족스러울까요?



< 위 예시는 실제 결과가 아닌 이해를 돕기 위한 가상의 결과입니다. >
 

문서 1문서 2에 비해 "밤새"라는 단어를 포함하고 있고, 사용자가 입력한 질의에 정확히 매칭되는 부분이 다수 존재합니다. 이것을 지역적 맥락(local context)이라고 하는데요,

지난 2022년에 처음 적용했던 뉴럴 매칭에서는 단어들이 크게 달라지더라도 이러한 지역적 맥락은 잘 찾아낸다는 소개를 드린 바 있습니다.

 

하지만, "아이가 밤새 고열이 날 때"라는 검색어를 입력한 사용자들에게 보여줄 문서의 적합성을 판단할 때는 지역적 맥락도 중요하지만,

문서 전체를 표현하는 전역적 맥락(global context)도 중요합니다.

 

이런 관점에서 문서의 주제를 살펴보면, 가족 돌봄 휴가 제도라는 내용을 다루는 문서 1보다소아발열의 증상과 해결 방안에 대한 내용을 다루는 문서 2가 검색을 한 사용자에게 더 유용할 것입니다.

 

 

이번에 적용하는 새로운 기술은 문서의 주제를 학습하는 모델과 단어 의미를 학습하는 모델을 결합하는 방식을 사용하였습니다. 위 예시와 같이 단어 레벨에서도 잘 매칭되면서, 문서의 전체 내용도 질의 의도와 일치하는 문서를 보다 효과적으로 찾을 수 있게 되었습니다.

결과적으로 관련성이 있는 여러 문서들 중에서 주제의 일관성을 지닌 문서의 검색 노출이 더욱 유리해질 것으로 기대하고 있습니다.


 

아울러, 이번 업데이트에서는 웹 검색 플랫폼의 성능 강화를 통해 뉴럴 매칭의 품질과 속도를 모두 개선하였습니다.

자체 실험 결과, 내용 적합성 판단에서는 기존 대비 10%, 웹 검색 수행 속도는 기존 대비 약 150% 개선되었습니다.

 

또한, 수십 개의 문서에 대한 정교한 Re-Ranking 기술이 베타서비스로 적용 예정이라고 지난 생성형AI기술활용 게시글에서 소개해 드린 바 있는데요.

이를 포함한 여러 가지 다양한 기술들을 실제 서비스에 적용해 나가면서, 여러분들이 검색 품질의 개선을 체감할 수 있도록 계속 점검하겠습니다.

 

※관련 게시글 : 생성형 AI 기술을 활용하여 더욱 똑똑해진 네이버 검색 결과를 만나보세요.

 


 

│ 신뢰도 높은 출처 노출이 강화됩니다


이번 업데이트에서는 몇 가지 독자 알고리즘들의 추가를 통해 전반적인 웹 검색 상위 노출 문서에 대한 출처 신뢰도를 강화할 예정입니다.

 

출처의 신뢰도는 앞서 설명한 뉴럴 매칭 등의 자연어 이해 기술만으로는 해결될 수 없는 복잡한 성격을 갖고 있으며, 네이버 검색은 랭킹에 사용되는 수백여 가지의 시그널 중 이러한 신뢰도를 측정하는 시그널의 종류를 늘려가고 있습니다.

 

출처의 신뢰도 추정 정확도를 높이기 위해 다양한 문서 분석 기술의 개발과 신규 랭킹 시그널의 발굴이 있었으며, 신뢰성 높은 문서의 강조를 위해 랭킹 모형의 학습 방법도 개선하였습니다.

 

특히, 1차 랭킹 결과를 기반으로 새로운 시그널을 발견하여 재조합하는 블렌딩(blending) 프로세스를 랭킹 과정에 추가하여 사용자들의 주관적 의견뿐 아니라 신뢰할 만한 전문기관의 콘텐츠가 발견될 확률을 높이기 위해 노력하였습니다. 또한, 학습 데이터 가공 프로세스를 개선하여, 알고리즘이 신뢰도를 강조하는 능력을 학습할 수 있도록 하였습니다.



 





이번 업데이트는 5월 초부터 단계적으로 배포 및 성능 확인이 이뤄지므로 완료까지 1~2주 정도가 소요될 수 있습니다.

더욱 자세한 기술적 내용도 별도의 게시글을 통해 순서대로 소개드릴 예정이니, 많은 관심 부탁드립니다.

네이버 검색은 여러분들이 보다 좋은 검색 품질을 느끼실 수 있도록 지속적으로 노력하겠습니다.


 


출처: 네이버 검색 공식 블로그

그 외 궁금하신 내용은 다이애드 마케팅센터(1644-4527)에 문의 바랍니다.
감사합니다.