[NAVER] 개선된 거대 쇼핑DB 기반 네이버쇼핑 “상품 카테고리 예측 모델”을 소개합니다
작성일 2021-09-01 08:52:45
조회수 1390
|
---|
안녕하세요.
네이버 쇼핑 내 상품 카테고리는 디지털/가전이나 패션의류 같은 큰 분류부터, 디지털/가전 > 계절가전 > 선풍기 > 서큘레이터 같은 세부적인 카테고리까지, 총 7천여 개에 이릅니다.
이렇게 많은 카테고리가 있기 때문에 검색어 별로 사용자가 원하는 상품 카테고리를 분류해 내는 문제는 매우 어렵습니다. 이렇게 분류 결과 집합이 큰 문제를 extreme multi-label text classification이라고 합니다. 검색어와 카테고리 매칭 예시
그동안 쇼핑 검색어의 상품 카테고리 예측 모델은 주로 사용자의 검색 사용 기록에 기반하여 만들었습니다. 하지만 사용 기록에만 의지할 경우 그 간 검색이 잘 되지 않았던 희소한 카테고리의 상품군이나 신규 상품, 신규 검색어는 대응이 어려웠습니다.
또한 네이버 쇼핑은 하루에도 수 천만 건의 상품이 업데이트 되어 상품의 카테고리 변동이 종종 일어날 수 있는데요. 결국 이를 잘 반영하기 위해서는 쇼핑 검색 DB 정보도 같이 예측 모델에 사용해야한다는 결론에 이르렀습니다.
아래 그림은 새로운 상품 데이터와 사용자의 검색 등 사용 로그를 종합한 검색어-카테고리 의도 분류 모델을 도식화한 것입니다.
신규 모델을 테스트한 결과, 기존 대비 상품 카테고리 예측값의 정확도가 10% 이상 향상되었습니다. 긴 문장 형태의 검색어나 오탈자가 있는 검색어 같은 롱테일 영역에서의 의도 판단이 보다 정확해 졌습니다. 또한 해당 검색어의 상품 노출 커버리지가 개선 되었습니다.
실제 AB TEST 결과에서도 검색수 일정 값 이하인 저빈도 검색어의 쇼핑검색 노출과 클릭율이 기존 대비 각각 15%, 10% 이상 증가하며, 보다 다양한 상품이 사용자에게 노출될 수 있는 유의미한 결과를 얻었습니다.
아래는 개선 예시입니다. 그림 1. "눈썹 인테리어 스티커" 개선 전후 결과 좌측 개선 전 결과에는 연관성이 떨어지는 차량 용품(하늘색 박스)이 상위 노출됨
그림 2. "석고보드 빔 스크린" 개선 전후 결과 좌측 개선 전 결과에는 빔 스크린 의도와는 정확히 일치하지 않은 상품(하늘색 박스)이 상위 노출됨
개선된 검색어 상품 카테고리 예측 모델을 네이버쇼핑 랭킹에 반영하여 검색어에 더 적합한 상품을 상위에 노출하고, 사용자가 원하는 상품을 잘 탐색하는 것을 도울 예정입니다. |