AI 솔루션/Semantic Search

[AI검색 솔루션] 키워드 검색과 의미 기반 검색의 차이를 알아보자!

MNC 2024. 1. 26. 14:59

정확한 단어로 검색이 어려울 때 의미 기반 검색으로 도움 받으실 수 있어요!

 

 

여러분은 마인즈앤컴퍼니 블로그를 어떻게 알고 찾아오셨나요?

의미기반 검색, 키워드 검색 등의 키워드를 검색해서 나온 게시글이라 클릭해서 들어오셨나요?

이렇게 블로그에 방문해 주시기까지도 여러분은 ‘검색’을 활용하셨을 것으로 생각됩니다.

 

이제는 단순히 검색어의 키워드 중심으로 검색하는 것이 아닌, 질문자의 의도를 파악해서 검색을 해주는 의미 기반 검색 기술이 보편화되고 있다고 합니다.

어떤 이유로 통상적인 키워드 검색 방식보다 의미 기반 검색의 중요도가 높아지고 있는지, 어떻게 의미 기반 검색이 활용될 수 있는지를 중심으로 마인즈앤컴퍼니 AI 솔루션 사례를 통해 함께 설명해 드리겠습니다.

 

오늘은 첫 번째 날로, 일반적인 검색 방식인 키워드 검색과 검색 의도를 파악해서 검색해 주는 의미 기반 검색은 어떤 차이가 있는지 알아보겠습니다.


작성 : 마인즈앤컴퍼니 이주연 매니저 (Product&Marketing)

 

궁금한 내용이 생기면 여러분은 어떻게 하시나요?

저는 주로 다양한 검색 포털을 통해 검색창에 궁금한 내용을 입력합니다.

 

예를 들어 OTT 서비스를 결제하기 전, 카드 혜택이 더 큰 카드로 결제를 하고자 카드 혜택을 알아보곤 합니다. 카드가 워낙 다양하고 혜택도 각기 다르다 보니, 카드사 홈페이지를 바로 접속하는 게 아니라 검색창에 'OTT서비스 할인되는 카드'라고 검색합니다.

 

검색된 결과를 한번 볼까요?

구글 검색 엔진에서는 ‘OTT서비스 할인 카드’,’OTT서비스란’,’혜택 큰 카드 추천’ 등의 주제로 게시되어 있는 게시글이나, 카드사 광고들이 노출됩니다.

 

저와 같은 사용자는 궁금한 내용이 포함된 키워드를 간편하게 입력하면, 검색 엔진에서는 해당 키워드가 포함된 웹페이지를 찾고, 연관도를 계산하여 가장 관련도가 높은 페이지를 먼저 노출해 줍니다.

이렇게 검색이 진행되는 원리가 ‘키워드 검색’입니다.

 

Inverse Document Frequency

 

키워드 검색은 웹페이지에서 키워드와 연관성이 높은 키워드가 얼마나 많이 등장하는 가와 단어의 희귀성을 반영하여 노출의 우선순위를 결정합니다.

이런 알고리즘 중 하나를 TF-IDF(Term Frequency-Inverse Document Frequency)라고 부르고, 특정 문서에서 단어의 빈도가 높으면서 다른 문서에는 낮은 경우를 찾아내 줍니다.

단어의 희귀성이란 OTT 카드 혜택이라고 검색하는 경우, 카드 혜택이라는 단어가 평상시 더 많이 사용되는 단어이기 때문에 카드 혜택이라는 단어만 있는 웹페이지보다는 OTT라는 단어만 사용된 웹페이지를 우선 노출하는 것을 의미합니다.

이렇게 키워드 검색은 전통적인 검색 방식으로, 오랜 기간 사용된 덕분에 높은 안정성과 빠른 속도를 보유하고 있다는 장점이 있습니다. 대다수의 검색 엔진에서도 키워드 검색 중심의 검색 방식을 채택하고 있습니다.

 

자, 그럼 다시 ‘OTT서비스 할인되는 카드’ 검색 상황으로 돌아오겠습니다.

검색 결과로 ‘OTT서비스 할인 카드’,’OTT 서비스란’,’혜택 큰 카드 추천’ 등의 주제로 게시 되어 있는 게시글이나, 카드사 광고들이 노출됩니다.

제가 원하는 정보를 찾기까지는 다시 게시글을 클릭해서 읽고, 검색 엔진에 게시글에 기재된 혜택이 마음에 드는 카드를 검색하여 입력하는 과정이 필요했습니다.

어떤 카드사에서 나온 카드인지, 어떤 혜택이 있는지, 연회비는 없는지, 전월 실적을 채워야 하는지 등을 한눈에 확인할 수는 없어 다소 불편했습니다.

이는 유사한 의미에 대한 고려를 하기 어렵고, 단어와 단어 사이의 관계성을 파악하기 어려운 키워드 검색의 한계라고 볼 수 있습니다.

 

의미 기반 검색을 활용하여 검색하면, 검색한 의도에 맞춰 OTT서비스별 혜택이 높은 카드를 정렬하여 노출해 주게 됩니다. 혜택도 종류가 여러 가지일 테니 청구 할인 혜택, 즉시 할인 혜택, 포인트 적립 혜택 등의 정확한 혜택등의 키워드를 기술해 준다면 그 정확도는 더욱 높아지게 됩니다.

 

의미 기반 검색은 어떻게 우리의 검색 의도와 딱 맞는 결과를 보여주는 걸까요? 의미 기반 검색은 키워드가 아닌 개념을 일치 시켜 결과를 산출합니다. 벡터 차원 임베딩을 통해 단어를 개념으로 나타내고, 사용자 쿼리에 포함된 단어의 의미와 일치하는 내용을 찾아 검색 결과를 보여줍니다. 벡터 검색을 기반으로 하여 직관적인 검색 결과를 얻을 수 있어 활용도가 높고 검색 효율이 높다는 장점이 있습니다.

Vector Search

벡터 검색은 의미상으로 유사하거나 의미상으로 연관이 있는 항목들을 검색할 수 있습니다. 이는 음성, 이미지 등의 비정형 데이터를, 벡터를 활용하여 정보를 저장함으로써 벡터들 간의 유사도를 비교하여 정확한 검색 결과를 추출할 수 있습니다.

 

의미 기반 검색은 특히 대량의 문서에서 검색해야 할 경우에나 비정형 데이터에서 정보를 찾아야 할 경우 큰 이점을 보유하고 있어, 기업 내 데이터 활용 방법으로 주목 받고 있습니다.

다만 키워드 검색보다는 연산량이 많아 검색 속도가 느리다는 단점이 있어, 검색이 필요한 키워드를 명확하게 입력할 때는 의미 기반 검색 대신 키워드 검색을 사용하는 것이 유리합니다.


고객의 고민을 AI로 해결하는 생성AI 테크 리더 마인즈앤컴퍼니도 의미 기반 검색을 활용한 솔루션(Deep Searfing)을 출시하여 기업 내 데이터를 효과적으로 활용할 수 있는 대안을 제시해 주고 있습니다.

 

Deep Searfing(딥서핑)은 앞에서 다룬 내용처럼 키워드가 아닌 벡터 검색을 통해 검색 결과를 추출하므로 자연어로 질문할 경우에도 높은 정확도의 검색 결과를 보여줍니다. 더불어 대화형 멀티턴 방식을 통해 사용자가 찾고자 하는 정보를 대화하듯 질문과 답변을 통해 편리하게 찾을 수 있습니다.

Deep Searfing 의미 기반 검색 결과 예시

 

오늘의 예시를 통해서 딥서핑 기능을 확인해 보자면, 필요한 정보가 검색 키워드에 포함되어 있지 않더라도 의미를 확장시켜 기술된 어휘에 의미에 가장 알맞은 문서를 추출해 줄 수 있습니다. ‘OTT 할인 혜택이 가장 큰 카드’라고 검색할 경우 OTT 서비스에 포함된 넷플릭스, 왓챠, 티빙 등의 개별 OTT 중 하나라도 혜택을 보유한 카드를 추천해 준다는 뜻입니다.

그뿐만 아니라 의미상 가장 유사한 문서를 묶고 검색 결과로 도출된 내용을 간단하게 요약해 주는 기능도 지원하고 있습니다.

물론 그 문서는 웹 문서 뿐만 아니라, PDF 문서의 텍스트, 테이블, 그림 정보를 검색할 수 있습니다. 자체 PDF 처리 기술을 활용하여 대용량으로 쌓여있는 PDF 문서 내의 텍스트, 테이블, 그림 정보 등을 추출하고 사용자의 의도에 맞는 결과를 보여줍니다. 기존 검색 방식으로는 시간과 노력을 대량으로 투입해야 할 일을 간편하게 일상어로 질문하여 해결할 수 있습니다.

 

 

[Deep Searfing 기능 요약]

  1. Document Searfing 
    • 사용자 검색 의도 파악, 기술된 어휘의 의미에 가장 알맞은 문서 추출
    • 키워드에 포함되어 있지 않은 내용도 사용자의 검색 의도와 맞는다면 노출
      • 검색 : 삼성의 휴대폰 브랜드가 뭐지?
      • 결과 : 삼성 휴대폰 브랜드 '갤럭시' 정보 우선 노출
  2. Question Answering
    • 문서 유형 인식 후 대부분의 정보 그래프 시각화 가능
    • 질문의 의도 파악 후 정답을 문서에서 찾아 노출
  3. Document Clustering
    • 대용량의 문서들을 수집 및 취합
  4. Result Summarization
    • 취합된 문서를 기반으로 핵심 요약 노출

 

Deep Searfing(딥서핑)에 대해 더 자세한 정보가 궁금하시다면, 링크(클릭)를 통해서 확인하실 수 있습니다.


결론 지어보자면, 정확한 검색어 키워드가 있거나 단일 검색어로 검색을 진행할 때는 키워드 검색을 활용하고 문맥과 단어 관계, 용어 변형 등을 고려해야 하는 경우에는 의미 기반 검색이 더욱 효과적입니다.

 

다음 장을 통해서는 오늘은 가볍게 다뤘던 벡터 검색, 벡터 임베딩에 대해서 계속해서 설명해 드리겠습니다. 다음 장에서 또 만나요!

 

 

[Summary]

키워드 검색이란?

  • 인터넷에서 정보를 찾거나 검색 엔진을 활용할 때 사용되는 일반적인 방법
  • 특정 단어나 구절을 활용한 ‘키워드’ 방식의 검색 요청 방식
  • 장점
    • 전통적인 방식으로, 더 빠르고 안정적으로 검색이 가능함
    • 거의 모든 주제와 유형에 대해 적용이 가능함
    • 간단한 키워드로 많은 정보를 얻을 수 있음
  • 단점
    • 단어 일치 여부를 기반으로 노출해 주기 때문에 검색어와 실제 의도가 다르면 정확한 결과를 얻기 어려움
    • 유사한 의미에 대한 고려가 되지 않음
    • 단어와 단어 사이의 관계성 파악이 어려움

의미 기반 검색이란?

  • 사용자의 의도와 관련된 의미를 이해하고 검색 결과를 제공하는 검색 방식
  • 사용자의 검색 쿼리를 문맥적으로 이해하고 의미에 맞는 결과를 찾아 제공함
  • 장점
    • 사용자의 의도를 정확하게 이해하고 관련도 높은 정보를 보여줌
    • 더 복잡하고 구조화된 질문에 대응할 수 있음
  • 단점
    • 현재까지는 일부 국가의 언어만 지원하므로 사용이 제한됨
    • 복잡한 자연어 처리 및 의미 기반 알고리즘 사용으로 연산량이 많아 검색 속도가 키워드 검색에 비해 비교적 느림

✨리뉴얼된 MNC 홈페이지에도 놀러 오세요(클릭)

 

 

[이미지출처]
Inverse Document Frequency  : https://www.seobility.net/en/wiki/Inverse_Document_Frequency
Vector search : https://mlops.community/vector-similarity-search-from-basics-to-production/