Sunny's Study/Studying Research

A systematic review on page ranking algorithms

AhnSunnyYoung 2022. 12. 20. 01:05

Abstract

검색 엔진은 오늘날 사용자의 정보 요구를 충족시키는 매우 유용한 도구입니다. 검색 엔진의 성능은 주로 검색 결과의 맨 위에 관련성이 높은 웹 페이지를 제공하는 페이지 순위 알고리즘에 따라 달라집니다. 웹 페이지의 내용을 기반으로 한 페이지 순위 알고리즘을 콘텐츠 기반 페이지 순위라고 합니다. 웹 페이지의 링크 구조를 사용하는 랭킹 알고리즘을 링크 구조 기반 페이지 랭킹 알고리즘이라고 합니다. 본 논문은 최근 많은 연구자들이 제안한 다양한 콘텐츠 기반 페이지 순위 알고리듬, 링크 구조 기반 페이지 순위 알고리듬 및 하이브리드 페이지 순위 알고리듬을 비판적으로 조사합니다. 다양한 페이지 순위 알고리듬의 몇 가지 중요한 문제가 식별되어 이 영역에서 작업하는 연구자에게 새로운 길을 열어줍니다.

Introduction

웹에 대한 평판이 높아지면서 월드 와이드 웹은 다양한 공간에서 풍부한 기록을 수집할 수 있게 되었습니다. 그러나 웹에서 데이터를 찾는 것은 데이터 검색자에게 성가신 작업입니다. 그러나 검색 엔진이라고 불리는 웹 기반 정보 검색 시스템은 데이터 검색자에게 일을 단순화시켰지만 데이터의 정확성에 대해서는 보장하지 않습니다. 일반적으로 데이터가 정확하지 않습니다 [1]. 웹 검색 엔진은 월드 와이드 웹에서 사용자 쿼리에 대한 데이터를 검색하는 데 사용됩니다. 검색 인터페이스에서 사용자 쿼리를 입력으로 사용하고 사용자 쿼리와 관련된 데이터가 있는 URL 목록에 응답합니다. Google, Bing, Yahoo 등과 같은 검색 엔진은 오늘날 여러 분야에서 정보 요구를 충족시키는 유용한 도구입니다. 검색 엔진의 주요 구성 요소는 웹 크롤러, 인덱서 및 페이지 순위 시스템입니다. 그림 1은 검색 엔진의 아키텍처를 보여줍니다. 이러한 구성 요소는 함께 작동하여 World Wide Web에서 사용자 쿼리에 대한 정보를 검색합니다. 검색 엔진에서 웹 크롤러는 WWW의 다른 웹 사이트에서 사용 가능한 웹 페이지를 계속 다운로드합니다. 이 구성 요소는 사용자 쿼리를 알지 못하고 다운로드한 후 웹 페이지를 페이지 저장소에 저장하지 않고 백그라운드에서 작동합니다. 웹 크롤러는 업데이트된 정보를 저장하기 위해 웹 페이지를 계속 새로 고칩니다. 인덱서는 페이지 리포지토리에서 웹 페이지를 가져와 문서를 구문 분석하고 해당 웹 페이지에서 사용 가능한 모든 정보에 대한 색인의 항목을 만드는 구성요소입니다. 이 인덱스는 검색 엔진에서 사용자 쿼리에 대한 관련 웹 페이지에 응답하는 데 사용됩니다. 페이지 순위 시스템은 결과 목록의 맨 위에 있는 최상의 관련 정보를 제공하는 데 사용됩니다. 검색 엔진의 성능은 결과 페이지 상단에 유용한 정보를 제공하여 사용자가 쉽고 빠르게 정보를 얻을 수 있도록 하기 때문에 순위 시스템에 크게 의존합니다. 본 논문에서는 사용자 정보 필요에 따라 웹 페이지의 순위를 매기기 위해 다양한 검색 엔진에서 사용하는 현재 기술에 대한 검토를 수행합니다. 이 구성 요소는 URL 목록의 맨 위에 있는 사용자 쿼리와 가장 관련성이 높은 정보를 필터링하고 정렬합니다. 페이지 순위의 주요 기술은 웹 구조 및 웹 콘텐츠 마이닝을 기반으로 합니다. 본 논문은 다양한 검색 엔진에서 사용되는 페이지 순위 시스템에 대한 기존 기술을 검토합니다. 섹션 1은 웹 검색 엔진과 그 구성 요소의 작업을 자세히 보여줍니다. 섹션 2는 웹 마이닝의 개념과 현재 사용되고 있는 기술을 자세히 설명합니다. 섹션 3은 사용자 쿼리와 관련된 URL 순위를 매기기 위해 페이지 순위 시스템이 사용하는 현재 기술에 초점을 맞춥니다. 섹션 4는 다양한 연구자들이 제안한 다양한 페이지 순위 알고리즘을 요약합니다. 섹션 5는 페이지 순위 시스템에 대한 기존 작업을 마무리하고, 여전히 작업이 필요한 몇 가지 향후 방향을 제시합니다.