Главная страница журнала "Центральный научный вестник"


Опубликовать статью


ПРОБЛЕМЫ ПОИСКОВОЙ ВЫДАЧИ

Северин Денис Валерьевич

Студент

ФГБОУ ВО «Тульский государственный университет»

Россия, г. Тула

Аннотация. В данной статье рассматриваются актуальные проблемы информационного поиска.

Ключевые слова: поисковые системы, информационная перегрузка, семантический поиск, релевантность.

 

Введение

В настоящее время поисковые системы стали одними из самых важных приложений в Интернете, которые извлекают релевантную информацию на основе пользовательских запросов. Интернет продолжает наращивать свои возможности с использованием различных типов современных данных и проникает во все аспекты нашей повседневной жизни. Современная сеть столкнулась с проблемами поисковой выдачи. Следовательно, необходимо, чтобы технологии поисковых систем были усовершенствованы и совершенствовались с развитием Интернета.

Проблема информационной перегрузки

Информационная перегрузка — это явление, имеющее как объективные, так и субъективные причины. Объективно, объем легко доступной информации увеличивался в геометрической прогрессии в каждом из последних пяти десятилетий. В настоящее время нет никаких признаков того, что этот темп роста не будет сохраняться в обозримом будущем. Проще говоря, ничего не может (или не должно) быть сделано с этим. Это логичный результат свободного информационного рынка в сочетании с техническим прогрессом.

Первоначальные выгоды пользователей от технологии поисковых систем со временем резко ухудшились из-за быстрого увеличения интернет-страниц. Поэтому традиционные стратегии поиска дают все более плохие результаты из-за резкого увеличения нерелевантной поисковой выдачи в результатах. Таким образом, пользователи поисковых систем все чаще испытывают информационную перегрузку.

Разные посетители, включая одного и того же посетителя, посещающие сайт в разное время, могут иметь разные цели. Веб-посетители должны перемещаться по избыточным страницам, чтобы получить необходимую информацию, что продлевает время навигации [3].

Технологии поисковых систем стали обращать внимание на качество и относительность результатов поиска, которые можно улучшить, главным образом, с помощью следующих трех технологий: кластеризация веб-документов, анализ структуры веб-ссылок и журналов веб-использования. Данные методы, прежде всего, относятся к области исследований технологии веб-майнинга.

Технология веб-майнинга может быть использована для прямого или косвенного решения проблем информационной перегрузки, она может помочь пользователям быстро и эффективно находить ценную информацию в области поиска информации.

Семантический поиск

Семантический поиск обещает давать точные ответы на запросы пользователей, используя преимущества наличия явной семантики информации в семантической сети [1].

Например, при поиске новостных сюжетов о аспирантах, используя традиционные технологии поиска, часто можно было получить только новостные записи, в которых появляется термин “аспиранты”. Те записи, которые упоминают имена студентов, но не используют термин “аспиранты” напрямую, будут пропущены. Однако такие записи новостей часто интересуют пользователя.

В контексте семантической паутины, где смысл веб-контента становится явным, значение ключевого слова (которое является общим понятием на примере аспирантов) может быть выяснено. Кроме того, базовые семантические отношения метаданных могут использоваться для поддержки поиска соответствующей информации.

Поисковые системы, осуществляющие поиск по ключевым словам, обеспечивают доступ к миллиардам индексированных Интернет-страниц для тысяч пользователей. Такие явления, как полисемия (одно слово имеет несколько значений) и синонимия слов (несколько слов с одним значением) увеличивают число нерелевантных результатов, выдаваемых поисковой системой. В связи с постоянно увеличивающимся числом сайтов растет потребность в тщательном анализе контента Интернет-документов для того, чтобы свести возможность получения нерелевантных результатов к минимуму.

Существующие инструменты семантического поиска в первую очередь предназначены для повышения производительности традиционных технологий поиска, но практически не поддерживают обычных конечных пользователей, которые не обязательно знакомы с предметно-ориентированными семантическими данными, онтологиями или языками запросов

Релевантность поисковых запросов

Веб-сервисы предоставляют единообразные программные интерфейсы, позволяющие их использовать конечными пользователями при необходимости получения информационных услуг в среде Интернет. В текущий момент стоит задача нахождения такой модели построения распределенных систем на базе веб-сервисов, которая бы позволяла автоматически обнаруживать веб-сервисы согласно заданным критериям с наибольшей точностью (релевантностью). Релевантность поисковых запросов является серьёзной проблемой в набирающем всё большие объёмы данных Интернете [2]. Например, реестр UDDI (Universal Description, Discovery and Integration) позволяет производить поиск веб-сервиса исключительно с помощью ключевых слов и предопределенных категорий [4]. Таким образом, окончательный выбор веб-сервиса производится пользователем.

Многие поисковые запросы в сети имеют неявные намерения, которые, если обнаружены и используются эффективно, могут быть использованы для улучшения качества поиска. Например, пользователь, который вводит запрос «toyota camry», может пожелать найти официальную веб-страницу для автомобиля, отзывы об автомобиле или местонахождение ближайшего дилерского центра Toyota. Однако, поскольку пользователь ввел только пару ключевых слов, может быть трудно точно определить, какое из этих неявных намерений пользователь имел в виду. При наличии такого неоднозначного запроса поисковая система должна использовать персонализацию, информацию о кликах, анализ журнала запросов и другие средства для определения неявного намерения. Временно зависимые запросы — это запросы, для которых лучшие результаты поиска меняются со временем. Простыми примерами являются «новый год» и «президентские выборы», которые повторяются с течением времени. Результаты поиска по этим запросам должны отражать самые свежие и самые актуальные результаты.

До сих пор во всех представленных примерах события происходили с (в основном) предсказуемой периодичностью. Однако для таких запросов, как «пожилой человек старшего возраста», лучший результат изменяется непредсказуемо, что затрудняет для поисковых систем постоянную выдачу правильных результатов.

Следовательно, запросы, зависящие от времени, бывают разных форм и создают много проблем для поисковых систем. Например, годовой запрос — это запрос, содержащий год. Запрос с неявным указанием года — это запрос, который на самом деле не содержит года, но, тем не менее, пользователь мог неявно сформулировать запрос с учетом конкретного года. Примером неявно определенного года запроса является «Мисс Вселенная». Вполне вероятно, что пользователь на самом деле имел в виду «Мисс Вселенная 2019», «Мисс Вселенная 2018» или, может быть, даже «Мисс Вселенная 1990», но фактически не квалифицировал запрос с годом. Неявные запросы с указанием года особенно интересны и сложны с точки зрения поиска. Чтобы улучшить качество поиска для временных запросов, поисковая система должна быть в состоянии обнаружить, что определенные запросы имеют неявное временное намерение, и использовать эту информацию для улучшения результатов поиска.

Список использованной литературы:

1. Басипов, A. A. Семантический поиск: проблемы и технологии / А. А. Басипов, О. В. Демич // Вестник АГТУ. - 2012. - №1. - С. 104 - 111.

2. Довбенко, А. В. Проблемы современной поисковой выдачи / А. В. Довбенко // Проблемы современной науки и образования. - 2016. - №39. - С. 19-22.

3. Lin, Chang-Chun Optimal Web site reorganization considering information overload and search depth / Chang-Chun Lin // European Journal of Operational Research. - 2006. - №173. - C. 839 - 848.

4. Toch, E. Humans, semantic services and similarity: A user study of semantic Web services matching and composition / E. Toch, I. Reinhartz-Berger, D. Dori // Web Semantics: Science, Services and Agents on the World Wide Web. - 2011. - №9. - C. 16-28.

Сведения об авторе:

Северин Денис Валерьевич – студент ФГБОУ ВО «Тульский государственный университет», Россия, г. Тула

 

SEARCH RESULTS PROBLEMS

Severin D.V.

Abstract. This article considers the current problems of information retrieval.

Keywords: search engines, information overload, semantic search, relevance.

References:

1. Basipov, A. A. Semantic Search: Problems and Technologies  / A. A. Basipov, O.V. Demich //  Bulletin of ASTU. - 2012. - №1. - P. 104 - 111.

2. Dovbenko, A. V.  Problems of modern search results / A. V. Dovbenko // Problems of modern science and education. - 2016. - №39. - P. 19 - 22.

3. Lin, Chang-Chun Optimal Web site reorganization considering information overload and search depth / Chang-Chun Lin // European Journal of Operational Research. - 2006. - №173. - P. 839-848.

4. Toch, E. Humans, semantic services and similarity: A user study of semantic Web services matching and composition / E. Toch, I. Reinhartz-Berger, D. Dori // Web Semantics: Science, Services and Agents on the World Wide Web. - 2011. - №9. - P. 16-28.