РЕШЕНИЕ ПРОБЛЕМЫ ИНФОРМАЦИОННОЙ ПЕРЕГРУЗКИ

РЕШЕНИЕ ПРОБЛЕМЫ ИНФОРМАЦИОННОЙ ПЕРЕГРУЗКИ

Дроздов Дмитрий Валерьевич

Студент

ФГБОУ ВО «Тульский государственный университет»

Россия, г. Тула

Аннотация. Проблема информационной перегрузки становится наиболее востребованной и актуальной, в связи с непрерывным и быстрым развитием технологий. В настоящее время структура, объемы и динамика информационного пространства обуславливают актуальность поисковых технологий. Большинство пользователей сети Интернет осуществляет поиск информации с помощью сетевых поисковых систем. Доступ пользователей к современным информационным сетям, эффективное удовлетворение их информационных потребностей возможно только с помощью развитых средств навигации в этих сетях.

Ключевые слова: кластеризация, персонализация поисковой выдачи, поисковая система.

Введение. В настоящее время Всемирная паутина превратилась в распределенное информационное пространство с почти 100 миллионами рабочих станций и несколькими миллиардами страниц, что доставляет людям большие проблемы с поиском необходимой информации, хотя и огромным количеством информации, доступной на веб-сайтах. Поисковая система - очень важный инструмент для людей, чтобы получить информацию в Интернете. С быстрым развитием Интернета эффективная и точная интеллектуальная поисковая система стала самой важной целью исследования.

Кластеризация веб документов. Одним из подходов к реорганизации огромного количества страниц поисковой выдачи является кластеризация результатов поиска на основе кластерной гипотезы о том, что соответствующие документы, как правило, больше похожи друг на друга, чем на не относящиеся к делу документы. Основная проблема кластеризации результатов поиска заключается в том, что иногда результаты поиска не группируются должным образом.

Кластерный анализ — это исследовательский многомерный статистический метод, который пытается найти «естественные» группировки объектов на основе атрибутной информации об объектах. В типичном кластерном анализе с многомерными данными объекты обычно являются переменными, а записи (случаи) являются атрибутами [1]. При геномном анализе при кластеризации массивов массивы являются объектами, а гены - атрибутами. При кластеризации генов гены являются объектами, а массивы - атрибутами. Эмпирическое правило заключается в том, что объект, который кластеризуется (переменные, записи, массивы, гены), является объектом. Конечным результатом кластерного анализа является отображение кластерного изображения (CID), содержащее дендограммы (древовидные диаграммы), показывающие группирование массивов и генов в соответствии с порядком их объединения во время кластеризации.

Обычные системы поиска документов возвращают длинные списки ранжированных документов, которые пользователи вынуждены просматривать, чтобы найти соответствующие документы.

Многие алгоритмы кластеризации документов основаны на автономной кластеризации всей коллекции документов, но коллекции веб-поисковых систем слишком велики и изменчивы, чтобы оставлять их в автономном режиме [1]. Поэтому кластеризация должна применяться к гораздо меньшему набору документов, возвращаемых в ответ на запрос. Поскольку поисковые системы обслуживают миллионы запросов в день бесплатно, циклы ЦП и память, выделенные для каждого отдельного запроса, сильно сокращаются. Таким образом, кластеризация должна выполняться на отдельной машине, которая получает результаты поисковой системы в качестве входных данных, создает кластеры и представляет их пользователю. На основе этой модели можно определить несколько ключевых требований для методов кластеризации веб-документов:

1. Релевантность: метод должен создавать кластеры, которые группируют документы, относящиеся к запросу пользователя, отдельно от не относящихся к делу.

2. Обзор с возможностью просмотра: пользователь должен сразу определить, представляет ли интерес содержимое кластера. Поэтому метод должен обеспечивать краткие и точные описания кластеров.

3. Наложение: поскольку документы имеют несколько тем, важно не ограничивать каждый документ только одним кластером.

4. Допуск к фрагментам: метод должен создавать кластеры высокого качества, даже если он имеет доступ только к фрагментам, возвращаемым поисковыми системами, поскольку большинство пользователей не хотят ждать, пока система загрузит исходные документы из Интернета.

5. Скорость: очень терпеливый пользователь может просмотреть 100 документов в ранжированном списке. Необходимо, чтобы кластеризация позволяла пользователю просматривать как минимум на порядок больше документов. Поэтому метод кластеризации должен иметь возможность кластеризации до тысячи фрагментов за несколько секунд. Для нетерпеливого пользователя каждая секунда имеет значение.

6. Инкрементальность: чтобы сэкономить время, метод должен начинать обрабатывать каждый фрагмент сразу после его получения через Интернет.

Анализ веб-содержимого. Анализ веб-содержимого описывает обнаружение полезной информации из содержимого веб-страниц или веб-документов. В соответствии с различием объектов интеллектуального анализа данных, интеллектуальный анализ веб-контента состоит из интеллектуального анализа текста (включая такие данные, как тексты, гипертексты, HTML-документы, а также данные в таблицах) и интеллектуального анализа данных (включая такие данные, как изображения, аудио и видео). В настоящее время интеллектуальный анализ веб-текста в основном используется для подведения итогов, классификации, кластеризации и анализа ассоциаций наборов веб-документов, браузерной навигации по научной литературе и прогнозирования тенденций в веб-документах [2]. В Интернете существует множество мультимедийных данных, таких как аудио, изображения и видеоданные. Мультимедийный анализ данных имеет множество областей применения, особенно в научных исследованиях астрономии и сейсмологии. Основным процессом интеллектуального анализа мультимедийных данных является создание таблицы двумерных характеристик с помощью инструментов выделения символов мультимедийной информации.

Используя информацию о структуре, можно лучше понять и улучшить качество содержимого веб-страницы. Веб-структура включает в себя не только гиперссылки между различными страницами, но и древовидную структуру, представленную на странице в HTML и XML, структуру пути каталога в URL документа. Шаблоны, полученные из веб-структуры, могут раскрыть много полезной и скрытой информации. Например, отношение цитирования может быть взято из гиперссылок между документами, которые могут помочь нам найти авторитетные страницы, соотнесенные с запрошенными пользователями. URL-адрес сети может отражать тип страницы и связь между страницами. Страницы, которые изменили расположение, можно найти, проанализировав информацию об URL-адресах веб-страниц. Подобные страницы часто имеют внутреннюю организационную структуру, анализируя структуру внутреннего документа, можно найти похожие веб-страницы, анализ которых может быть использован при обработке результатов поисковых систем.

Персонализация поисковой выдачи. За последнее десятилетие произошел огромный рост в области сетей. Информация, предоставляемая пользователям через Интернет, огромна. В общем, у людей есть два способа найти данные, которые они ищут: они могут искать и просматривать. Поисковые системы индексируют миллионы документов в Интернете и позволяют пользователям вводить ключевые слова для поиска документов, содержащих эти ключевые слова. Просмотр обычно осуществляется путем выбора иерархии предметов, пока не будет достигнута интересующая область. Затем соответствующий узел предоставляет пользователю ссылки на соответствующие веб-сайты. У каждого человека свои потребности, поэтому подход к поиску или просмотру, должен отвечать всем потребностям.

Действительно, с точки зрения поиска, огромное количество поисковой выдачи не имеет отношения к делу. Основная проблема заключается в том, что имеется слишком много доступной информации, и что ключевые слова не всегда являются подходящим средством поиска информации, в которой заинтересован пользователь. Поиск информации будет более эффективным, если учитывать индивидуальные особенности пользователей. Таким образом, эффективная система персонализации может автономно решать, заинтересован ли пользователь в конкретной веб-странице и, в отрицательном случае, предотвращать ее отображение. Или система может самостоятельно перемещаться по Интернету и уведомлять пользователя, если найдет страницу или сайт предполагаемого интереса.

Современные системы сбора информации в Интернете пытаются удовлетворить требования пользователей, фиксируя их информационные потребности [3]. Для этого создаются пользовательские профили для описания базовых знаний пользователя. Профиль пользователя создается с течением времени путем анализа просматриваемых страниц для определения их содержимого и связывания этого содержимого с длиной документа и затраченным на него временем. Когда страницы об определенных предметах посещаются снова и снова, это считается показателем интереса пользователя к этому предмету и система представляет долгосрочные и краткосрочные предпочтения в качестве онтологии предпочтений после вывода соответствующих понятий из общей онтологии. За исключением действия по серфингу, взаимодействие с пользователем в этой системе не требуется. Улавливая интересы в профилях пользователей, промежуточное ПО для персонализированного поиска способно адаптировать результаты поиска, полученные из общих поисковых систем, к предпочтениям пользователей посредством персонализированного повторного выбора результатов поиска. Концептуальные отношения между документами должны быть представлены для того, чтобы идентифицировать информацию, которую пользователь хочет получить от представленных концепций.

Список использованной литературы:

1. Lin, Chang-Chun Optimal Web site reorganization considering information overload and search depth // European Journal of Operational Research. - 2006. - №173(3) [Электронный ресурс] – URL: https://www.sciencedirect.com/science/article/abs/pii/S0377221705006788 (дата обращения: 17.11.2019).

2. Toch, E. Humans, semantic services and similarity: A user study of semantic Web services matching and composition / E. Toch, I. Reinhartz-Berger, D. Dori // Web Semantics: Science, Services and Agents on the World Wide Web, 9(1), 2011 - С. 16-28.

3. Top Websites [Электронный ресурс] – URL: https://www.similarweb.com/top-websites (дата обращения: 17.11.2019).

Сведения об авторе:

Дроздов Дмитрий Валерьевич - студент ФГБОУ ВО «Тульский государственный университет», Россия, г. Тула

SOLUTION OF THE INFORMATION OVERLOAD PROBLEM

Drozdov D.V.

Abstract. The problem of information overload is becoming the most popular and relevant, due to the continuous and rapid development of technology. Currently, the structure, volumes and dynamics of the information space determine the relevance of search technologies. Most Internet users search for information using network search engines. User access to modern information networks, effective satisfaction of their information needs is possible only with the help of developed navigation tools in these networks.

Keywords: clustering, personalization of search results, search engine.

References:

1. Lin, Chang-Chun Optimal Web site reorganization considering information overload and search depth [Electronic resource]. - European Journal of Operational Research. - 2006. - №173(3) - Access mode: https://www.sciencedirect.com/science/article/abs/pii/S0377221705006788 (access date: 17.11.2019).

3. Top Websites [Electronic resource]. – Access mode: https://www.similarweb.com/top-websites (access date: 17.11.2019).