ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013
4
документов к общему числу документов, соответствующих запросу.
Точность оценивается как отношение числа выбранных для показа
документов, не соответствующих запросу (информационный шум), к
общему числу показанных документов. Очевидно, что данные харак-
теристики зависят друг от друга: увеличение точности приводит к
уменьшению полноты и наоборот.
Анализ процесса сбора документов.
Для практического осу-
ществления поиска необходимо сформировать область поиска, кото-
рую создают в виде хранилища данных о документах. Для сокраще-
ния времени поиска выполняют предварительную индексацию
информации в хранилище. С этой целью оформляют специальные
индексные структуры и формализуют процесс отбора информации,
ценной для поиска.
Анализ процесса сбора информации позволяет выделить три ос-
новные задачи. Первая заключается в выделении малоинформатив-
ных частей документов, таких как элементы навигации на странице,
рекламные блоки и т. п. Вторая задача состоит в исключении из по-
искового индекса повторяющейся информации, а именно полностью
или частично повторяющейся информации. Для решения обеих за-
дач может быть выбран общий подход, так как в этих задачах необ-
ходимо определить повторяющиеся фрагменты текстов. Различают-
ся они только анализируемой областью. Для первой задачи область
определяется множеством страниц конкретного сайта, выбранного
для анализа. Для второй задачи аналаз выполняется для всего ин-
декса системы, сформированного заранее. Третьей задачей является
выявление тематики индексируемого документа. Система индекса-
ции выполняет такой анализ на основе предварительно созданной
базы знаний. Для решения этой задачи в систему включается специ-
альный модуль — классификатор.
Для поиска повторяющихся фрагментов или, другими словами,
проверки текстов на уникальность используется метод шинглов (от
англ.
shingles
— чешуя).
В алгоритме шинглов тексты разбивают на последовательности
слов заданной длины (обычно от 5 до 10). Выделенные последова-
тельности накладываются одна на другую со смещением в одно сло-
во — «внахлест» — и сравниваются на предмет совпадения путем
расчета контрольной суммы. Контрольных сумм будет столько,
сколько в тексте слов, за вычетом длины шингла. Из всего множества
контрольных сумм выбираются, например, только те, которые делят-
ся на 25. Очевидно, что повтор даже одной последовательности слов
является признаком дублирования. Число совпадений определяет
схожесть двух текстов. Метод шинглов является достаточно надеж-
ным для поиска почти-дубликатов, он используется для выявления
плагиата. Дубликаты удаляются из множества отобранных для пред-
ставления документов.
1,2,3 5