Стр. 12 - О.В. Пескова - О ВИЗУАЛИЗАЦИИ ИНФОРМАЦИИ

текстов. Их необходимо преобразовать в набор объектов и отношений,
являющихся более структурированными, пригодными для отображе-
ния в визуальную форму. С этой целью применяется информационный
анализ, состоящий из двух этапов: индексации и анализа данных.
Индексация
необходима для извлечения некоторых атрибутов объ-
ектов визуализации, передающих смысл и содержание самих объек-
тов. Требуются различные алгоритмы индексации в зависимости от
природы данных: например, алгоритмы обработки естественного язы-
ка (словари ключевых слов, ключевых фраз, именные группы, части
речи) для коллекций текстов; алгоритмы обработки изображений (сег-
ментация по цвету, яркости, структуре) для коллекций изображений;
алгоритмы обработки аудио (по звуку и высоте тона) для коллекций
аудио-файлов; алгоритмы обработки видео (сегментация по сценам)
для видео-коллекций.
На стадии
анализа
,
как правило, применяются алгоритмы клас-
сификации и кластеризации. Первые распределяют объекты визуали-
зации по предопределенным категориям (группам), используя алго-
ритмы машинного обучения, например, «наивный» байесовский ал-
горитм, алгоритм
k
-
ближайшего соседа, нейросетевые алгоритмы и
др. Вторые динамически разбивают объекты визуализации на группы
путем вычисления некоторой меры сходства между ними, например,
алгоритм
k
-
среднего, самоорганизующиеся карты Кохонена, иерархи-
ческие алгоритмы и др. В результате получают матрицы, описываю-
щие объекты и взаимосвязи между ними и их группами.
Визуальное отображение.
Полученные данные отображают в
ви-
зуальные структуры
несколькими способами. Важно выбрать наи-
более выразительную визуальную структуру, в которой отражены все
данные без потерь. Такая структура легко и быстро может быть интер-
претирована человеком с наименьшим числом ошибок, она по макси-
муму передает все различия в данных. Следует использовать не только
намеренную (контролируемую) обработку информации человеком (на-
пример, чтение текстовых надписей), но и иконическую память, и ав-
томатические (неконтролируемые) процессы обработки информации.
Простыми примерами последнего являются
цвет
и
размер
объектов.
Необходимо быть весьма осторожными, чтобы непреднамеренные эф-
фекты не ввели пользователя в заблуждение.
Ценным знанием об особенностях восприятия человеком графиче-
ской информации являются
гештальт-принципы
,
обнаруженные пси-
хологами, которые утверждают, что наше восприятие стремится к це-
лостности образа:
простота
(
pragnanz) — тенденция воспринимать любую неодно-
значную группу объектов (которую можно интерпретировать различ-
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
169