Л.Г. Ветров, А.Л. Сунчалина
8
результаты обучения (в образовании), пол работающего на уровень
средней зарплаты (в социологии) и т.д. Все это задачи дисперсионно-
го анализа. Для ответа на вопрос, влияет ли данный фактор на ре-
зультат, можно использовать однофакторный и двухфакторный дис-
персионный анализ из «Пакета анализа».
В результате этой лабораторной работы студент должен научить-
ся понимать результаты работы данной программы: где находится
информация и как по этой информации сделать правильные выводы.
Кроме того, он должен понимать специфику таблиц: при использова-
нии двухфакторного анализа без повторений для любого набора двух
значений факторов задано ровно одно наблюдение. Это специфика
двухмерных таблиц. При наличии более двух факторов информация
хранится в многомерных таблицах, что требует использования мно-
гомерных массивов и специальных вычислительных процедур (про-
граммирование в среде типа Pascal и т. п.). Но с точки зрения практи-
ческого применения однофакторного и двухфакторного анализа
вполне достаточно.
4. Регрессионный анализ.
Эта работа имеет, пожалуй, самое
большое значение в курсе математической статистики, так как нет
более важной задачи, чем получить достаточно точную связь отклика
Y
с влияющими на него факторами
1
1
...
:
,...,
n
n
X X Y X X
.
В «Пакете анализа» имеется алгоритм нахождения линейной связи
0
1 1
...
n n
Y a a X a X
, использующий метод наименьших квад-
ратов. Студент должен понимать, что если в линейной модели ошиб-
ки
имеют нормальное распределение и для различных наблюдений
линейно не зависимы и одинаково распределены
2
0;
i
N
, то
метод наименьших квадратов дает оптимальные коэффициенты для
параметров модели линейной регрессии. В то же время он должен
осознавать, что если распределение ошибок не является гауссовым,
то гарантия оптимальности оценок отсутствует. Кроме того, метод
наименьших квадратов проявляет неустойчивость по отношению к
«загрязнению выборки» (появлению больших выбросов). В лабора-
торной работе по регрессионному анализу может быть предложен
ряд задач.
Первая задача
— сравнение метода наименьших квадратов (па-
раметрический метод) с непараметрическим методом Тейла (угловой
коэффициент — медиана всех угловых коэффициентов прямых, про-
веденных через все пары различных точек) для простой линейной ре-
грессии
.
Y aX b
Например, можно по данным о расстояниях
до галактик и их скоростям удаления численными методами прове-
рить выполнимость закона Хаббла: «скорость удаления галактики
прямо пропорциональна расстоянию до нее». По реальным данным
[5] рассчитать линию регрессии по методу наименьших квадратов и