Лекции по статистике

Регрессионный анализ Линейная регрессия

Взаимосвязь между переменными величинами может быть описана разными способами. Например, как было показано в предыдущем разделе, эту связь можно описать с помощью различных коэффициентов корреляции (линейных, частных, корреляционного отношения и т.п.). В то же время эту связь можно выразить по-другому: как зависимость между аргументом (величиной) X и функцией Y. В этом случае задача будет состоять в нахождении зависимости вида Y = F(X) или, напротив, в нахождении зависимости вида Х= F(Y). При этом изменение функции в зависимости от изменений одного или нескольких аргументов называется регрессией.

Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (X), Эти независимые переменные, а их может быть много, носят название предикторов.

Регрессию выражают с помощью двух уравнений регрессии, которые в самом простом случае выглядят, как уравнения прямой, а именно так:

(12.1)

(12.2)

В уравнении 12.1 Y — зависимая переменная, а X — независимая переменная, а0 свободный член, а а1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

В уравнении 12.2 X— зависимая переменная, а Y— независимая переменная, b0 свободный член, а b1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

Рис. 1. Линии регрессии Y по Х и X по Y в системе прямоугольных координат

Линии регрессии пересекаются в точке О (х, у), с координатами, соответствующими средним арифметическим значениям корреляционно связанных между собой переменных X и Y. Линия АВ, проходящая через точку О, соответствует линейной функциональной зависимости между переменными величинами X и Y, когда коэффициент корреляции между X и Y равен r_xy. = 1. При этом наблюдается такая закономерность: чем сильнее связь между X и Y, тем ближе обе линии регрессии к прямой АВ, и, наоборот, чем слабее связь между этими величинами, тем больше линии регресии отклоняются от прямой АВ. При отсутствии связи между X и Y линии регрессии оказываются под прямым углом по отношению друг к другу и в этом случае r_xy = 0,

Количественное представление связи (зависимости) между X и Y (между Y и X) называется регрессионным анализом. Главная задача регрессионного анализа заключается, собственно говоря, в нахождении коэффициентов a0, b0, а1 и b1 и определении уровня значимости полученных аналитических выражений (12.1) и (12.2), связывающих между собой переменные X и Y.

Пример 1. В исследовании Ф. Гальтона (который и ввел в науку понятие регрессии) был измерен рост 205 родителей и 930 их взрослых детей (см. таблицу 3.3). При этом, если за Y взять рост ребенка, а за X рост родителя, уравнение регрессии, связывающее рост ребенка с ростом родителей, имеет вид:

(12.14) где X и У средние по всей выборке испытуемых.

Таким образом, зная величины средних по всей выборке и рост одного из родителей — X_i , из уравнения 12.14 можно подсчитать величину Y, т.е. рост ребенка.

Пример 2. Психологи выявили взаимосвязь между успешностью обучения математике Y и показателем невербального интеллекта X. Было получено следующее уравнение регрессии:

Y= 1 +0,025 • X (12.15)

Предположим, что показатель невербального интеллекта учащегося равен 132, тогда согласно уравнению регрессии (12.15) можно предсказать его показатель средней успеваемости по математике:

Y= 1 + 0,025 • 132 = 4,3

У другого учащегося показатель невербального интеллекта оказался равен 82, тогда его средняя успеваемость по математике составит:

Y= 1 + 0,025 • 82 = 3,05

Содержание