logo
Лекции по статистике

Регрессионный анализ Линейная регрессия

Взаимосвязь между переменными величинами может быть описана разными способами. Например, как было показано в предыдущем разделе, эту связь можно описать с помощью раз­личных коэффициентов корреляции (линейных, частных, кор­реляционного отношения и т.п.). В то же время эту связь можно выразить по-другому: как зависимость между аргументом (вели­чиной) X и функцией Y. В этом случае задача будет состоять в на­хождении зависимости вида Y = F(X) или, напротив, в нахож­дении зависимости вида Х= F(Y). При этом изменение функции в зависимости от изменений одного или нескольких аргументов называется регрессией.

Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии выражает наилучшее пред­сказание зависимой переменной (Y) по независимым перемен­ным (X), Эти независимые переменные, а их может быть много, носят название предикторов.

Регрессию выражают с помощью двух уравнений регрессии, которые в самом простом случае выглядят, как уравнения пря­мой, а именно так:

(12.1)

(12.2)

В уравнении 12.1 Yзависимая переменная, а X — незави­симая переменная, а0 свободный член, а а1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

В уравнении 12.2 Xзависимая переменная, а Yнезави­симая переменная, b0 свободный член, а b1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

Рис. 1. Линии регрессии Y по Х и X по Y в системе прямоугольных координат

Линии регрессии пересекаются в точке О (х, у), с координа­тами, соответствующими средним арифметическим значениям корреляционно связанных между собой переменных X и Y. Линия АВ, проходящая через точку О, соответствует линейной функци­ональной зависимости между переменными величинами X и Y, когда коэффициент корреляции между X и Y равен rxy. = 1. При этом наблюдается такая закономерность: чем сильнее связь меж­ду X и Y, тем ближе обе линии регрессии к прямой АВ, и, на­оборот, чем слабее связь между этими величинами, тем больше линии регресии отклоняются от прямой АВ. При отсутствии свя­зи между X и Y линии регрессии оказываются под прямым углом по отношению друг к другу и в этом случае rxy = 0,

Количественное представление связи (зависимости) между X и Y (между Y и X) называется регрессионным анализом. Главная задача регрессионного анализа заключается, соб­ственно говоря, в нахождении коэффициентов a0, b0, а1 и b1 и определении уровня значимости полученных аналитических выражений (12.1) и (12.2), связывающих между собой пере­менные X и Y.

Пример 1. В исследовании Ф. Гальтона (который и ввел в науку понятие регрессии) был измерен рост 205 родителей и 930 их взрослых детей (см. таблицу 3.3). При этом, если за Y взять рост ребенка, а за X рост родителя, уравнение регрессии, связывающее рост ребенка с ро­стом родителей, имеет вид:

(12.14) где X и У средние по всей выборке испытуемых.

Таким образом, зная величины средних по всей выборке и рост одного из родителей — Xi , из уравнения 12.14 можно под­считать величину Y, т.е. рост ребенка.

Пример 2. Психологи выявили взаимосвязь между успешностью обучения математике Y и показателем невербального интеллекта X. Было получено следующее уравнение регрессии:

Y= 1 +0,025 • X (12.15)

Предположим, что показатель невербального интеллекта уча­щегося равен 132, тогда согласно уравнению регрессии (12.15) можно предсказать его показатель средней успеваемости по ма­тематике:

Y= 1 + 0,025 • 132 = 4,3

У другого учащегося показатель невербального интеллекта оказался равен 82, тогда его средняя успеваемость по математи­ке составит:

Y= 1 + 0,025 • 82 = 3,05