Введение
При обработке экспериментальных данных для расчета различных параметров часто используют линейные соотношения между измеряемыми величинами или их функциями, откладывая попарно значения измеренных величин или их функций и проводя через полученные точки прямую. По отрезкам, отсекаемым этой прямой на осях координат, и тангенсу угла наклона прямой рассчитывают значения физических параметров. Для того чтобы провести прямую через множество точек с помощью ЭВМ наилучшим образом, необходимо сначала выяснить, каким критериям должна удовлетворять эта прямая [1].
В большинстве случаев прямую стараются провести так, чтобы сумма квадратов отклонений экспериментальных значений величины у от прямой была минимальна [2].
Регрессия (лат. regressio — обратное движение, отход) в теории вероятностей и математической статистике — математическое выражение, отражающее зависимость зависимой переменной у от независимых переменных х при условии, что это выражение будет иметь статистическую значимость. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y. Если при каждом значении x = x i {displaystyle x=x_{i}} наблюдается n i {displaystyle n_{i}} значений yi1…yin1 величины y, то зависимость средних арифметических y ¯ i = ( y i 1 + . . . + y i n 1 ) / n i {displaystyle {bar {y}}_{i}=(y_{i1}+...+y_{in_{1}})/n_{i}} от x = x i {displaystyle x=x_{i}} и является регрессией в статистическом понимании этого термина.
Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс — значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.
Линейная регрессия (англ. Linearregression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной yy {displaystyle y} от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) xx {displaystyle x} с линейной функцией зависимости.
Регрессионный анализ — статистический метод исследования влияния одной или нескольких независимых переменных X 1 , X 2 , . . . , X p {displaystyle X_{1},X_{2},...,X_{p}} на зависимую переменную YY {displaystyle Y} . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными [3].
Цели регрессионного анализа:
Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
Предсказание значения зависимой переменной с помощью независимой(-ых)
пределение вклада отдельных независимых переменных в вариацию зависимой
Целью работы является обработка результатов эксперимента по измерению углов поворота плоскости поляризации света сахарозой. Эксперимент выполнялся в рамках работы по созданию прибора-анализатора для определения качества мёда [4].
Для достижения cформулированной цели работы необходимо выполнить следующие задачи:
Провести эксперимент и получить значения угла поворота плоскости поляризации света растворами сахарозы с разными процентными содержаниями.
Найти выборочное уравнение регрессии.
По уравнению построить выборочную линию регрессии.
Вычислить значение удельного вращения согласно уравнению регрессии.
Вычислить коэффициент корреляции и Ψ.
Экспериментальная часть
Был проведён эксперимент на установке для изучения закона Малюса производства Phywe Systems (EXACTA OPTECH) с целью определения зависимости удельного вращения чистой сахарозы в растворах от длины волны света. Установка, которая использовалась для этого, была модифицирована: монохроматический источник (натриевая лампа) был заменён на немонохроматический (лампу с широким спектром) (фотография 1). При этом, в эксперименте применялся зеленый светофильтр с длиной волны =530 нм, который ранее в данной установке не использовался (фотография 2). С помощью весов (фотография 3) взвешивалась чистая сахароза для приготовления растворов.
Фотография 1 Фотография 2
Фотография 3
Опыт проводился следующим образом:
В кювету длиной 16 см заливалась дистиллированная вода.
В воду добавлялась сахароза для получения растворов с различной концентрацией.
Кювета помещалась в канал для образца в модифицированной установке для изучения закона Малюса производства Phywe Systems (EXACTA OPTECH) [14].
Устанавливался зеленый светофильтр.
Измерялись значения угла поворота плоскости поляризации света для каждого раствора при фиксированном спектральном интервале, задаваемым полосой пропускания светофильтра.
После исключения из базы данных «выбросов» оставалось 10 значений угла поворота плоскости поляризации света для вычисления значения удельного вращения сахарозы.
Теоретическая часть
Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости Y от Х (или Х от Y), например, линейную модель yx=a+bx, необходимо определить конкретные значения коэффициентов модели [5].
При различных значениях а и b можно построить бесконечное число зависимостей вида yx=a+bx, т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов [6].
Линейную функцию a+bx ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используем метод наименьших квадратов [7].
Обозначим:
- значение, вычисленное по уравнению = a+bΨi.
Ψi и ci - измеренные значения,
εi=Ψi- - разность между измеренными и вычисленными по уравнению значениям, εi=Ψi- a - bΨi.
В методе наименьших квадратов требуется, чтобы εi, разность между измеренными Ψi и вычисленными по уравнению значениям , была минимальной. Следовательно, находим коэффициенты а и b так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:
S = (1)
Исследуя на экстремум эту функцию аргументов а и с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы:
Если разделить обе части нормальных уравнений на n, то получим:
Учитывая, что
Получим, отсюда , подставляя значение a в первое уравнение, получим:
(4)
b = (5)
a = (6)
При этом b называют коэффициентом регрессии; a называют свободным членом уравнения регрессии и вычисляют по формуле: .
Полученная прямая является оценкой для теоретической линии регрессии. Имеем:
(7)
Итак, является уравнением линейной регрессии.
Регрессия может быть прямой (b>0) и обратной (b