КОРРЕЛЯЦИЯ. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

II Международный конкурс научно-исследовательских и творческих работ учащихся
Старт в науке

КОРРЕЛЯЦИЯ. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

Гхашим Ф.М. 1
1ГБОУ СОШ№34
Козлова И.В. 1
1ГБОУ СОШ№34
Автор работы награжден дипломом победителя III степени
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

ВВЕДЕНИЕ

Актуальность темы состоит в том, что статистические представления являются важнейшей составляющей интеллектуального багажа современного человека. Они нужны в повседневной жизни, так как в нашу жизнь вошли выборы и референдумы, банковские кредиты и страховые полисы, таблицы занятости и диаграммы социологических опросов, нужны и для продолжения образования в таких областях, как социология, экономика, право, медицина, демография и других. Таблицы и диаграммы широко используются в справочной литературе, в средствах массовой информации. Государственные и коммерческие структуры регулярно собирают обширные сведения об обществе и окружающей среде. Эти данные публикуют в виде таблиц и диаграмм. Общество всё глубже начинает изучать себя и стремится сделать прогнозы о самом себе и о явлениях природы, которые требуют представлений о вероятности. Каждый человек должен хорошо ориентироваться в потоке информации. Мы должны научиться жить в вероятной ситуации. А это, значит, извлекать, анализировать и обрабатывать информацию, принимать обоснованные решения в разнообразных ситуациях со случайными исходами.

СТАТИСТИКА

Статистика (от латинского status) –наука изучающая, обрабатывающая и анализирующая количественные данные о самых разнообразных массовых явлениях в жизни. Термин "статистика" появился в середине 18 века. Означал "государство-ведение.С одной стороны, статистика – это совокупность числовых показателей, характеризующих общественные явления и процессы (статистика труда, статистика транспорта). С другой – под статистикой понимается практическая деятельность по сбору, обработке, анализу данных по различным направлениям общественной жизни. С третьей стороны, статистика – это итоги массового учета, опубликованные в различных сборниках. Наконец, в естественных науках статистикой называются методы и способы оценки соответствия данных массового наблюдения математическим формулам. Таким образом, статистика – это общественная наука, изучающая количественную сторону массовых общественных явлений в неразрывной связи с их качественной стороной.

Виды статистики Виды статистики: финансовая, биологическая, экономическая, медицинская, налоговая, метеорологическая, демографическая, аграрная, статистика промышленности, труда, математическая.

Математическая статистика — раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений. В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы.

Выделяют описательную статистику, теорию оценивания и теорию проверки гипотез. Описательная статистика есть совокупность эмпирических методов, используемых для визуализации и интерпретации данных (расчет выборочных характеристик, таблицы, диаграммы, графики и т. д.), как правило, не требующих предположений о вероятностной природе данных. Некоторые методы описательной статистики предполагают использование возможностей современных компьютеров. К ним относятся, в частности, кластерный анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости.

Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ

Современную науку невозможно представить без применения графиков. Они стали средством научного обобщения.

Выразительность, доходчивость, лаконичность, универсальность, обозримость графических изображений сделали их незаменимыми в исследовательской работе и в международных сравнениях и сопоставлениях социально-экономических явлений.

Статистический график - это чертеж, на котором статистические совокупности, характеризуемые определенными показателями, описываются с помощью условных геометрических образов или знаков. Представление данных таблицы в виде графика производит более сильное впечатление, чем цифры, позволяет лучше осмыслить результаты статистического наблюдения, правильно их истолковать, значительно облегчает понимание статистического материала, делает его наглядным и доступным. Это, однако, вовсе не означает, что графики имеют лишь иллюстративное значение. Они дают новое знание о предмете исследования, являясь методом обобщения исходной информации.

ДИАГРАММА РАЗБРОСА

Диаграмма разброса (также точечная диаграмма ,англ. scatter plot) — математическая диаграмма, изображающая значения двух переменных в виде точек на декартовой плоскости, метод определения корреляционной зависимости.

На диаграмме рассеяния каждому наблюдению (или элементарной единице набора данных) соответствует точка, координаты которой (в декартовой системе координат) равны значениям двух каких-то параметров этого наблюдения. Если предполагается, что один из параметров зависит от другого, то обычно значения независимого параметра откладывается по горизонтальной оси, а значения зависимого — по вертикальной. Диаграммы рассеяния используются для демонстрации наличия или отсутствия корреляции между двумя переменными.

КОРРЕЛЯЦИЯ

Корреля́ция (от лат. correlatio «соотношение, взаимосвязь») или корреляционная зависимость — статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.

Математической мерой корреляции двух случайных величин служит коэффициент корреляции . Впервые в научный оборот термин корреляция ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков.

В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.

ВИДЫ КОРРЕЛЯЦИИ

С помощью корреляции мы сможем определить, существует ли связь между первой и второй переменной.

Корреляция измеряет мощность и направление связи между x и y. На рисунке представлены различные типы корреляции в виде графиков рассеяния упорядоченных пар (x, y). По традиции переменная х размещается на горизонтальной оси, а y — на вертикальной.

График А являет собой пример положительной линейной корреляции: при увеличении х также увеличивается у, причем линейно. Например: между производительностью труда и заработной платой, , между техническим уровнем производства и производительностью труда, между выполнением производственного плана и затратами рабочего времени.

  • График В показывает нам пример отрицательной линейной корреляции, на котором при увеличении х у линейно уменьшается. Отрицательная корреляция (рис.4) например: между производительностью труда и стоимостью изделия, между объемом продукции и затратами на единицу изделия.

На графике С мы видим отсутствие корреляции между х и у. Эти переменные никоим образом не влияют друг на друга.

Наконец, график D — это пример нелинейных отношений между переменными. По мере увеличения х у сначала уменьшается, потом меняет направление и увеличивается. Криволинейная корреляция, например: зависимость числа покупаемых автомобилей среднего класса от уровня доходов населения

Коэффициент корреляции

Коэффициент корреляции, r, предоставляет нам как силу, так и направление связи между независимой и зависимой переменными. Значения r находятся в диапазоне между — 1.0 и + 1.0. Когда r имеет положительное значение, связь между х и у является положительной (график A на рисунке), а когда значение r отрицательно, связь также отрицательна (график В). Коэффициент корреляции, близкий к нулевому значению, свидетельствует о том, что между х и у связи не существует график С).

Сила связи между х и у определяется близостью коэффициента корреляции к — 1.0 или +- 1.0.

График A показывает идеальную положительную корреляцию между х и у при r = + 1.0. График В — идеальная отрицательная корреляция между х и у при r = — 1.0. Графики С и D — примеры более слабых связей между зависимой и независимой переменными.

Коэффициент корреляции, r, определяет, как силу, так и направление связи между зависимой и независимой переменными. Значения r находятся в диапазоне от — 1.0 (сильная отрицательная связь) до + 1.0 (сильная положительная связь). При r= 0 между переменными х и у нет никакой связи.

Коэффициент корреляции можно вычислить по следующей формуле:

Использование Excel для вычисления коэффициентов корреляции

программа Excel может с помощью функции КОРРЕЛ вычислить коэффициент корреляции:

КОРРЕЛ (массив 1; массив 2),

где:

массив 1 = диапазон данных для первой переменной,

массив 2 = диапазон данных для второй переменной.

Практическая часть

План проведения практической работы:

  1. Определить, между какими парами данных необходимо установить наличие и характер связи.

  2. Для сбора данных подготовить бланк таблицы (листок регистрации), предусмотрев в нем графы для порядкового номер наблюдения ; независимой переменной характеристики, называемой аргументом х; зависимой переменной, называемой функцией (откликом) у.

  3. По результатам наблюдения заполнить листок регистрации данных.

  4. По полученным данным построить диаграмму разброса при помощи программы Excel.

  5. Вычислить коэффициент корреляции при помощи программы Excel.

  6. Сделать вывод.

Задача №1.

Рассмотрим торговую точку.Проиллюстрируем зависимость количество проданной бутилированной воды в магазине и температурой воздуха в городе. В течение 30 дней проводились наблюдения за этими величинами и результаты заносились в таблицу:

Х, ◦С

Y,л

Х, ◦С

Y,л

Х, ◦С

Y,л

19

26

26

42

29

61

18

24

25

44

27

58

21

29

26

48

26

50

23

32

27

52

24

41

20

25

27

54

25

45

22

33

24

46

23

38

24

32

25

50

24

35

25

31

27

55

26

43

25

34

28

50

28

52

25

38

28

55

29

56

           

Диаграмма разброса:

Коэффициент корреляции r =0,891973, следовательно, существует прямая корреляция между случайными величинами.

Задача №2.

Построим диаграмму разброса случайных величин Х и У, представленных в таблице, если Х- стоимость в рублях килограмма пшеничной муки, У -стоимость в рублях килограмма хлебобулочных изделий из пшеничной муки. Определить вид корреляции между величинами Х и У.

Год

Х,руб

У,руб

1998

3,7

6,4

1999

8,0

11,0

2000

8,1

12,2

2001

8,5

13,7

2002

8,0

14,4

2003

11,4

18,7

2004

13,1

21,6

2005

12,0

22,2

2006

12,8

25,0

2007

17,4

30,7

2008

21,5

39,3

2009

19,5

39,7

Диаграмма разброса:

Коэффициент корреляции r=0,985710479, следовательно, корреляция прямая сильная.

Задача №3.

Рассмотрим связь между числом учащихся Х ( в процентах) сделавших прививку от гриппа, и числом учащихся У ( в процентах) , заболевших гриппом в 40 школах города. Данные отражены в таблице:

X,%

Y,%

X,%

Y,%

X,%

Y,%

X,%

Y,%

20

35

23

31

17

40

24

29

21

35

39

12

21

34

33

17

15

42

19

37

31

21

17

41

18

38

31

22

27

28

28

28

36

16

25

23

30

26

37

15

35

17

20

33

25

23

19

35

40

12

38

14

36

18

34

20

16

40

35

19

23

30

29

27

18

36

26

28

32

20

20

34

24

31

32

19

22

30

38

15

Диаграмма разброса:

Коэффициент корреляции r=-0,96115, следовательно, существует обратная корреляция между случайными величинами.

Задача №4

На основе проведенных нами измерений роста и веса одноклассников построим диаграмму разброс. Определим вид корреляции между этими величинами

Х, рост см

У, вес кг

Х, рост см

У, вес кг

175

70

168

56

162

55

158

57

165

67

173

61

172

61

176

63

152

52

175

65

168

60

175

63

160

45

162

51

165

52

174

62

172

70

195

70

169

58

160

60

Диаграмма разброса:

Коэффициент корреляции r=0,71136, следовательно, корреляционная зависимость между весом и ростом существует. Эта корреляция является прямой.

Вывод:

В результате работы сделан вывод: корреляционный метод обработки статистических данных, распространён в экономике, психологии, в социологии и в других областях науки для выяснения существования зависимости и выявление характера связи между двумя различными параметрами процесса, составления достоверного прогноза.

Список использованных источников:

  1. Гмурман В.Е. Теория вероятностей и математическая статистика.- М.:Высш. Шк., 1977.-479 с.

  2. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике.- М.: Высш. шк., 1979.- 400 с.

  3. Вентель Е. С. Теория вероятностей.- М.: Физ. мат. гиз., 1962.-560 с.

  4. Гельман В. Я. Решение математических задач средствами Excel/В. Я. Гельман.-СПб.: Питер, 2003.- 240 с.

  5. Кремер Н.Ш. Теория вероятностей и математическая статистика/Н.Ш. Кремер.- М.: ЮНИТИ, 2006.- 573 с.

  6. Колягин Ю.М., Ткачёва М.В., Фёдорова Н.Е., Шабунин М. И. Алгебра 9 класс.- М.: Просвещение 2014.- 304 с.

«ИНТЕРНЕТ-РЕСУРСЫ»

http://forexaw.com

15

Просмотров работы: 1017