Введение
Задача статистического анализа данных, обладающих рядом свойств, а также разделение совокупности на группы, внутри которых объекты имеют схожие свойства – часто встречающаяся задача. Статистический анализ – это наука о сборе данных и обнаружении закономерностей и тенденций. Он широко используется в экономике, социологии и политологии, в науках, где необходимо усреднять, обобщать, систематизировать большие объёмы данных. Анализ содержимого баз данных и формирование отчётов о содержащейся в них информации – важная и актуальная задача, которую решает статистический анализ.
Настоящая работа является продолжением и дополнением ранее проведённого исследования [4] в котором решалась задача многокритериального выбора лучшего варианта из заданного множества для заказчика на примере модельного агентства. Проведённое исследование посвящено анализу статистических данных кадрового агентства и формирования отчётности для его руководства. Особенностью анализа является применение метода многомерной группировки данных на основе многомерного среднего.
Гипотеза исследования: если учесть одновременно несколько признаков данных рассматриваемой совокупности, то можно разделить её на группы с близкими значениями признаков.
Цель проекта: изучение основных методов статистической обработки данных, способа многомерной группировки и применение их для решения задачи анализа данных кадрового агентства.
Задачи проекта:
сформировать базу данных кадрового агентства в Excel на 100 человек;
изучить основные методы статистической обработки данных, а также способ многомерной группировки данных;
разработать алгоритмы расчёта показателей и выполнения группировки;
реализовать алгоритмы с помощью офисного приложения Excel;
исследовать работоспособность алгоритмов на примере базы данных модельного агентства, сделать выводы, подтвердить или опровергнуть гипотезу исследования.
Объект исследования – задача статистического анализа.
Предмет исследования: методы решения задачи и их практическая реализация.
Методы исследования: изучение литературы и Интернет-ресурсов, извлечение знаний, систематизация информации и анализ.
Информация проекта будет интересна и полезна для людей, планирующих работать менеджерами или сотрудниками кадровых агентств. Практическая значимость проекта в том, что в нем собрана основная информация по методам статистического анализа на основе средних величин, а также многомерной группировки данных и разобран практический пример составления отчёта. Срок работы над проектом – 9 месяцев.
Продукт проекта: файл Excel с формами для решения задачи статистического анализа с автоматическим формированием отчётности.
ГЛАВА 1 Теоретическое обоснование исследования
1.1 Постановка задачи статистического анализа кадрового агентства
1.1.1 Кадровое агентство
Кадровое агентство — посредник на рынке труда, организация, оказывающая услуги работодателям по поиску и подбору персонала и/или оказывающая услуги соискателям по поиску работы и трудоустройству, а также другие сопутствующие услуги [3].
Модельное агентство – разновидность кадрового агентства в модной индустрии. Работодателем может выступать как компания из сферы моды, fashion дизайнер, так и журналы, каталоги товаров, рекламные агентства и многое другое [7].
Далее задачи исследования решены на примере модельного агентства.
Анкета модели – это её характеристика, содержащаяся в модельном агентстве (сведения от имени и фамилии до размера ноги). Критерии отбора моделей – это информация, содержащаяся в анкете [4].
1.1.2 Математическая модель данных
База данных модельного агентства, содержащая анкетные данные для 100 моделей:
пол: мужской или женский;
возраст, лет;
рост, см;
обхват груди, см;
обхват талии, см;
обхват бёдер, см;
размер ноги;
размер одежды;
цвет глаз: голубые, серые, зелёные, карие;
цвет волос: блондин, русый, шатен, рыжий, брюнет;
гонорар за 1 час работы, руб;
количество показов, шт.
1.1.3 Постановка задачи
Требуется разработать алгоритм анализа анкетных данных моделей на основе средних величин, выполнить многомерную группировку данных с выдачей статистического отчёта для владельца модельного агентства.
1.2 Основные методы статистической обработки данных
1.2.1 Средняя величина
Средняя величина в статистике – обобщающий показатель, характеризующий типичный уровень варьирующего признака в расчёте на единицу однородной совокупности в конкретных условиях места и времени. [5]
Метод средних величин заключается в замене индивидуальных значений варьирующего признака единиц наблюдения х1, х2 ,…хn некоторой величиной [5]
Средняя арифметическая простая применяется в тех случаях, когда каждое индивидуальное значение признака встречается один или одинаковое число раз, то есть когда средняя рассчитывается по группировочным единицам совокупности.
, (1.1)
где х1, х2, … хn – индивидуальные значения варьирующего признака; n – число единиц совокупности [5].
Среднюю арифметическую взвешенную рассчитывают в тех случаях, когда отдельные значения исследуемой совокупности встречаются не один, а много, причем неодинаковое число раз, то есть представляют собой ряд распределения.
, (1.2)
где x1, x2, x3, … xn– индивидуальные значения признака.
Частота – числа, показывающие, сколько раз повторяются варианты (частоты), - f1, f2, f3, … fn. [5].
1.2.2 Структурные средние
Структурные средние – это мода и медиана. В отличие от среднего значения мода и медиана совпадают с конкретным числом, имеющемся в вариационном ряду, и не всегда совпадают со средней [5].
Вариационный ряд – упорядоченное распределение единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчёт числа единиц с тем или иным значением признака. [2]
Модой (Мо) называется чаще всего встречающийся вариант [5].
В дискретном вариационном ряду мода – это варианта с наибольшей частотой. [5]
Медианой (Ме), или серединным вариантом, в статистике называют значение варьирующего признака, который находится в середине ряда значений, расположенных в порядке возрастания или убывания. [5]
Номер медианы вычисляется по формуле:
. (1.3)
Если ряд данных содержит резкие отклонения от среднего значения, то Ме более надёжный показатель, чем среднее значение.
1.2.3 Квартили
Квартиль – значение признака, которое делит совокупность на четыре равные части. Обозначается Q.
Q1 – 25% совокупности, Q2 = Ме – 50% совокупности, Q3 – 75% совокупности.
Первый квартиль имеет номер:
, (1.4)
что означает ¼ часть совокупности или 25%.
Третий квартиль имеет номер:
, (1.5)
что означает 3/4 части совокупности или 75%.
1.2.4 Кумулятивное распределение
Кумулятивное распределение строится по ряду накопленных частот. График такого распределения называется кумулята. Если не накапливать, а убавлять частоты, то график называют огива.
Таблица 1
Значения признака |
x1 |
x2 |
x3 |
… |
xn |
Частота |
f1 |
f2 |
f3 |
… |
fn |
Данные для кумуляты |
f1 |
f1 + f2 |
f1 + f2 + f3 |
… |
|
Данные для огивы |
… |
fn |
1.3 Группировка данных
1.3.1 Понятие группировки данных
Группировка – это разделение статистической совокупности на группы по одному или нескольким признакам.
Можно выделить качественно однородные группы. Например, разделить учеников школы на лиц М и Ж пола. Такая группировка называется типологической. Полученные группы исследуются по отдельности и сравниваются – как между собой, так и с общими показателями. Часто проводится структурная группировка – это разделение качественно однородной совокупности по какому-либо вариационному признаку [1]. Например, среди М или Ж выполняется группировка по возрасту или росту.
Часто трудно выбрать какой-то один признак для основания группировки или же требуется сгруппировать данные по многим признакам. Для этих целей применяются многомерные группировки данных, например, на основе многомерной средней и кластерного анализа [2]. Эти методы стали широко использоваться благодаря применению ЭВМ.
1.3.2 Одномерная группировка
Группировку удобно выполнять по вариационному ряду единиц совокупности по возрастающим значениям признака. В начале ряда – наименьшее значение признака , в конце ряда – наибольшее , а количество интервалов задаётся . Тогда длина интервала для группировки вычисляется как:
. (1.6)
1.3.3 Многомерная группировка данных
Цель многомерной группировки – классификация данных на основе множества признаков.
Многомерной средней называется средняя величина нескольких признаков для одной единицы совокупности.
В связи с тем, что значения признаков выражены в разных единицах измерения, то многомерная средняя безразмерная величина и определяется по относительным величинам признаков:
. (1.7)
В таблице 2 приведён пример вычисления относительных значений признаков:
Таблица 2
Значения признака |
x1 |
x2 |
x3 |
… |
xn |
Относительное значение признака |
… |
Если количество признаков , то для каждого элемента совокупности от 1 до вычисляется снова среднее значение:
. (1.8)
В таблице 3 приведён пример вычисления многомерных средних в случае двух значений признаков.
Таблица 3
Значения признака 1 |
x11 |
x21 |
x31 |
… |
xn1 |
Относительное значение признака 1 |
… |
||||
Значения признака 2 |
x12 |
x22 |
x32 |
… |
xn2 |
Относительное значение признака 2 |
… |
||||
Многомерное среднее для =2 |
… |
||||
Далее вычисляется длина интервала для группировки данных по методу многомерной средней:
(1.9)
и выполняется группировка и обоснование, в чем состоят качественные различия между группами.
ГЛАВА 2 Практические результаты исследования
2.1 Cтатистические данные
Статистические данные для анализа представим в виде математической модели, описанной в п.1.1.2. На рисунке 1.1 Приложения 1 приведён фрагмент базы данных модельного агентства, представленной в таблице Excel.
2.2 Разработка и реализация алгоритма анализа анкетных данных
2.2.1 Выбор показателей для анализа.
Для анализа выделим наиболее значимые
количественные показатели моделей:
возраст,
рост,
гонорар за 1 час,
количество показов;
качественные показатели моделей:
пол,
цвет глаз,
цвет волос.
2.2.2 Алгоритм анализа количественных данных.
1) Оценка средних значений
Средние значения будем вычислять по формуле (1.2) взвешенной средней арифметической. Пример вычисления приведён в Приложении 2 для показателя «возраст». Проведённые расчёты были проверены также с помощью встроенной функции Excel СРЗНАЧ(число1; число2; …). Результаты совпали. В таблице 4 приведены значения средних величин, округлённые до целых.
2) Оценка структурных средних
Мода определяется, как наиболее часто встречающееся значение признака. Частота была вычислена ранее при определении среднего значения, поэтому моду определить не составит труда. Пример вычисления моды приведён в Приложении 3 для показателя «возраст». Приведённые расчёты были проверены также с помощью встроенной функции Excel МОДА.ОДН(число1:число100).
Однако, в ходе выполнения проекта выяснилось, что мод может быть больше, чем одна. Так произошло с критерием «количество показов». Вычислить все моды удалось, но возник вопрос, как их отобразить друг за другом для дальнейшего анализа. Для этого в Excel есть функция =МОДА.НСК(число 1:число100) [6]. МОДА.НСК может возвращать как одну, так и несколько мод. Для записи в качестве формулы массива необходимо использовать сочетание клавиш Ctrl+Shift+Enter. Необходимо выделить сразу несколько ячеек таблицы, чтобы хватило на все моды. Если ячеек оказалось больше, чем необходимо, то будет выведена ошибка #Н/Д. Результат вычисления мод для параметра «количество показов» приведен на рисунке 1.
Рисунок 1 – Пример применения функции МОДА.НСК(число 1:число100) для анализа параметра «количество показов»
Результаты подсчёта мод вручную и с помощью встроенных функций совпали. В таблице 4 приведены значения мод.
Медиана находится в середине ряда значений. Для её вычисления получим ряд накопленных частот (см. таблицу 1, данные для кумуляты). Значений всего 100, поэтому Ме будет соответствовать накопленной частоте 50. Пример вычисления приведён в Приложении 3 для показателя «возраст». Проведённые расчёты были проверены также с помощью встроенной функции Excel МЕДИАНА(число 1:число 100). Наш расчёт показал значение 29 лет, что соответствует номеру 49 по накопленной частоте, следовательно, Ме – это следующее значение, т.е. 30 лет. Результаты расчёта вручную и с помощью встроенных функций совпали. В таблице 4 приведены значения медиан.
3) Оценка квартилей
Квартили оценивались также, как медиана. Значений всего 100, поэтому Q1и Q3будут соответствовать накопленным частотам 25 и 75. Пример вычисления приведён в Приложении 4 для показателя «возраст». Проведённые расчёты были проверены также с помощью встроенной функции Excel. КВАРТИЛЬ.ИСКЛ(число 1:число 100). Наши расчёты показали значения: для Q1 21 год, что соответствует номеру 24 по накопленной частоте, следовательно, Q1 – это следующее значение, т.е. 22 года; для Q3 36 лет, что соответствует номеру 73 по накопленной частоте, следовательно, Q3 – это следующее значение, т.е. 37 лет. Результаты расчёта вручную и с помощью встроенных функций совпали. В таблице 4 приведены значения квартилей.
Таблица 4
Название признака |
Возраст, лет |
Рост, см |
Гонорар за 1 час, руб. |
Количество показов, шт. |
Диапазон изменения |
от 16 до 43 |
от 150 до 180 |
от 500 до 4900 |
от 5 до 70 |
Среднее значение |
30 |
167 |
1294 |
22 |
Мода(ы) Мо |
16 |
176 |
500 |
13; 16; 17; 23 |
1-ый квартиль Q1 |
22 |
160 |
600 |
13 |
Медиана Ме |
30 |
168 |
800 |
18 |
3-ий квартиль Q3 |
36 |
176 |
1700 |
25 |
2.2.3 Построение кумулятивного распределения
По ряду накопленных или убывающих частот построены кумулята и огива для всех количественных показателей. В Приложении 4 приведены графики и отмечены статистические показатели: медиана и квартили, приведённые в таблице 4. Пересечение кумуляты и огивы примерно совпадает с медианой Ме.
2.2.4 Алгоритм анализа качественных данных.
Для качественных показателей выли определены наиболее часто встречающиеся значения, т.е. моды. Пример вычисления приведён в Приложении 5 для показателя «цвет глаз». В таблице 5 приведены значения мод для всех количественных показателей, а также частоты (количество моделей с данным показателем).
Таблица 5
Название признака |
Цвет глаз |
Цвет волос |
Пол |
Мода Мо |
Серый |
Шатен(ка) |
Мужской |
Кол-во моделей |
28 |
26 |
55 |
При определении моды также были вычислены количества моделей для каждого из значений признаков. Результаты приведены в таблице 6.
Таблица 6
Название признака |
Значение признака |
Кол-во моделей |
Цвет глаз |
Карие Голубые Зелёные Серые |
22 25 25 28 |
Цвет волос |
Блондин(ка) Шатен(ка) Брюнет(ка) Русый(-ая) Рыжий(-ая) |
18 26 22 17 17 |
Пол |
Мужской Женский |
55 45 |
2.2.5 Многомерная группировка данных.
С целью разделения всех моделей на группы с близкими значениями характеристик внутри одной группы была применена многомерная группировка данных на основе многомерной средней (см. п. 1.3.3).
Для группировки выбраны количественные признаки: 1) возраст, 2) рост, 3) гонорар за 1 час, 4) количество показов. Средние значения по каждому из перечисленных показателей приведены в таблице 4.
По формуле (1.7) вычисляются относительные величины признаков 1) – 4). На рисунке 6.1 Приложения 6 приведён фрагмент формы Excel, где в столбцах 1 – 4 показаны вычисления, а в столбце «многомерная средняя» приведён результат вычисления по формуле (1.8).
Далее группировка выполнена на 5 и 10 групп.
Длина интервала для группировки вычислена по формуле (1.9):
–для пяти интервалов,
– для десяти интервалов.
Последовательно прибавляя длину интервала к концу предыдущего интервала получим границы групп данных. На рисунке 6.2 Приложения 6 приведены границы для 5-ти и 10-интервалов, в соответствии с которыми была выполнена группировка данных.
Рассмотрим одну из получившихся групп. Например, группа №8 при разбиении на 10 групп. Номера моделей и их признаки, которые попали в группу №8 приведены в таблице №7. Для анализа их значений в таблице также приведены среднее значение признака и медиана.
Таблица №7
№ модели в базе |
Группировочные признаки |
|||
Возраст, лет |
Рост, см |
Гонорар за 1 час, руб. |
Количество показов, шт. |
|
32 |
16 |
171 |
4900 |
21 |
3 |
35 |
180 |
1200 |
70 |
45 |
28 |
160 |
4000 |
34 |
73 |
42 |
167 |
2500 |
48 |
93 |
36 |
169 |
3000 |
45 |
Среднее значение признака |
30 |
167 |
1294 |
22 |
Медиана (50%) |
30 |
168 |
800 |
18 |
По данным таблицы 7 можно сделать выводы, что среди 5-ми моделей в группе:
- больше половины (3 модели из 5-ти) имеют возраст больше среднего и медианного значений;
- больше половины (4 модели из 5-ти) имеют гост выше среднего и 3 модели больше медианного значений;
- больше половины (4 модели из 5-ти) имеют гонорар выше среднего и все модели с гонораром больше медианного значений;
- больше половины (4 модели из 5-ти) имеют количество показов выше среднего и все модели с количеством показов больше медианного значений.
Вывод: многомерная группировка выполнена верно, в группе находятся модели со схожими значениями признаков.
2.3 Разработка форм статистической отчётности
Результаты исследования, полученные в ходе выполнения настоящего проекта, являются результатом статистического анализа данных кадрового агентства и могут быть обобщены и систематизированы для удобства руководства агентства.
Были разработаны четыре формы отчётности.
Форма 1 (основная). Содержит общие сведения о моделях агентства: средние значения, моды, медианы и квартили.
Форма 2 (дополнительная). Содержит результат группировки моделей на 5 групп.
Форма 3 (дополнительная). Содержит результат группировки моделей на 10 групп.
Форма 4 (дополнительная). Содержит количественные данные (частоты) по каждому из значений признаков, характеризующих моделей.
Все формы заполняются автоматически через ссылки на ячейки таблицы Excel.
Примеры форм в Excel приведены в Приложении 7. Все формы заполняются автоматически.
Примеры форм при выводе на печать приведены в Приложении 8.
Заключение
При выполнении проекта я познакомилась с методами статистического анализа данных на основе средних величин. Задачи анализа больших объёмов данных, содержащихся в базах кадровых агентств возникают постоянно и требуют решения. Я изучила данную задачу на примере анализа данных модельного агентства.
С помощью взвешенного среднего, а также структурных средних (моды и медианы) и квартилей распределения удобно выполнять статистический анализ данных по количественным признакам. Качественные признаки получилось проанализировать только с помощью моды и частот. Для выполнения группировки данных по нескольким количественным признакам я изучила и применила метод многомерной группировки на основе многомерной средней. Все алгоритмы расчёта были реализованы с помощью офисного приложения Excel. Были разработаны алгоритмы расчёта, результаты работы которых подтверждены применением встроенных функций.
С помощью алгоритма в Excel удалось решить задачу статистического анализа данных, а также подтвердить гипотезу моего исследования: если учесть одновременно несколько признаков данных, то можно разделить их на группы с близкими значениями признаков, например, с помощью метода многомерной группировки.
Задачи проекта выполнены, цель исследования достигнута.
При работе над проектом мною получены новые знания по математике и информатике, а также практические навыки программирования в Excel.
Продуктом проекта является файл Excel с формами для решения задачи статистического анализа с автоматическим формированием отчётности. Алгоритмы, которые запрограммированы в нём, можно адаптировать под любое количество данных и их характеристик в базе. В будущем я планирую усовершенствовать алгоритм и решить задачу статистического анализа с автоматическими формами отчётности для реальной организации, может даже модельного агентства.
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ
1 Группировка данных. Виды группировок. Перегруппировка. [Электронный ресурс] – Режим доступа: http://mathprofi.ru/gruppirovka_dannyh.html
2 Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник/Под ред. И.И. Елисеевой. – 4-е изд., перераб. и доп. – М.: Финансы и статистика, 2003. – 480 с.: ил.
3 Кадровое агентство. [Электронный ресурс] – Режим доступа: https://ru.wikipedia.org/wiki/Кадровое агентство
4 Лутовинина М. С. Многокритериальный выбор претендента на должность. Ассамблея студентов и школьников «Молодёжь – будущее атомной промышленности России». Сборник тезисов XVI всероссийской научно-практической конференции. 17 – 18 декабря 2022 г. – Снежинск: СФТИ НИЯУ МИФИ, 2022. С. 67 – 68.
5 Сергеева И. И., Чекулина Т. А., Тимофеева С.А. Статистика. Учебник. – М,: ИД «ФОРУМ»: ИНФРА-М. 2006.- 272с. – (Профессиональное образование).
6 Функция МОДА ее модификации МОДА.НСК и МОДА.ОДН в Excel. [Электронный ресурс] – Режим доступа: https://exceltable.com/funkcii-excel/primery-funkcii-moda
7 Что такое модельное агентство, и как оно устроено? [Электронный ресурс] – Режим доступа: https://joli-models.com.ua/blog/16-chto-takoe-modelnoe-agentstvo-i-kak-ono-ustroeno
Приложение 1
Статистические данные
Рисунок 1.1 – Пример таблицы Excel с данными модельного агентства
Приложение 2
Оценка среднего взвешенного значения
…
…
Рисунок 2.1 – Пример формы Excel для вычисления среднего взвешенного значения показателя «возраст»
Приложение 3
Оценка структурных средних
Вариационный ряд данных
=ЕСЛИ($B14=E$1; 1; 0)
…
=ЕСЛИ(C102=$AE$102;C1;0)
=МОДА.ОДН(B2:B101)
…
=МЕДИАНА(B1:B100)
=ЕСЛИ(P107=$AE$108;ЕСЛИ(P106<50;P1+1;P1);0)
Рисунок 3.1 – Пример формы Excel для вычисления моды и медианы показателя «возраст»
Оценка квартилей
Вариационный ряд данных
…
=КВАРТИЛЬ.ИСКЛ(B2:B101; 1)
=ЕСЛИ(H109=$AE$108;ЕСЛИ(H106<25;H1+1;H1);0)
=ЕСЛИ(W111=$AE$112;ЕСЛИ(W106<75;W1+1;W1);0)
=КВАРТИЛЬ.ИСКЛ(B2:B101; 3)
Рисунок 3.2 – Пример формы Excel для вычисления 1-го и 3-го квартилей показателя «возраст»
Приложение 4
Кумулятивные распредления
Ме = 168
50%
75%
25%
Q3 = 176
Q1 = 160
Рисунок 4.1 – Параметр «рост», см
50%
75%
25%
Ме = 30
Q3 = 36
Q1 =22
Рисунок 4.2 – Параметр «возраст», лет
50%
75%
25%
Ме = 800
Q3 = 1700
Q1 = 600
Рисунок 4.3 – Параметр «гонорар за 1 час», руб.
50%
75%
25%
Ме = 18
Q3 = 25
Q1 =13
Рисунок 4.4 – Параметр «количество показов», шт.
Приложение 5
Оценка моды качественного показателя
=ЕСЛИ($B134=C$122; 1; 0)
…
=ЕСЛИ(C223=G222;C122;ЕСЛИ(D223=G222;D122; ЕСЛИ(E223=G222;E122;ЕСЛИ(F223=G222;F122;0))))
=МАКС(C223:F223)
Рисунок 5.1 – Пример формы Excel для определения моды качественного показателя «цвет глаз»
Приложение 6
Оценка многомерной средней
Рисунок 6.1 – Пример формы Excel для вычисления многомерной средней
Рисунок 6.2 – Пример формы Excel для определения групп по многомерной средней
Приложение 7
Примеры форм отчётности в Excel
Рисунок 7.1 – Пример формы 1 в Excel.
Рисунок 7.2 – Пример формы 2 в Excel.
Рисунок 7.3 – Пример формы 3 в Excel.
Рисунок 7.4 – Пример формы 4 в Excel.
Приложение 8
Примеры форм отчётности при выводе на печать
Рисунок 8.1 – Пример формы 1 при выводе на печать.
Рисунок 8.2 – Пример формы 2 при выводе на печать.
Рисунок 8.3 – Пример формы 3 при выводе на печать.
Рисунок 8.4 – Пример формы 4 при выводе на печать.