Разработка и обучение свёрточной нейронной сети для классификации изображений людей и материальных объектов

XXVIII Международный конкурс научно-исследовательских и творческих работ учащихся
Старт в науке

Разработка и обучение свёрточной нейронной сети для классификации изображений людей и материальных объектов

Масляев Д.Е. 1
1МБОУДО ЦРТДиЮ "Созвездие" г.Калуги
Балина И.В. 1
1МБОУДО ЦРТДиЮ "Созвездие" г.Калуги
Автор работы награжден дипломом победителя III степени
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

ВВЕДЕНИЕ

Актуальность темы заключается в том, что в последние годы искусственный интеллект прочно вошёл в повседневную жизнь человека. Технологии распознавания лиц разблокируют смартфоны, «умные» камеры наблюдения следят за порядком в городах, системы автоматического распознавания помогают врачам анализировать медицинские снимки, а беспилотные автомобили ориентируются в пространстве благодаря компьютерному зрению [5]. Ежедневно миллионы людей пользуются этими разработками, часто даже не задумываясь, как именно компьютер «видит» и понимает окружающий мир. Эта ситуация порождает либо мистификацию искусственного интеллекта, либо недоверие к нему, тогда как на самом деле за распознаванием образов стоят стройные математические алгоритмы, доступные для изучения и понимания. Технологии искусственного интеллекта развиваются взрывными темпами, и спрос на специалистов в этой области огромен, однако большинство школьников не знакомы даже с основами машинного обучения. Как показывают исследования, знакомство с принципами работы нейросетей даже на простых примерах развивает алгоритмическое мышление, учит структурировать данные, искать закономерности и критически оценивать результаты работы программ [2]. Более того, сегодня существуют доступные и бесплатные инструменты, такие как Teachable Machine, которые позволяют школьникам не просто изучать теорию, а создавать собственные рабочие модели искусственного интеллекта. Данная работа представляет собой попытку перейти от роли пассивного пользователя технологий распознавания к роли их создателя.

Проблема заключается в противоречии между широкой распространённостью технологий распознавания объектов и людей (Face ID, умные камеры, системы видеонаблюдения) и отсутствием у большинства школьников понимания принципов работы этих технологий, а также практических навыков создания простейших нейросетей. Существующие школьные учебники по информатике практически не затрагивают тему искусственного интеллекта и машинного обучения.

Объект исследования: процесс распознавания изображений с помощью искусственных нейронных сетей.

Предмет исследования: выступают методы создания датасета, обучения и тестирования свёрточной нейронной сети для классификации изображений на примере распознавания людей и материального объекта (гитары).

Гипотеза: даже простую нейронную сеть, обученную на относительно небольшом датасете (несколько сотен изображений), можно успешно использовать для точного распознавания людей и предметов в реальном времени при условии тщательной подготовки и разнообразия обучающих примеров. Также предполагается, что современные бесплатные веб-инструменты (Teachable Machine) предоставляют достаточные возможности для создания работающих моделей машинного обучения пользователями без специальной математической подготовки.

Цель: проведение практического исследования и обучение нейронной сети, способной эффективно и с высокой точностью определять людей и различные материальные объекты в поле зрения камеры.

Задачи: 

  1. Изучить принципы работы нейронных сетей, специализирующихся на распознавании изображений.

  2. Собрать и подготовить фотоматериалы для обучения модели (датасет).

  3. С помощью доступного инструментария обучить нейросеть различать человека и гитару.

  4. Обучить нейросеть распознаванию двух разных людей (автора работы и его сестры).

  5. Провести тестирование готовой модели на реальных примерах и оценить точность её работы.

Методы исследования. В ходе выполнения работы использовались следующие методы: эксперимент (непосредственное обучение нейросети); наблюдение за результатами работы нейросети в реальном времени; обучение по примеру (машинное обучение с учителем), сравнение результатов распознавания для разных классов объектов; фотофиксация (сбор изображений с помощью веб-камеры); количественный анализ (оценка процента уверенности модели).

Личный вклад автора в решение проблемы. Автором самостоятельно была проведена фотосессия для объекта исследования. Для того чтобы нейросеть «выучила», как выглядит гитара, было сделано 421 изображение этого инструмента с разных сторон и под разными углами. Автор контролировал процесс обучения, наблюдая за тем, как программа анализирует фотографии и находит общие признаки, отличающие гитару от любого другого предмета, а также признаки, позволяющие различать двух разных людей. Готовая модель была проверена в действии. В камеру поочерёдно демонстрировались гитара, автор работы и его сестра. На основе проведённых тестов был сделан вывод, что созданная модель работает быстро и точно в режиме реального времени.

ОСНОВНАЯ ЧАСТЬ

1. Что такое нейронные сети и как они распознают изображения

Искусственные нейронные сети представляют собой компьютерные модели, которые обучаются распознавать образы по принципу, напоминающему работу человеческого мозга. В отличие от традиционных программ, где все правила жёстко прописаны программистом, нейросеть самостоятельно выявляет закономерности, анализируя большое количество примеров [2, с. 12].

Для распознавания изображений чаще всего используются свёрточные нейронные сети (Convolutional Neural Networks, CNN). Их ключевая особенность – способность выделять важные детали на разных уровнях обобщения: сначала простые (края, пятна, перепады яркости), а затем более сложные (геометрические формы, текстуры, части объектов) [7]. Свёрточная сеть состоит из нескольких слоёв. Первые слои обрабатывают маленькие фрагменты изображения и находят линии, дуги или изменения цвета. Следующие слои объединяют эти простые признаки в более сложные – например, распознают глаза, уши, колёса или гриф музыкального инструмента. Выходные слои принимают окончательное решение: какому классу принадлежит объект на изображении [3]. Именно благодаря такой многоуровневой архитектуре современные модели могут с высокой точностью отличать кошку от собаки, а гитару от человека.

Среди известных архитектур свёрточных сетей особого внимания заслуживает ResNet (Residual Network), которая решила проблему «затухания градиента» ситуации, когда сеть переставала обучаться при увеличении количества слоёв. Решение было найдено за счёт введения особых связей – «обходных путей» (skip connections) [4]. Архитектуры семейства ResNet и их модификации до сих пор служат основой для многих систем компьютерного зрения, включая образовательные платформы, аналогичные использованной в данном проекте Teachable Machine. Теоретической базой для практической части проекта стало понимание того, что нейросеть не запоминает фотографии «как есть», а выделяет из них устойчивые признаки и комбинирует их для принятия решения.

2. Создание датасета и аугментация данных

Для того чтобы нейросеть научилась уверенно распознавать предметы и людей, ей необходим датасет – набор размеченных примеров, в котором каждому изображению соответствует правильная метка (класс). Качество датасета напрямую определяет точность будущей модели. Чем разнообразнее фотографии, тем легче сети выделить устойчивые признаки объекта, не зависящие от случайных факторов, таких как: освещение, ракурс, фон [5].

В рамках проекта были подготовлены три класса изображений: гитара (421 фотография инструмента, сделанная с разных сторон и под разными углами), автор работы (Даниил) и сестра автора (портретные снимки в разном освещении и с разной мимикой). Особое внимание было уделено съёмке гитары. Если показать нейросети только один ракурс, она может не узнать предмет при малейшем повороте. Благодаря большому количеству снимков нейросеть смогла проанализировать изображения и найти общие признаки, характерные именно для гитары: изгиб корпуса, длинный гриф, расположение струн и колков.

В профессиональном машинном обучении для увеличения разнообразия данных часто используют приёмы аугментации: искусственное изменение изображений (повороты, масштабирование, сдвиги, изменение яркости и контраста, добавление шума) [1, с. 22]. В данном проекте аугментация была реализована «вручную» за счёт реального изменения угла съёмки, расстояния до объекта и условий освещения. Такой подход позволил модели лучше обобщать полученные знания и не акцентироваться на случайных деталях.

3. Процесс обучения нейросети

Для обучения нейросети была использована платформа Teachable Machine от компании Google – специальный веб-инструмент, который позволяет тренировать модели компьютерного зрения непосредственно в браузере без написания сложного программного кода [6]. Процесс обучения включал следующие этапы.

Загрузка и распределение по классам. В интерфейсе Teachable Machine были созданы три класса: «Гитара», «Даниил», «Сестра». В каждый класс были загружены соответствующие изображения из подготовленного датасета (421 фото гитары, по несколько десятков фото каждого человека).

Запуск процесса тренировки. После нажатия кнопки «Train» платформа запустила алгоритм оптимизации. Нейросеть, построенная на архитектуре, близкой к свёрточным сетям, начала подстраивать свои внутренние параметры (веса связей между искусственными нейронами) таким образом, чтобы минимизировать ошибку на обучающих примерах. Другими словами, система училась правильно сопоставлять пиксельный рисунок изображения с нужной меткой класса. С математической точки зрения обучение нейросети представляет собой поиск такой комбинации весов, при котором функция ошибки (расхождение между ответом сети и правильным ответом из датасета) достигает минимума. Этот поиск выполняется с помощью метода градиентного спуска. Сеть постепенно двигается в направлении, где ошибка уменьшается, пока не находит наилучшее решение [7].

Получение готовой модели. Через несколько секунд после начала обучения, благодаря оптимизированным алгоритмам и подготовленным базовым моделям, процесс был завершён. Готовая модель стала доступна для тестирования, можно было включить веб-камеру и в реальном времени показывать ей новые объекты, не участвовавшие в обучении. Teachable Machine автоматически реализует алгоритм градиентного спуска, скрывая сложные математические вычисления от пользователя, что делает платформу идеальным инструментом для учебных проектов и быстрого прототипирования.

4. Тестирование модели

Этап тестирования стал ключевым для оценки качества работы созданной нейросети. Модель проверялась на разных объектах и людях в различных условиях, таких как: смена ракурса, освещения, расстояния до камеры.

Система работала с высокой точностью. Когда в кадре появлялся автор работы или его сестра, нейросеть не просто писала «человек», а корректно определяла, кто именно находится перед камерой, не путая двух разных людей между собой. Процент уверенности в большинстве случаев составлял более 85-95%.

При демонстрации гитары результат также был стабильно высоким. Модель уверенно определяла инструмент даже при изменении ракурса. Например, когда гитара была повёрнута боком или слегка закрыта руками. Процент уверенности достигал 90-100%.

Важнейшим результатом стало то, что модель ни разу не перепутала человека с гитарой. Даже если в кадре были одновременно и человек, и инструмент, сеть делала предсказание в пользу того объекта, который занимал большую часть изображения или был ближе к центру кадра.

Таким образом, созданная модель доказала свою способность легко отличать людей от вещей и, что самое важное, узнавать конкретных людей с индивидуальными чертами лица. Распознавание происходило в реальном времени (задержка составляла доли секунды), а процент уверенности системы оставался очень высоким даже при изменении внешних условий.

ЗАКЛЮЧЕНИЕ

В ходе выполнения работы основная цель проекта (обучение нейронной сети, способной определять людей и предметы), была полностью достигнута. Результаты проведённого эксперимента позволяют сделать следующие выводы в соответствии с поставленными задачами.

В процессе исследования было изучено, как искусственный интеллект воспринимает визуальную информацию. Установлено, что система работает по чёткому алгоритму: захватывает изображение через камеру, выделяет и анализирует форму и детали объекта, а затем сравнивает их с ранее изученными примерами. Нейросети обучаются на основе фотографий и используют математические закономерности (свёртка, градиентный спуск) для распознавания образов.

Был успешно создан качественный датасет. Автором было подготовлено 421 изображение гитары, снятое под разными углами для лучшего запоминания формы инструмента. Также в базу данных были добавлены фотографии автора и его сестры, что позволило сделать модель персонализированной и способной различать двух разных людей.

С помощью платформы Teachable Machine нейросеть была успешно обучена находить общие признаки предметов и людей. Модель научилась не просто видеть «объект» как нечто целое, а чётко разделять категории: она выделила уникальные черты гитары и научилась отличать одного человека от другого по чертам лица.

Финальное тестирование подтвердило эффективность созданной системы. При демонстрации объектов перед камерой нейросеть в реальном времени выдавала результат с уверенностью более 80%. Проверка показала, что люди и предметы не путаются между собой, а процент совпадения остаётся очень высоким даже при смене ракурса или освещения.

Выдвинутая во введении гипотеза полностью подтвердилась. Действительно, даже простая нейронная сеть, обученная на относительно небольшом датасете (несколько сотен изображений), может быть успешно использована для точного распознавания людей и предметов в реальном времени при условии тщательной подготовки и разнообразия обучающих примеров. Также подтвердилось предположение о том, что современные бесплатные веб-инструменты (Teachable Machine) предоставляют достаточные возможности для создания работающих моделей машинного обучения пользователями без специальной математической подготовки.

Все задачи, поставленные в начале работы, выполнены в полном объёме. Проект демонстрирует, что даже ученик 5 класса может, изучив базовые принципы работы искусственного интеллекта и воспользовавшись современными бесплатными инструментами, создать работающую модель машинного обучения. В дальнейшем планируется добавить другие музыкальные инструменты и больше людей, попробовать обучить нейросеть распознаванию эмоций по лицу.

СПИСОК ЛИТЕРАТУРЫ И ИСТОЧНИКОВ

  1. Зиядинов В.В., Терешонок М.В. Анализ методов аугментации обучающих данных для распознавания изображений: учебное пособие. — М.: Книга-Мемуар, 2025. — 43 с. [1]

  2. Кузьмин А.К., Бровко А.В., Ермаков А.В. Распознавание образов с использованием искусственных нейронных сетей: учебное пособие. — Саратов: СГТУ им. Гагарина Ю.А., 2024. — 146 с. [2]

  3. Goodfellow I., Bengio Y., Courville A. Deep Learning. — Cambridge: MIT Press, 2016. — 800 p. [3]

  4. He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2016. — P. 770–778. [4]

  5. Hassan O.M., Gouda A.A., Abdel Razek M. Image Recognition Using Deep Learning: A Review // Indonesian Journal of Electrical Engineering and Computer Science. — 2025. — Vol. 41. — P. 12–25. [5]

  6. Google. Teachable Machine: Train a computer to recognize your own images, sounds, & poses. — URL: https://teachablemachine.withgoogle.com/ (датаобращения: 15.02.2026). [6]

  7. Chollet F. Deep Learning with Python. — 2nd ed. — NY: Manning Publications, 2021. — 504 p. [7]

ПРИЛОЖЕНИЯ

Приложение 1.Изображения гитары

Просмотров работы: 0