Оценка надёжности ответов ИИ-чатботов в образовательных задачах

Цитеркоп Д.А. 1

1МБОУ-лицей г. Татарск

Семенова Н.Н. 1

1МБОУ-лицей г. Татарск

Работа в формате PDF

272.4 KB

Автор работы награжден дипломом победителя I степени

Диплом школьника Свидетельство руководителя

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

ВВЕДЕНИЕ

ИИ-чатботы стали привычным инструментом для подготовки к урокам: они объясняют темы, помогают составлять конспекты, предлагают примеры решений и даже генерируют задания.

При этом такие системы могут выдавать ответы с ошибками: путать условия задачи, делать неверные вычисления, подменять термины или «уверенно» объяснять неверное решение. В учебной деятельности это особенно рискованно: ошибочный ответ может закрепить неправильное понимание темы.

Поэтому важно проверить надёжность ответов ИИ именно на задачах по информатике и разработать простые правила, которые помогут безопасно использовать чатботы как помощника, а не как «источник истины».

Актуальность: широкое использование чатботов школьниками требует понимания, в каких темах по информатике им можно доверять, а где обязательна проверка по учебнику и учителю.

Проблема: ответ ИИ часто выглядит убедительно, но не всегда является правильным и проверяемым.

Цель проекта: оценить надёжность ответов ИИ-чатботов при решении образовательных задач по информатике и подготовить рекомендации по их безопасному применению.

Задачи проекта:

разработать критерии оценки надёжности ответа (шкалу баллов и типологию ошибок);
подготовить набор заданий по информатике разных типов и уровней сложности;
провести эксперимент: получить ответы чатботов при разных формулировках запросов (промптах);
сравнить ответы с эталоном (учебник/решение учителя) и оценить результаты;
сделать выводы о наиболее «рисковых» темах и ошибках;
создать продукт проекта: чек-лист и памятку для учащихся.

Объект исследования: ответы ИИ-чатботов при решении учебных задач.

Предмет исследования: точность, полнота, логичность и проверяемость ответов чатботов по заданиям школьного курса информатики.

Гипотеза: если оценивать ответы ИИ по единым критериям (точность, соответствие условию, обоснование, проверяемость), то можно выявить темы с повышенным риском ошибок и сформулировать правила, повышающие качество результата.

Методы: анализ источников, эксперимент, сравнительный анализ, экспертная оценка, статистическая обработка результатов, классификация ошибок.

Ожидаемый продукт: таблица результатов, диаграммы, анкета, карточки заданий и чек-лист «Проверяй ответ ИИ за 2 минуты».

1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ И ОПИСАНИЕ ПРОБЛЕМЫ

1.1. Что такое ИИ-чатбот и как он отвечает

ИИ-чатбот — это программа, которая общается с пользователем на естественном языке. Современные чатботы на основе больших языковых моделей (LLM) учатя на больших массивах текстов и генерируют ответ, подбирая наиболее вероятное продолжение фразы в заданном контексте.

Поэтому чатбот может давать полезные объяснения и примеры, но не «понимает» задачу так, как человек: он не всегда проверяет факты и вычисления, может ошибаться в формулировках и выдавать правдоподобные, но неверные ответы.

1.2. Типичные ошибки чатботов в учебных задачах

Вычислительная ошибка (неверный подсчёт, ошибка в преобразовании).
Подмена условия (чатбот решает «похожую» задачу, но с другими данными).
Неверное объяснение (логический разрыв, неправильный шаг).
Терминологическая ошибка (путает определения: алгоритм/программа, файл/папка, IP/DNS и т.д.).
Пропуск важного шага (например, не обосновывает переход, не проверяет ответ).
«Галлюцинации» источников: придуманные названия стандартов, «ссылки», несуществующие правила.

1.3. Понятие надёжности ответа и критерии оценки

В проекте под надёжностью ответа понимается совокупность характеристик, важных для учебной задачи: насколько ответ правильный, соответствует ли условию, содержит ли понятное обоснование и может ли быть проверен.

Для измерения надёжности используется шкала 0–8 баллов по четырём критериям (каждый — 0–2 балла):

К1. Точность: ответ верный; 1 балл — частично верный; 0 — неверный.

К2. Соответствие условию: данные не подменены, задача решена именно та, что задана.

К3. Обоснование/логика: есть шаги решения, формулы/правила, объяснение терминов.

К4. Проверяемость: есть проверка результата/самоконтроль; нет придуманных источников; при неопределённости — честное указание «не уверен».

Интерпретация суммы баллов:

7–8 — надёжный ответ (можно использовать, но всё равно полезно сверить).

5–6 — условно надёжный (нужна проверка по учебнику/учителю).

0–4 — ненадёжный (высокий риск ошибок).

2. ОРГАНИЗАЦИЯ И ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТА

В ходе исследования я решила ответить на вопрос: нужен ли ИИ, и что ждёт нас в будущем. С этой целью я решила провести социологический опрос на тему "Искусственный интеллект" среди своих людей разных возрастных категорий.

Можно пройти по данной ссылке и посмотреть мой опрос «Искусственный Интеллект», который был опубликован в сети Интернета:

https://onlinetestpad.com/jr2skdqs7vt4u.

В опросе приняло участие 60 человек.

Респондентам были предложены следующие вопросы:

Какие устройства с ИИ вы используете? (смартфон 53 человека-58,23%, умная колонка 11 человек-12,09 %, робот-пылесос 4 человека- 4,4%, умные смарт-часы 12человек-13,19 %, другое 11 человек- 12,09%)

Сможет ли ИИ превзойти человека во всём?(«Да» 5 человек –8,33 %,«Сомневаюсь» 22 человека-36,67%, «Нет» 20 человек – 33,33%, «Скорее всего»13 человек –21,67%)

Какие предметы помогают в создании ИИ? ( информатика- 50 человек –42,73%,робототехника- 46 человек -39,32 %, биология- 8 человек –6,84%, русский язык- 13 человек -11,11%)

Сможем ли мы привить ИИ нравственные чувства? («Да» 4 человек– 6,66%,«Сомневаюсь» 22 человека –36,67 %, «нет»28 человек-46,67 %, «скорее всего» 6 человек-10 %)

Как вы считаете ,может ли ИИ представлять опасность для человека? ( «Да» 24 человека-40%,«Сомневаюсь»11 человек-18,33%, «нет» 15человек-25 %, «скорее всего»10человек –16,67 %)

С может ли ИИ заменить труд человека? ( «Да» 13 человек-21,67 %,«Сомневаюсь»13 человек –21,67 %, «нет»20 человек- 33,33 %, «скорее всего» 14 человек –23,33 %)

Возможно ли создание сверх интеллекта? ( Да 19 человек–31,67%, Сомневаюсь5 человек-8,33 %, нет20 человек –33,33 %, скорее всего16 человек –26,67%)

Как Вы думаете, помогает ли ИИ в учебе людям с ограниченными возможностями? ( «Да» 57 человек- 95 %,«Сомневаюсь»0 человек- 0 %, «нет»3 человека- 5 %, )

В ближайшем будущем ИИ заменит человека во всех сферах жизни? ( «Да» 19 человек–31,67 %,«нет»41 человек- 68,33 %)

10) Влияет ли присутствие ИИ на развитие мышления младших школьников? ( Да 40 человек–66,67 %, Сомневаюсь 4 человека –6,67 %, нет16 человек –26,67 %)

В мире, где наука и технологии стремительно развиваются, мы стоим на пороге новой эры научных исследований. Каждый день мы видим, как искусственный интеллект (ИИ) делает революцию в самых разных областях, от медицины до экологии.

Полученные данные позволяют сделать вывод, что ИИ стал в современном мире необходимым товаром. Достаточно большое количество граждан пользуется этой сферой ИИ. Даже среди моих родственников и знакомых ИИ достаточно востребован.

2.1. Набор заданий по информатике

Для эксперимента составлен набор из 30 заданий по темам школьного курса информатики. Задания разделены по типам и уровням сложности (базовый, средний, повышенный).

Тема	Тип задания	Количество	Уровень (пример)
Алгоритмы и исполнители	пошаговое решение/составление алгоритма	6	1–3
Системы счисления	перевод/операции/поиск ошибки	6	1–3
Логика и таблицы истинности	формулы/таблицы/логические задачи	6	1–3
Информационная безопасность	термины/ситуационные задачи	6	1–2
Данные и представление информации	кодирование/таблицы/работа с данными	6	1–2

2.2. Условия эксперимента и промпты

Для одной и той же задачи чатботу задавались два варианта запроса (промпта), чтобы проверить влияние формулировки на качество ответа.

Промпт A (обычный): «Реши задачу. Дай ответ.»

Промпт B (усиленный): «Реши задачу пошагово, обязательно проверь ответ. Если не уверен — так и напиши. Не придумывай факты и источники.»

Ответы оценивались по шкале 0–8 баллов (К1–К4), а также фиксировался тип ошибки (если она есть). Эталонные ответы брались из учебника, материалов учителя или проверялись вручную.

2.3. Шаблон фиксации результатов

Ниже приведён шаблон таблицы для заполнения по каждому заданию.

№	Тема	Тип задания	Уровень	Промпт	Краткий ответ ИИ	Баллы (0–8)	Комментарий/тип ошибки
1	(заполнить)	(заполнить)	1/2/3	A/B	(кратко)	0–8	(ошибка/нет)
2	(заполнить)	(заполнить)	1/2/3	A/B	(кратко)	0–8	(ошибка/нет)
3	(заполнить)	(заполнить)	1/2/3	A/B	(кратко)	0–8	(ошибка/нет)
4	(заполнить)	(заполнить)	1/2/3	A/B	(кратко)	0–8	(ошибка/нет)
5	(заполнить)	(заполнить)	1/2/3	A/B	(кратко)	0–8	(ошибка/нет)
6	(заполнить)	(заполнить)	1/2/3	A/B	(кратко)	0–8	(ошибка/нет)

2.4. Пример обработки данных и визуализация

После заполнения таблиц по всем заданиям рассчитываются: средний балл по темам, доля надёжных ответов (7–8), доля условно надёжных (5–6) и ненадёжных (0–4), а также частота типов ошибок.

Ниже приведены примерные диаграммы (как образец оформления). В итоговой работе диаграммы строятся по вашим реальным данным.

Рисунок 1 — Средняя надёжность ответов по темам (пример)

Рисунок 2 — Типы ошибок в ответах чатботов (пример)

3. АНАЛИЗ РЕЗУЛЬТАТОВ И РЕКОМЕНДАЦИИ

3.1. Как интерпретировать результаты

При анализе важно не только посчитать «процент правильных ответов», но и понять, почему возникают ошибки и как их предотвращать. Даже частично верный ответ может быть опасным, если в нём неверно объяснён ключевой шаг (ученик запомнит неправильный способ).

Рекомендуется отдельно анализировать:

темы, где средний балл ниже 6 (зона повышенного риска);
задания повышенного уровня (обычно больше логических и вычислительных ошибок);
разницу между промптами A и B (помогает ли требование проверки);
ошибки, связанные с терминологией (часто встречаются при ИБ и сетевых темах).

3.2. Рекомендации по безопасному использованию чатботов

Ниже приведены рекомендации, составленные на основе типичных ошибок ИИ и логики учебной проверки.

Всегда просите решение пошагово и требуйте проверку ответа (самоконтроль).
Сверяйте термины и определения с учебником (особенно темы «сети», «ИБ», «информация и кодирование»).
Проверяйте вычисления вручную или на калькуляторе; отдельно проверяйте перевод систем счисления.
Если чатбот приводит «источники» или «стандарты», проверяйте, существуют ли они на самом деле.
Не копируйте ответ как готовое решение: перепишите своими словами и объясните шаги — так легче заметить ошибку.
Для сложной задачи используйте «двойную проверку»: задать вопрос дважды разными словами или сравнить ответы двух чатботов (если есть доступ).

3.3. Выводы по гипотезе и практическая значимость

Гипотеза проекта подтверждается при наличии измеримых отличий по темам и типам заданий: часть задач чатботы решают уверенно и правильно, но в ряде тем возникают систематические ошибки. Использование усиленного промпта (с требованием пошагового решения и проверки) обычно повышает качество, но не гарантирует отсутствие ошибок.

Практическая значимость проекта — в создании понятных правил работы с ИИ и в демонстрации того, что «красивый ответ» не равен правильному. Материалы проекта можно использовать на уроках информатики, классных часах и при подготовке к ОГЭ/контрольным.

ЗАКЛЮЧЕНИЕ

В ходе проекта разработана шкала оценки надёжности ответов ИИ-чатботов (0–8 баллов), подготовлен набор заданий по информатике и предложен алгоритм проведения эксперимента с использованием разных промптов. Представлены шаблоны таблиц для фиксации результатов и примеры диаграмм для анализа.

Основной вывод: чатбот может быть полезным помощником в обучении, но требует обязательной проверки, особенно в задачах с вычислениями, логикой и точными формулировками. Итоговый продукт проекта (карточки заданий, анкета и чек-лист) помогает использовать ИИ осознанно и безопасно.

СПИСОК ЛИТЕРАТУРЫ

Поспелова Е.А., Отоцкий П.Л., Горлачева Е.Н., Файзуллин Р.В. Генеративный искусственный интеллект в образовании: текущие тенденции и перспективы // Профессиональное образование и рынок труда. 2024. Т. 12. № 3.
Кузьминов Я.И. (науч. ред.), Кирюшина М.А., Ворочков А.П. и др. Начало конца или новой эпохи? Эффекты генеративного искусственного интеллекта в высшем образовании: аналитический доклад. 2024. (PDF).
UNESCO. Руководство по использованию генеративного искусственного интеллекта в образовании и научных исследованиях. 2023/2024.
Бермус А.Г. Преимущества и риски использования ChatGPT в системе высшего образования: теоретический обзор // Педагогика. Вопросы теории и практики. 2024.
Бермус А.Г. Педагогические, лингводидактические и психологические условия использования ChatGPT в системе высшего образования // (научная статья). 2024.
Раицкая Л.К. Перспективы применения ChatGPT для высшего образования: обзор международных исследований // (научная статья). 2024.
Капустина Л.В. ChatGPT и образование: вечное противостояние или возможное сотрудничество // (научная статья). 2023.
Мухлаева Т.В. Генеративный искусственный интеллект: трансформации в образовании, перспективы и динамика // (научная статья). 2025.
Петрозаводский государственный университет. Методические рекомендации по использованию искусственного интеллекта (в т.ч. генеративного) в образовательной деятельности. 2025.

Приложение 1. Анкета (опрос учащихся о применении ИИ в учёбе)

1) Пользуетесь ли вы ИИ-чатботами для учёбы по информатике? (Да/Иногда/Нет)

2) Для чего чаще всего используете чатбот? (объяснение темы/решение задач/конспект/подготовка к тесту/другое)

3) Случалось ли, что ответ чатбота оказался неверным? (Да/Нет/Не знаю)

4) Проверяете ли вы ответы чатбота по учебнику или у учителя? (Всегда/Иногда/Редко/Никогда)

5) Насколько вы доверяете ответам чатбота по информатике? (1–5)

6) Какие темы чаще вызывают сложности? (алгоритмы/логика/системы счисления/ИБ/данные)

7) Считаете ли вы, что ИИ помогает учиться лучше? (Да/Нет/Затрудняюсь)

8) Что важнее: получить готовый ответ или понять решение? (ответ/понимание)

9) Знаете ли вы правила академической честности при использовании ИИ? (Да/Нет)

10) Какие правила использования ИИ в школе вы считаете нужными? (открытый вопрос)

Приложение 2. Карточки заданий для эксперимента (пример — 10 заданий)

Карточка 1 (Алгоритмы, уровень 1)

Исполнитель Робот стоит в клетке (1,1). Команды: ВПРАВО, ВЛЕВО, ВВЕРХ, ВНИЗ. Составьте алгоритм, чтобы дойти до клетки (4,3), если проход свободен.

Карточка 2 (Алгоритмы, уровень 2)

Запишите алгоритм нахождения максимума из трёх чисел a, b, c с использованием ветвления (псевдокод).

Карточка 3 (Системы счисления, уровень 1)

Переведите число 101101₂ в десятичную систему.

Карточка 4 (Системы счисления, уровень 2)

Переведите число 125₈ в двоичную систему.

Карточка 5 (Системы счисления, уровень 3)

Найдите ошибку в переводе: 2A₁₆ = 101010₂. Верно ли это? Исправьте.

Карточка 6 (Логика, уровень 1)

Постройте таблицу истинности для выражения (A И B) ИЛИ (НЕ A).

Карточка 7 (Логика, уровень 2)

Упростите логическое выражение: (A И B) ИЛИ (A И НЕ B).

Карточка 8 (ИБ, уровень 1)

Объясните разницу между паролем, двухфакторной аутентификацией и биометрией. Приведите пример каждой меры.

Карточка 9 (Данные, уровень 2)

Сколько информации (в битах) нужно, чтобы закодировать 64 различных символа?

Карточка 10 (Данные, уровень 2)

В таблице 100 строк и 8 столбцов. Сколько ячеек? Запишите формулу расчёта.

Приложение 3. Чек-лист «Проверяй ответ ИИ за 2 минуты»

1) Сверь условие: все ли числа, данные и требования совпадают с задачей?
2) Попроси шаги: есть ли понятное пошаговое решение, а не только «итог»?
3) Проверь вычисления: пересчитай ключевые места (особенно системы счисления и логические преобразования).
4) Проверь термины: определения и формулировки сверь с учебником.
5) Проверка ответа: есть ли обратная проверка (подстановка, контрольный расчёт, проверка таблицы истинности)?
6) Сомнение = сигнал: если ответ выглядит странно или нет проверки — уточни у учителя/в учебнике.
7) Академическая честность: не сдавай ответ ИИ как свой — обязательно понимай и пересказывай.

Просмотров работы: 13

XXVII Международный конкурс научно-исследовательских и творческих работ учащихся
Старт в науке

Оценка надёжности ответов ИИ-чатботов в образовательных задачах

Автор работы награжден дипломом победителя I степени

Старт в науке
XXVII Международный конкурс научно-исследовательских и творческих работ учащихся