Оценка надёжности ответов ИИ-чатботов в образовательных задачах

XXVII Международный конкурс научно-исследовательских и творческих работ учащихся
Старт в науке

Оценка надёжности ответов ИИ-чатботов в образовательных задачах

Цитеркоп Д.А. 1
1МБОУ-лицей г. Татарск
Семенова Н.Н. 1
1МБОУ-лицей г. Татарск
Автор работы награжден дипломом победителя I степени
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

ВВЕДЕНИЕ

ИИ-чатботы стали привычным инструментом для подготовки к урокам: они объясняют темы, помогают составлять конспекты, предлагают примеры решений и даже генерируют задания.

При этом такие системы могут выдавать ответы с ошибками: путать условия задачи, делать неверные вычисления, подменять термины или «уверенно» объяснять неверное решение. В учебной деятельности это особенно рискованно: ошибочный ответ может закрепить неправильное понимание темы.

Поэтому важно проверить надёжность ответов ИИ именно на задачах по информатике и разработать простые правила, которые помогут безопасно использовать чатботы как помощника, а не как «источник истины».

Актуальность: широкое использование чатботов школьниками требует понимания, в каких темах по информатике им можно доверять, а где обязательна проверка по учебнику и учителю.

Проблема: ответ ИИ часто выглядит убедительно, но не всегда является правильным и проверяемым.

Цель проекта: оценить надёжность ответов ИИ-чатботов при решении образовательных задач по информатике и подготовить рекомендации по их безопасному применению.

Задачи проекта:

  • разработать критерии оценки надёжности ответа (шкалу баллов и типологию ошибок);

  • подготовить набор заданий по информатике разных типов и уровней сложности;

  • провести эксперимент: получить ответы чатботов при разных формулировках запросов (промптах);

  • сравнить ответы с эталоном (учебник/решение учителя) и оценить результаты;

  • сделать выводы о наиболее «рисковых» темах и ошибках;

  • создать продукт проекта: чек-лист и памятку для учащихся.

Объект исследования: ответы ИИ-чатботов при решении учебных задач.

Предмет исследования: точность, полнота, логичность и проверяемость ответов чатботов по заданиям школьного курса информатики.

Гипотеза: если оценивать ответы ИИ по единым критериям (точность, соответствие условию, обоснование, проверяемость), то можно выявить темы с повышенным риском ошибок и сформулировать правила, повышающие качество результата.

Методы: анализ источников, эксперимент, сравнительный анализ, экспертная оценка, статистическая обработка результатов, классификация ошибок.

Ожидаемый продукт: таблица результатов, диаграммы, анкета, карточки заданий и чек-лист «Проверяй ответ ИИ за 2 минуты».

1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ И ОПИСАНИЕ ПРОБЛЕМЫ

1.1. Что такое ИИ-чатбот и как он отвечает

ИИ-чатбот — это программа, которая общается с пользователем на естественном языке. Современные чатботы на основе больших языковых моделей (LLM) учатя на больших массивах текстов и генерируют ответ, подбирая наиболее вероятное продолжение фразы в заданном контексте.

Поэтому чатбот может давать полезные объяснения и примеры, но не «понимает» задачу так, как человек: он не всегда проверяет факты и вычисления, может ошибаться в формулировках и выдавать правдоподобные, но неверные ответы.

1.2. Типичные ошибки чатботов в учебных задачах

  • Вычислительная ошибка (неверный подсчёт, ошибка в преобразовании).

  • Подмена условия (чатбот решает «похожую» задачу, но с другими данными).

  • Неверное объяснение (логический разрыв, неправильный шаг).

  • Терминологическая ошибка (путает определения: алгоритм/программа, файл/папка, IP/DNS и т.д.).

  • Пропуск важного шага (например, не обосновывает переход, не проверяет ответ).

  • «Галлюцинации» источников: придуманные названия стандартов, «ссылки», несуществующие правила.

1.3. Понятие надёжности ответа и критерии оценки

В проекте под надёжностью ответа понимается совокупность характеристик, важных для учебной задачи: насколько ответ правильный, соответствует ли условию, содержит ли понятное обоснование и может ли быть проверен.

Для измерения надёжности используется шкала 0–8 баллов по четырём критериям (каждый — 0–2 балла):

К1. Точность: ответ верный; 1 балл — частично верный; 0 — неверный.

К2. Соответствие условию: данные не подменены, задача решена именно та, что задана.

К3. Обоснование/логика: есть шаги решения, формулы/правила, объяснение терминов.

К4. Проверяемость: есть проверка результата/самоконтроль; нет придуманных источников; при неопределённости — честное указание «не уверен».

Интерпретация суммы баллов:

7–8 — надёжный ответ (можно использовать, но всё равно полезно сверить).

5–6 — условно надёжный (нужна проверка по учебнику/учителю).

0–4 — ненадёжный (высокий риск ошибок).

2. ОРГАНИЗАЦИЯ И ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТА

В ходе исследования я решила ответить на вопрос: нужен ли ИИ, и что ждёт нас в будущем. С этой целью я решила провести социологический опрос на тему "Искусственный интеллект" среди своих людей разных возрастных категорий.

Можно пройти по данной ссылке и посмотреть мой опрос «Искусственный Интеллект», который был опубликован в сети Интернета:

https://onlinetestpad.com/jr2skdqs7vt4u.

В опросе приняло участие 60 человек.

Респондентам были предложены следующие вопросы:

  1. Какие устройства с ИИ вы используете? (смартфон 53 человека-58,23%, умная колонка 11 человек-12,09 %, робот-пылесос 4 человека- 4,4%, умные смарт-часы 12человек-13,19 %, другое 11 человек- 12,09%)

  1. Сможет ли ИИ превзойти человека во всём?(«Да» 5 человек –8,33 %,«Сомневаюсь» 22 человека-36,67%, «Нет» 20 человек – 33,33%, «Скорее всего»13 человек –21,67%)

  1. Какие предметы помогают в создании ИИ? ( информатика- 50 человек –42,73%,робототехника- 46 человек -39,32 %, биология- 8 человек –6,84%, русский язык- 13 человек -11,11%)

  1. Сможем ли мы привить ИИ нравственные чувства? («Да» 4 человек– 6,66%,«Сомневаюсь» 22 человека –36,67 %, «нет»28 человек-46,67 %, «скорее всего» 6 человек-10 %)

  1. Как вы считаете ,может ли ИИ представлять опасность для человека? ( «Да» 24 человека-40%,«Сомневаюсь»11 человек-18,33%, «нет» 15человек-25 %, «скорее всего»10человек –16,67 %)

  1. С может ли ИИ заменить труд человека? ( «Да» 13 человек-21,67 %,«Сомневаюсь»13 человек –21,67 %, «нет»20 человек- 33,33 %, «скорее всего» 14 человек –23,33 %)

  1. Возможно ли создание сверх интеллекта? ( Да 19 человек–31,67%, Сомневаюсь5 человек-8,33 %, нет20 человек –33,33 %, скорее всего16 человек –26,67%)

  1. Как Вы думаете, помогает ли ИИ в учебе людям с ограниченными возможностями? ( «Да» 57 человек- 95 %,«Сомневаюсь»0 человек- 0 %, «нет»3 человека- 5 %, )

  1. В ближайшем будущем ИИ заменит человека во всех сферах жизни? ( «Да» 19 человек–31,67 %,«нет»41 человек- 68,33 %)

10) Влияет ли присутствие ИИ на развитие мышления младших школьников? ( Да 40 человек–66,67 %, Сомневаюсь 4 человека –6,67 %, нет16 человек –26,67 %)

В мире, где наука и технологии стремительно развиваются, мы стоим на пороге новой эры научных исследований.  Каждый день мы видим, как искусственный интеллект (ИИ) делает революцию в самых разных областях, от медицины до экологии.

Полученные данные позволяют сделать вывод, что ИИ стал в современном мире необходимым товаром. Достаточно большое количество граждан пользуется этой сферой ИИ. Даже среди моих родственников и знакомых ИИ достаточно востребован.

2.1. Набор заданий по информатике

Для эксперимента составлен набор из 30 заданий по темам школьного курса информатики. Задания разделены по типам и уровням сложности (базовый, средний, повышенный).

Тема

Тип задания

Количество

Уровень (пример)

Алгоритмы и исполнители

пошаговое решение/составление алгоритма

6

1–3

Системы счисления

перевод/операции/поиск ошибки

6

1–3

Логика и таблицы истинности

формулы/таблицы/логические задачи

6

1–3

Информационная безопасность

термины/ситуационные задачи

6

1–2

Данные и представление информации

кодирование/таблицы/работа с данными

6

1–2

2.2. Условия эксперимента и промпты

Для одной и той же задачи чатботу задавались два варианта запроса (промпта), чтобы проверить влияние формулировки на качество ответа.

Промпт A (обычный): «Реши задачу. Дай ответ.»

Промпт B (усиленный): «Реши задачу пошагово, обязательно проверь ответ. Если не уверен — так и напиши. Не придумывай факты и источники.»

Ответы оценивались по шкале 0–8 баллов (К1–К4), а также фиксировался тип ошибки (если она есть). Эталонные ответы брались из учебника, материалов учителя или проверялись вручную.

2.3. Шаблон фиксации результатов

Ниже приведён шаблон таблицы для заполнения по каждому заданию.

Тема

Тип задания

Уровень

Промпт

Краткий ответ ИИ

Баллы (0–8)

Комментарий/тип ошибки

1

(заполнить)

(заполнить)

1/2/3

A/B

(кратко)

0–8

(ошибка/нет)

2

(заполнить)

(заполнить)

1/2/3

A/B

(кратко)

0–8

(ошибка/нет)

3

(заполнить)

(заполнить)

1/2/3

A/B

(кратко)

0–8

(ошибка/нет)

4

(заполнить)

(заполнить)

1/2/3

A/B

(кратко)

0–8

(ошибка/нет)

5

(заполнить)

(заполнить)

1/2/3

A/B

(кратко)

0–8

(ошибка/нет)

6

(заполнить)

(заполнить)

1/2/3

A/B

(кратко)

0–8

(ошибка/нет)

2.4. Пример обработки данных и визуализация

После заполнения таблиц по всем заданиям рассчитываются: средний балл по темам, доля надёжных ответов (7–8), доля условно надёжных (5–6) и ненадёжных (0–4), а также частота типов ошибок.

Ниже приведены примерные диаграммы (как образец оформления). В итоговой работе диаграммы строятся по вашим реальным данным.

Рисунок 1 — Средняя надёжность ответов по темам (пример)

Рисунок 2 — Типы ошибок в ответах чатботов (пример)

3. АНАЛИЗ РЕЗУЛЬТАТОВ И РЕКОМЕНДАЦИИ

3.1. Как интерпретировать результаты

При анализе важно не только посчитать «процент правильных ответов», но и понять, почему возникают ошибки и как их предотвращать. Даже частично верный ответ может быть опасным, если в нём неверно объяснён ключевой шаг (ученик запомнит неправильный способ).

Рекомендуется отдельно анализировать:

  • темы, где средний балл ниже 6 (зона повышенного риска);

  • задания повышенного уровня (обычно больше логических и вычислительных ошибок);

  • разницу между промптами A и B (помогает ли требование проверки);

  • ошибки, связанные с терминологией (часто встречаются при ИБ и сетевых темах).

3.2. Рекомендации по безопасному использованию чатботов

Ниже приведены рекомендации, составленные на основе типичных ошибок ИИ и логики учебной проверки.

  1. Всегда просите решение пошагово и требуйте проверку ответа (самоконтроль).

  2. Сверяйте термины и определения с учебником (особенно темы «сети», «ИБ», «информация и кодирование»).

  3. Проверяйте вычисления вручную или на калькуляторе; отдельно проверяйте перевод систем счисления.

  4. Если чатбот приводит «источники» или «стандарты», проверяйте, существуют ли они на самом деле.

  5. Не копируйте ответ как готовое решение: перепишите своими словами и объясните шаги — так легче заметить ошибку.

  6. Для сложной задачи используйте «двойную проверку»: задать вопрос дважды разными словами или сравнить ответы двух чатботов (если есть доступ).

3.3. Выводы по гипотезе и практическая значимость

Гипотеза проекта подтверждается при наличии измеримых отличий по темам и типам заданий: часть задач чатботы решают уверенно и правильно, но в ряде тем возникают систематические ошибки. Использование усиленного промпта (с требованием пошагового решения и проверки) обычно повышает качество, но не гарантирует отсутствие ошибок.

Практическая значимость проекта — в создании понятных правил работы с ИИ и в демонстрации того, что «красивый ответ» не равен правильному. Материалы проекта можно использовать на уроках информатики, классных часах и при подготовке к ОГЭ/контрольным.

ЗАКЛЮЧЕНИЕ

В ходе проекта разработана шкала оценки надёжности ответов ИИ-чатботов (0–8 баллов), подготовлен набор заданий по информатике и предложен алгоритм проведения эксперимента с использованием разных промптов. Представлены шаблоны таблиц для фиксации результатов и примеры диаграмм для анализа.

Основной вывод: чатбот может быть полезным помощником в обучении, но требует обязательной проверки, особенно в задачах с вычислениями, логикой и точными формулировками. Итоговый продукт проекта (карточки заданий, анкета и чек-лист) помогает использовать ИИ осознанно и безопасно.

Гипотеза проекта подтверждается при наличии измеримых отличий по темам и типам заданий: часть задач чатботы решают уверенно и правильно, но в ряде тем возникают систематические ошибки. Использование усиленного промпта (с требованием пошагового решения и проверки) обычно повышает качество, но не гарантирует отсутствие ошибок.

Практическая значимость проекта — в создании понятных правил работы с ИИ и в демонстрации того, что «красивый ответ» не равен правильному. Материалы проекта можно использовать на уроках информатики, классных часах и при подготовке к ОГЭ/контрольным.

СПИСОК ЛИТЕРАТУРЫ

  1. Поспелова Е.А., Отоцкий П.Л., Горлачева Е.Н., Файзуллин Р.В. Генеративный искусственный интеллект в образовании: текущие тенденции и перспективы // Профессиональное образование и рынок труда. 2024. Т. 12. № 3.

  2. Кузьминов Я.И. (науч. ред.), Кирюшина М.А., Ворочков А.П. и др. Начало конца или новой эпохи? Эффекты генеративного искусственного интеллекта в высшем образовании: аналитический доклад. 2024. (PDF).

  3. UNESCO. Руководство по использованию генеративного искусственного интеллекта в образовании и научных исследованиях. 2023/2024.

  4. Бермус А.Г. Преимущества и риски использования ChatGPT в системе высшего образования: теоретический обзор // Педагогика. Вопросы теории и практики. 2024.

  5. Бермус А.Г. Педагогические, лингводидактические и психологические условия использования ChatGPT в системе высшего образования // (научная статья). 2024.

  6. Раицкая Л.К. Перспективы применения ChatGPT для высшего образования: обзор международных исследований // (научная статья). 2024.

  7. Капустина Л.В. ChatGPT и образование: вечное противостояние или возможное сотрудничество // (научная статья). 2023.

  8. Мухлаева Т.В. Генеративный искусственный интеллект: трансформации в образовании, перспективы и динамика // (научная статья). 2025.

  9. Петрозаводский государственный университет. Методические рекомендации по использованию искусственного интеллекта (в т.ч. генеративного) в образовательной деятельности. 2025.

Приложение 1. Анкета (опрос учащихся о применении ИИ в учёбе)

1) Пользуетесь ли вы ИИ-чатботами для учёбы по информатике? (Да/Иногда/Нет)

2) Для чего чаще всего используете чатбот? (объяснение темы/решение задач/конспект/подготовка к тесту/другое)

3) Случалось ли, что ответ чатбота оказался неверным? (Да/Нет/Не знаю)

4) Проверяете ли вы ответы чатбота по учебнику или у учителя? (Всегда/Иногда/Редко/Никогда)

5) Насколько вы доверяете ответам чатбота по информатике? (1–5)

6) Какие темы чаще вызывают сложности? (алгоритмы/логика/системы счисления/ИБ/данные)

7) Считаете ли вы, что ИИ помогает учиться лучше? (Да/Нет/Затрудняюсь)

8) Что важнее: получить готовый ответ или понять решение? (ответ/понимание)

9) Знаете ли вы правила академической честности при использовании ИИ? (Да/Нет)

10) Какие правила использования ИИ в школе вы считаете нужными? (открытый вопрос)

Приложение 2. Карточки заданий для эксперимента (пример — 10 заданий)

Карточка 1 (Алгоритмы, уровень 1)

Исполнитель Робот стоит в клетке (1,1). Команды: ВПРАВО, ВЛЕВО, ВВЕРХ, ВНИЗ. Составьте алгоритм, чтобы дойти до клетки (4,3), если проход свободен.

Карточка 2 (Алгоритмы, уровень 2)

Запишите алгоритм нахождения максимума из трёх чисел a, b, c с использованием ветвления (псевдокод).

Карточка 3 (Системы счисления, уровень 1)

Переведите число 101101₂ в десятичную систему.

Карточка 4 (Системы счисления, уровень 2)

Переведите число 125₈ в двоичную систему.

Карточка 5 (Системы счисления, уровень 3)

Найдите ошибку в переводе: 2A₁₆ = 101010₂. Верно ли это? Исправьте.

Карточка 6 (Логика, уровень 1)

Постройте таблицу истинности для выражения (A И B) ИЛИ (НЕ A).

Карточка 7 (Логика, уровень 2)

Упростите логическое выражение: (A И B) ИЛИ (A И НЕ B).

Карточка 8 (ИБ, уровень 1)

Объясните разницу между паролем, двухфакторной аутентификацией и биометрией. Приведите пример каждой меры.

Карточка 9 (Данные, уровень 2)

Сколько информации (в битах) нужно, чтобы закодировать 64 различных символа?

Карточка 10 (Данные, уровень 2)

В таблице 100 строк и 8 столбцов. Сколько ячеек? Запишите формулу расчёта.

Приложение 3. Чек-лист «Проверяй ответ ИИ за 2 минуты»

  1. 1) Сверь условие: все ли числа, данные и требования совпадают с задачей?

  2. 2) Попроси шаги: есть ли понятное пошаговое решение, а не только «итог»?

  3. 3) Проверь вычисления: пересчитай ключевые места (особенно системы счисления и логические преобразования).

  4. 4) Проверь термины: определения и формулировки сверь с учебником.

  5. 5) Проверка ответа: есть ли обратная проверка (подстановка, контрольный расчёт, проверка таблицы истинности)?

  6. 6) Сомнение = сигнал: если ответ выглядит странно или нет проверки — уточни у учителя/в учебнике.

  7. 7) Академическая честность: не сдавай ответ ИИ как свой — обязательно понимай и пересказывай.

Просмотров работы: 10