Что такое компьютерные адаптивные тесты
СОДЕРЖАНИЕ
Как это устроено
CAT последовательно выбирает вопросы с целью максимальной точности экзамена на основе того, что известно об экзаменуемом из предыдущих вопросов. С точки зрения испытуемого, сложность экзамена, кажется, зависит от уровня его способностей. Например, если экзаменуемый хорошо справляется с заданием средней сложности, ему будет предложен более сложный вопрос. Или, если они работали плохо, им задавали более простой вопрос. По сравнению со статическими тестами с множественным выбором, которые прошли почти все, с фиксированным набором заданий, назначаемых всем испытуемым, компьютерно-адаптивные тесты требуют меньшего количества тестовых заданий, чтобы получить одинаково точные результаты. (Конечно, в методологии CAT нет ничего, что требовало бы, чтобы пункты были с множественным выбором; но так же, как большинство экзаменов являются множественным выбором, большинство экзаменов CAT также используют этот формат.)
Базовый компьютерно-адаптивный метод тестирования - это итерационный алгоритм со следующими этапами:
Об экзаменующемся ничего не известно до того, как приступить к выполнению первого задания, поэтому алгоритм обычно начинается с выбора в качестве первого задания элемента средней или средней-легкой сложности.
В результате адаптивного администрирования разные испытуемые проходят совершенно разные тесты. Психометрическая технология, позволяющая рассчитывать справедливые оценки по разным наборам заданий, - это теория ответа по заданию (IRT). IRT также является предпочтительной методологией для выбора оптимальных элементов, которые обычно выбираются на основе информации, а не сложности как таковой.
В Соединенных Штатах вступительный экзамен по программе Graduate Management Admission Test в настоящее время проводится в основном как компьютерно-адаптивный тест. Список активных программ CAT можно найти в Международной ассоциации компьютерного адаптивного тестирования , наряду со списком текущих программ исследований CAT и почти полной библиографией всех опубликованных исследований CAT.
Соответствующая методология, называемая многоступенчатым тестированием (MST) или CAST , используется в Едином экзамене сертифицированного государственного бухгалтера . MST устраняет или уменьшает некоторые недостатки CAT, как описано ниже. См. Специальный выпуск журнала Applied Measurement in Education за 2006 г. для получения дополнительной информации о MST.
Преимущества
Адаптивные тесты могут дать одинаково точные результаты для большинства тестируемых. Напротив, стандартные фиксированные тесты почти всегда обеспечивают лучшую точность для испытуемых со средними способностями и все более низкую точность для испытуемых с более высокими оценками.
Адаптивный тест, как правило, можно сократить на 50% и при этом поддерживать более высокий уровень точности, чем фиксированная версия. Это означает экономию времени тестируемого. Тестируемые не тратят свое время на выполнение слишком сложных или тривиально легких заданий. Кроме того, испытательная организация получает выгоду от экономии времени; существенно снижается стоимость сидения экзаменуемого. Однако, поскольку разработка CAT требует гораздо больших затрат, чем стандартный тест с фиксированной формой, для того, чтобы программа тестирования CAT была финансово плодотворной, необходимо большое количество людей.
Большие целевые группы обычно могут быть представлены в научных и исследовательских областях. CAT-тестирование в этих аспектах может использоваться для выявления раннего начала инвалидности или заболеваний. Рост числа CAT-тестов в этих областях значительно увеличился за последние 10 лет. Когда-то не принятые в медицинских учреждениях и лабораториях, тестирование CAT теперь поощряется в рамках диагностики.
Как и любой компьютерный тест , адаптивные тесты могут показывать результаты сразу после тестирования.
Адаптивное тестирование, в зависимости от алгоритма выбора заданий, может уменьшить раскрытие некоторых заданий, потому что испытуемые обычно получают разные наборы заданий, а не все население, которому вводят один набор. Тем не менее, это может усилить воздействие на другие предметы (а именно на средние или средние / легкие задания, представленные большинству испытуемых в начале теста).
Недостатки
Первая проблема, с которой сталкивается в CAT, - это калибровка пула элементов. Чтобы смоделировать характеристики элементов (например, чтобы выбрать оптимальный элемент), все элементы теста должны быть предварительно применены к большой выборке, а затем проанализированы. Для этого новые задания должны быть смешаны с рабочими заданиями экзамена (ответы записываются, но не влияют на баллы тестируемых), называемых «пилотным тестированием», «предварительным тестированием» или «раздачей». . Это связано с проблемами логистики, этики и безопасности. Например, невозможно провести оперативный адаптивный тест с совершенно новыми, невидимыми элементами; все предметы должны быть предварительно протестированы на достаточно большой выборке, чтобы получить стабильную статистику по предметам. Может потребоваться, чтобы эта выборка состояла из 1000 испытуемых. Каждая программа должна решить, какой процент теста может состоять из элементов пилотного теста без оценок.
Хотя в адаптивных тестах есть алгоритмы управления экспозицией для предотвращения чрезмерного использования некоторых элементов, экспозиция, обусловленная способностями, часто не контролируется и может легко приближаться к 1. То есть некоторые элементы часто становятся очень распространенными в тестах для людей та же способность. Это серьезная проблема безопасности, потому что группы, совместно использующие элементы, вполне могут иметь аналогичный уровень функциональных возможностей. Фактически, полностью рандомизированный экзамен является наиболее безопасным (но и наименее эффективным).
Из-за сложности разработка CAT имеет ряд предпосылок. Должны присутствовать большие размеры выборки (обычно сотни испытуемых), необходимые для калибровки IRT. Элементы должны оцениваться в реальном времени, если новый элемент должен быть выбран мгновенно. Психометры, имеющие опыт калибровки IRT и исследований с помощью моделирования CAT, необходимы для предоставления валидной документации. Наконец, должна быть доступна программная система, способная к настоящему CAT на основе IRT.
В CAT с ограничением по времени испытуемый не может точно спланировать время, которое он может потратить на каждый элемент теста, и определить, успевают ли они пройти заданный по времени раздел теста. Таким образом, тестируемые могут быть оштрафованы за то, что они потратили слишком много времени на сложный вопрос, который задается в начале раздела, а затем не смогли ответить на достаточное количество вопросов, чтобы точно оценить их знания в областях, которые остаются непроверенными по истечении времени. В то время как CATs без привязки к сроку являются отличным инструментом для формирующих оценок, которыми руководствуются последующие инструкции, CATs с определенным временем не подходят для итоговых оценок с высокими ставками, используемых для измерения способностей к работе и образовательным программам.
Составные части
В создании CAT есть пять технических компонентов (нижеследующее адаптировано из Weiss & Kingsbury, 1984). В этот список не включены практические вопросы, такие как предварительное тестирование элемента или выпуск в реальном времени.
- Пул калиброванных предметов
- Отправная точка или начальный уровень
- Алгоритм выбора предмета
- Процедура подсчета очков
- Критерий прекращения
Пул калиброванных предметов
Отправная точка
В CAT элементы выбираются на основе результатов экзаменуемого до определенного момента в тесте. Тем не менее, очевидно, что CAT не в состоянии сделать какую-либо конкретную оценку способностей экзаменуемого, если не было заданий. Поэтому необходима другая первоначальная оценка способностей испытуемого. Если известна некоторая предыдущая информация об испытуемом, ее можно использовать, но часто CAT просто предполагает, что испытуемый имеет средние способности, поэтому первый пункт часто бывает средней сложности.
Алгоритм выбора предмета
Процедура подсчета очков
Критерий прекращения
Алгоритм CAT разработан для многократного выполнения заданий и обновления оценки способностей испытуемого. Это будет продолжаться до тех пор, пока пул элементов не будет исчерпан, если в CAT не будет включен критерий завершения. Часто тест завершается, когда стандартная ошибка измерения экзаменуемого падает ниже определенного значения, указанного пользователем, отсюда следует утверждение выше, что преимущество состоит в том, что оценки экзаменуемого будут одинаково точными или «одинаково точными». Другие критерии завершения существуют для различных целей теста, например, если тест предназначен только для определения того, должен ли экзаменующийся «сдать» или «не сдать» тест, а не для получения точной оценки своих способностей.
Другие вопросы
Прошел-не прошел
Во многих ситуациях цель теста - разделить экзаменуемых на две или более взаимоисключающих и исчерпывающих категорий. Это включает в себя общий «зачетный тест», где две классификации - «прошел» и «не прошел», но также включает ситуации, когда существует три или более классификации, например, «Недостаточный», «Базовый» и «Продвинутый» уровни знаний. или компетентность. Тип "адаптивного" CAT на уровне элементов, описанный в этой статье, наиболее подходит для тестов, которые не являются тестами типа "прошел / не прошел", или для тестов типа "прошел / не прошел", где очень важно обеспечить хорошую обратную связь. Некоторые модификации необходимы для теста «годен / не годен» CAT, также известного как компьютерный классификационный тест (CCT) . Для экзаменуемых с истинными оценками, очень близкими к проходному баллу, компьютеризированные классификационные тесты приведут к длинным тестам, в то время как те, у кого истинные баллы намного выше или ниже проходного балла, будут иметь самые короткие экзамены.
Например, необходимо применить новый критерий завершения и алгоритм оценки, который классифицирует экзаменуемого по категории, а не дает балльную оценку способностей. Для этого доступны две основные методологии. Наиболее заметным из них является тест отношения последовательных вероятностей (SPRT). Это формулирует проблему классификации экзаменуемого как проверку гипотезы о том, что способности экзаменуемого равны либо некоторой указанной точке выше контрольной оценки, либо другой указанной точке ниже контрольной оценки. Обратите внимание, что это формулировка точечной гипотезы, а не составная формулировка гипотезы, которая более подходит с концептуальной точки зрения. Сложная формулировка гипотезы будет заключаться в том, что способности экзаменуемого находятся в области выше оценки или в области ниже оценки.
Доверительный интервал также используется подход, при котором после того, как каждый элемент вводят, алгоритм определяет вероятность того, что истинно оценка испытуемый находится выше или ниже проходной балл. Например, алгоритм может продолжаться до тех пор, пока 95% доверительный интервал для истинного результата не перестанет содержать проходной балл. На этом этапе никаких дополнительных заданий не требуется, потому что решение «сдан-не прошел» уже имеет точность 95% при условии, что психометрические модели, лежащие в основе адаптивного тестирования, подходят испытуемому и тесту. Этот подход первоначально назывался «адаптивным тестированием мастерства», но его можно применить к ситуациям неадаптивного выбора заданий и классификации двух или более оценок (типичный тест мастерства имеет одну оценку).
На практике алгоритм обычно программируется так, чтобы иметь минимальную и максимальную длину теста (или минимальное и максимальное время администрирования). В противном случае для экзаменуемого со способностями, очень близкими к оценкам, было бы возможно управлять каждым элементом в банке без принятия решения алгоритмом.
Используемый алгоритм выбора позиции зависит от критерия завершения. Максимизация информации по результатам сокращения более подходит для SPRT, поскольку он максимизирует разницу в вероятностях, используемых в отношении правдоподобия . Максимизация информации при оценке способности более подходит для подхода с доверительным интервалом, поскольку он минимизирует условную стандартную ошибку измерения, которая уменьшает ширину доверительного интервала, необходимого для выполнения классификации.
Практические ограничения адаптивности
Исследователь ETS Марта Стокинг пошутила, что большинство адаптивных тестов на самом деле едва ли являются адаптивными тестами (BAT), потому что на практике на выбор элементов накладывается множество ограничений. Например, экзамены CAT обычно должны соответствовать требованиям к содержанию; устный экзамен может состоять из равного количества аналогий, типов заданий с заполнением пробелов и синонимов. CATs обычно имеют некоторую форму ограничений раскрытия элементов, чтобы предотвратить чрезмерное раскрытие наиболее информативных элементов. Кроме того, в некоторых тестах делается попытка сбалансировать поверхностные характеристики предметов, такие как пол людей в предметах или этническая принадлежность, подразумеваемая их именами. Таким образом, экзамены CAT часто ограничены тем, какие элементы он может выбирать, а для некоторых экзаменов ограничения могут быть существенными и требовать сложных стратегий поиска (например, линейного программирования ) для поиска подходящих элементов.
Простым методом управления экспонированием предметов является "случайный" или стратный метод. Вместо того, чтобы выбирать наиболее информативный элемент в каждой точке теста, алгоритм случайным образом выбирает следующий элемент из следующих пяти или десяти наиболее информативных элементов. Это можно использовать на протяжении всего теста или только в начале. Другой метод - это метод Симпсона-Хеттера, в котором случайное число извлекается из U (0,1) и сравнивается с параметром k i, определенным для каждого элемента тестовым пользователем. Если случайное число больше k i , рассматривается следующий по информативности элемент.
Вим ван дер Линден и его коллеги разработали альтернативный подход, называемый теневым тестированием, который включает создание целых теневых тестов как часть выбора элементов. Выбор элементов из теневых тестов помогает адаптивным тестам соответствовать критериям выбора, фокусируясь на глобально оптимальных вариантах (в отличие от вариантов, оптимальных для данного элемента ).
Многомерный
При заданном наборе элементов многомерный компьютерный адаптивный тест (MCAT) выбирает эти элементы из банка в соответствии с предполагаемыми способностями учащегося, что приводит к индивидуализированному тесту. MCAT стремятся максимизировать точность теста, основанную на нескольких способностях одновременного экзамена (в отличие от компьютерного адаптивного теста - CAT - который оценивает одну способность) с использованием последовательности заданий, на которые ранее были даны ответы (Piton-Gonçalves and Aluisio, 2012).
Компьютерное обучение (КО) может иметь большой потенциал, при надлежащем использовании в целях повышения качества обучения. Однако это качество может повышаться путём использованием компьютерного тестирования (КТ) и, более конкретно, с использованием компьютерного адаптивного тестирования (КAT). В целях данной работы автор описывает механизм и преимущества компьютерного адаптивного тестирования, а также каким образом оно может улучшить процесс обучения в предметной области науки. Педагогу предлагается принять к рассмотрению некоторые ограничения и проблемы в реализации, также будет обсуждаться естественнонаучное образование. КЛЮЧЕВЫЕ СЛОВА Компьютерное адаптивное тестирование, КАТ, компьютерное тестирование, компьютерное обучение, естественнонаучное образование, оценивание, формирование обратной связи.
ВВЕДЕНИЕ
Компьютерное обучение имеет крайне большой потенциал для улучшения обучения во многих областях и дисциплинах, в том числе и в предметной области науки. Однако, компьютерное обучение должно тесно и постоянно контролироваться, для обеспечения его эффективности. Это особенно верно, так как некоторые предварительные исследования показали, что использование компьютера отрицательно коррелирует с достижениями в области математики и науки (Papanastasiou и Фердиг, 2003). Хотя не ясно, при каких обстоятельствах эти негативные последствия развиваются, и если есть причинно-следственная связь между этими переменными, почему она все еще существует. Следовательно, эти отношения должны напомнить педагогу, что использование компьютера - не обязательно "панацея", и что он не должен использоваться безответственно и занимать внимание студентов, которым трудно иметь дело с ним. Также эта отрицательная связь между использованием компьютера и достижением результатов должна напомнить педагогам о существовании значительной потребности в непрерывной созидательной и итоговой оценки в науке. С помощью правильного оценивания, проблемы, которые возникают во время обучения, могут быть определены и, возможно, исправлены, если их обнаружили достаточно рано. Однако, оценка также должна использоваться с умом таким образом, чтобы она могла дополнять процесс обучения. Так как компьютерное обучение является целью этой конференции, эта статья будет связана с компьютерным оцениванием. Цель данной работы - выйти за рамки простого компьютерного обучения для описания компьютерного адаптивного тестирования, и обсудить его последствия, преимущества, и как оно может эффективно дополнять компьютерное обучение в данной области науки.
Описание
Преимущества компьютерных адаптивных тестов
Основными преимуществами компьютерного адаптивного тестирования связаны с тем, что они являются эффективными с точки зрения времени, а также используемых ресурсов. Эти преимущества будут обсуждены в следующем разделе с точки зрения испытуемых, с точки зрения педагога, который хочет определить уровень знаний студента, а также с точки зрения разработчика теста.
Эффективность
Адаптивные тесты дают возможность оценить способности испытуемого более точно и с меньшими затратами, чем с помощью бумажных тестов. Типичные бумажные тесты создаются для массового тестирования, так чтобы тест использовался для большой группы студентов, различных по способностям. Для того чтобы сделать это большинство вопросов этого теста среднего уровня сложности (так как большинство студентов имеют среднюю успеваемость) В результате, тест такого содержания создает проблемы для студентов с высокой и низкой успеваемостью. Испытуемый с низким уровнем знаний в состоянии ответить на первые несколько относительно лёгких вопросов. А на вопросы среднего и высокого уровня сложности студенту будет нелегко ответить. Следовательно, испытуемый может в конечном итоге угадать ответы на эти вопросы, или может просто оставить их пустыми. В таком случае тяжело реально оценить его знания и возможности, так как какие-либо выводы должны основываться только на ответах на первые несколько вопросов, которые студент смог разобрать. Другой, более конкретный пример такой ситуации приводится ниже. Преподаватель хочет провести тестирование по биологии на тему «печень» Вопрос низкого уровня требует установить место положения печени на картинках человека, а вопросы высокого уровня предполагают способность студента диагностировать болезнь печени по картинкам. В этом случае, если студент не может даже определить местонахождение печени на картине человеческого тела, нет причин задавать ему более сложный вопрос. При рассмотрении таких испытаний с точки зрения студента с глубокими знаниями биологии, ситуация несколько лучше, хотя она по-прежнему не совершенна. Большинство вопросов для него будет слишком легким для этого человека. Адаптивные тесты позволяют эффективно подбирать вопросы, которые специально предназначены для определённого уровня знаний каждого испытуемого. Когда все вопросы чётко направлены на способности каждого студента, педагог может достичь более надежных и достоверных выводов о фактических знаниях студента.
Обратная связь
Еще один из преимуществ компьютерного испытания в целом, а также компьютерных адаптивных тестов, является то, что они могут управлять прямой и непосредственной обратной связью студента и преподавателя (Wise & Plake, 1990). С типичным бумажным тестом, всегда возникает задержка по времени между преподавателем и тестируемым. Без формирования оценки, преподаватели не смогут определить призвано ли компьютерное обучение действительно помогать студенту в обучении или нет. Это особенно важно, потому что без надлежащего оценивания, некоторые студенты могут оказаться в невыгодном положении из компьютерного обучения. В дополнение к суммарной оценке, такой вид оценивания показывает, как каждый студент усвоил материал в целом, также возможно предоставление списка областей и предметов, вопросы по которым встречались у каждого студента, на основе его показателей в адаптивном тестировании. Однако у преподавателя может возникнуть такой вопрос, при непрерывном тестировании, возможно, что некоторые студенты запомнят тестовые вопросы и проинформируют других студентов о них. Однако, если адаптивный тест содержит относительно большую базу вопросов, такой проблемы не возникнет, особенно в свете того, что разные студенты должны получить разные задания, основанные на уровне их индивидуальных способностей.
Время
С точки зрения разработчика тестов, создание адаптивного теста отнимает много времени, но является более эффективным с точки зрения педагога. В частности, студенты при адаптивном тестировании должны ответить на меньшее количество вопросов, чем во время обыкновенного тестирования. Кроме того, обычное тестирование, как правило, проводится всей группой, определённое количество времени, которое может не устраивать некоторых студентов. Преподаватель и вся группа должна ждать, пока все студенты завершат тестирование, прежде чем они смогут перейти к другому виду деятельности. С компьютерным адаптивным тестированием, студенты могут сдавать экзамен, когда будут готовы, единственным условием является доступность компьютера, и они не должны ждать, пока вся группа будет готова приступать к тестированию, или пока вся группа закончит его. С точки зрения преподавателя, адаптивное тестирование является экономным по времени, а также ему больше не придется беспокоиться о создании тестов для группы до тех пор, пока КАТ в состоянии охватить изученный материал. Кроме того, преподаватель экономит время на проверке работ, так как тест оценивается компьютером.
Другие преимущества
Компьютерное адаптивное тестирование также имеет некоторые дополнительные преимущества. В компьютерном адаптивном тестировании высокий уровень безопасности, так как список вопросов больше не может быть украден, и списывание у соседей не выгодно, так как большинство вопросов теста для каждого индивидуально. Кроме того, при помощи КАТ могут быть собраны другие типы данных, такие как количество времени, затраченное для ответа на каждый вопрос или количество изменений, которые сделаны для студентов во время прохождения теста.
ЗАКЛЮЧЕНИЕ
Современные исследования в области тестирования и оценивания показали, что потенциал компьютер адаптивных тестов увеличился. Преимущества и возможности компьютерного адаптивного тестирования дают возможность шагнуть ещё дальше. Это заметно по количеству крупномасштабных тестирований (например, GRE, TOEFL, ASVAB), которые стали или становятся адаптивными (Papanastasiou, 2001). Тем не менее, на такой шаг всегда нужно идти с умом, чтобы такая процедура оценивания хорошо интегрировалась в процесс обучения для обеспечения его максимальной эффективности.
Ссылки
1.Bennett, R. E. (1999). Using new technology to improve assessment. RR99-6. Princeton, NJ: Educational Testing Service. 2. Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Lawrence Erlbaum associates. 3. Meijer, R. R. & Nerling, M. L. (1999). Computerized adaptive testing: Overview and introduction. Applied psychological measurement, 23(3), 187-194. 4. O’Neill, K. (1995). Performance of examinees with disabilities on computer-based academic skills tests. Paper presented at the American educational research association, San Francisco, April, 1995. 5. Papanastasiou, E. C. (2001). A ‘Rearrangement Procedure’ for administering adaptive tests when review options are permitted. (Doctoral dissertation, Michigan State University, 2001). 6. Papanastasiou, E. (2002a). A ‘rearrangement procedure’ for scoring adaptive tests with review options. Paper presented at the National Council of Measurement in Education, New Orleans, LA. 7. Papanastasiou, E. (2002b). Factors that differentiate mathematics students in Cyprus, Hong Kong, and the USA. Educational Research and Evaluation, 8 (1), 129-146. 8. Papanastasiou, E. C. & Ferdig, R. E. (2003, January). Computer use and mathematical literacy. An analysis of existing and potential relationships. Paper presented at the third Mediterranean conference on mathematics education, Athens, Greece, January 3-5, 2003. 9. Parshall, C. G., Spray, J. A., Kalohn, J. C. & Davey, T. (2002). Practical considerations in computer- based testing. NY: Springer. 10. Parshall, C. G., Stewart, R. & Ritter, J. (1996). Innovations: Graphics, sound and alternative response modes. Paper presented at the National Council of Measurement in Education, April 9-11, 1996, New York. 11. The College Board. (2000, April). An overview of computer-based testing. RN-09. 12. Wainer, H. (2000). CATs: Whither and whence. Psicologica, 21(1-2), 121-133. 13. Wise, S. L. & Plake, B. S. (1990). Computer-based testing in higher education. Measurement and evaluation in counseling and development, 23, 3-10.
В статье рассмотрены преимущества и методология применения компьютерного адаптированного тестирования как способа объективной оценки профессиональной подготовки специалистов различных уровней и студентов вузов различных форм обучения
Похожие темы научных работ по наукам об образовании , автор научной работы — Стариков А. И.
Технология адаптивого компьютерного тестирования контроля качества обучения в техническом вузе Компьютерное тестирование как наукоемкая педагогическая технология Сравнительный анализ программных комплексов TestMaker и ACT-Тest Педагогические измерения уровня обученности будущего специалиста i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.Текст научной работы на тему «Компьютерное адаптированное тестирование»
Созданный им научно-педагогический коллектив и методическая база позволили в середине 90-х годов разработать и реализовать экспериментальный учебный план подготовки горных инженеров-менеджеров (технических руководителей), характеризующийся повышением уровня базовой компьютерной, лингвистической и экономической подготовки молодых специалистов, а также большей гибкостью при получении ими конкретной специализации. Значительный вклад в разработку и внедрение этого плана внесли В. А. Галкин, Л. М. Макаров. И. Н. Сакдригайло, Ю. И. Лель. В. К. Багазссв.
В настоящее время в Уральском государственном горном университете основой для подготовки современных специалистов в области открытой разработки являегся созданный бывшими студентами и аспнрангами В. С. Хохрякова научно-технический комплекс, включающий современно оснащенные лаборатории автоматизированного проектирования, а также добычи и обработки природного камня и разработки россыпных месторождений, вновь созданный учебно-консультационный пункт компьютерных технологий и технологии открытых горных работ, проект-ио-методический институт, с 1996 г. разрабатывающий проектную документацию с использованием только компьютерных и ГИС-технологий.
КОМПЬЮТЕРНОЕ АДАПТИРОВАННОЕ ТЕСТИРОВАНИЕ
Компьютерное тестирование находит все более широкое распространение в различных системах управления для оценки производственной и маркетинговой деятельности, для оценки профессиональной подготовки специалистов различных уровней от рабочих до специалис
ов и руководителей. особенно в высокотехнологических производствах, для оценки знаний обучаемых в различных сферах и на различных этапах учебного процесса (в вузах, на курсах переподготовки и повышения квалификации и т.п.).
Компьютерное адаптированное тестирование было апробировано автором при оценке остаточных знаний студентов более чем в 20 вузах Уральского и Западно-Сибирского регионов. Всего тестированию было подвергнуто около 6000 студентов дневной и заочной форм обучения 2-5-го курсов.
Применение лицензионных оболочек высокого качества для компьютерного адаптированного тестирования позволяет:
1. Оценивать результаты тестирования практически мгновенно, автоматически фиксировать и сохранять на длительное время необходимую информацию.
2. Формировать достаточно большое количество вариантов теста, реал изо ват ь удобные процедуры ввода и модификации тестовых материалов.
3. Использовать мультимедийные компоненты и графические изображения высокого качества (объем, цвет), доступные при компьютерном тестировании, что обеспечивает прг.вильное и быстрое восприятия содержания задание, а с психологической точки зрения, снимает напряжение с тестируемого.
4. При компьютерном тестировании легко ввести временные ограничения или временное отслеживание процесса тестирования, что трудно осуществимо при бумажном тестировании; это позволяет учитывать психомоторные аспекты тестируемого.
5. Повышаем» эффект и внос 1ь легирования: уменьшайся время ахчиривания (до 50% пи сравнению с бумажной формой тестирования) для достижения того же уровня надежности оценивания, что ведет к уменьшению усталости тестируемого во время сеанса тестирования, что также является важным показателем в результатах тестируемых.
Перечисленные преимущества достижимы лишь при правильной организации технолог ии компьютерного тестирования и наличия прог раммных средств, их реализующих. К сожалению, в
настоящее время часто используются программные оболочки, которые не могут обеспечить всех указанных преимуществ.
Как показывает практика [1]. адаптивное тестирование применялось и для технологий бумажного тестирования, однако активное развитие оно получило с широким внедрением компьютеризации. Существуют различные алгоритмы и технологии, но опыт показывает, что необходимо ориентироваться на продвинутые технологии КАТ.
Основной особенностью КАТ является то. что тестовая последовательность формируется в процессе тестирования в соответствие с уровнем достижений каждого конкретного индивида, динамически оцениваемого (а в лучшем случае и прогнозируемого) в процессе, а не по окончании тестирования. В результате можно заключить:
• каждый конкретный тест уникален и не был ранее опубликован, что также повышает его секретность (и надежность);
• эффективность КАТ выше обычного компьютерного тестирования, так как трудность предъявляемых заданий соответствует уровню достижений тестируемого, повышается информативность теста и быстрее достигается заданная точность оценивания результата;
• КАТ позволяет распознавать не только испытуемых со средним уровнем достижений, но и даст возможность выявить наиболее подготовленные личности.
Перечисленные достоинства КАТ в совокупности с преимуществами вообще компьютерного тестирования обусловливают обоснованность рекомендаций по широчайшему использованию КАТ для оценки уровня учебных достижений студентов. Однако эффективное использование КАТ требует значительной подгхуговитсльной работы. Как правило, технология КАТ осваивается, прежде всего, в учебном процессе, а затем уж осуществляется переход к разработкам для условий производства и систем управления.
Именно в сфере учебного процесса проявляются лучшие возможности КАТ:
• формирование тестов, различных по уровню обученности испытуемых;
• управление как содержимым теста, так и стратегией проверок в ходе тестирования;
• нет необходимости в синхронизации процесса тестирования для группы испытуемых -каждый тестируемый выбирает самостоятельный темп работы с тестом.
Однако слабая оснащенность компьютерной техникой и локальными сетями являегся преградой для развития КАТ Использовать КАТ как стандартную практику возможно в организациях - прежде всего учебных заведениях, обладающих достаточным парком компьютерной техники и возможностью сбора достаточно большого объема статистики или возможностью приобретения такого банка для использования.
В соответствии с концепцией, предложенной проф. В. И. Васильевым [2], процедура оценивания уровня учебных достижений осуществляется в два этапа.
На первом этапе в результате тестирования происходит разделение испытуемых на классы, т. е. определяется класс обученности (образ) каждого студента. Этот этап носит название классификации. Количество классов обычно равно 3, в соответствии с полученными оценками: «удовлетворительно», «хорошо», «отлично». Студенты, не попавшие ни в один из классов, получают оценку «неудовлетворительно». Здесь тестируемым предъявляются тестовые задание различной меры трудности и осуществляется структу рная адаптация тестирующих воздействий. В зависимости от принятой в учебном заведении системы оценивания количество классов может быть другим. Но при этом необходимо отмстить, что с увеличением количества классов понижается точность оценивания. На этапе классификации устанавливается исходный уровень обученности каждого образа.
На втором ¡типе - рациональной аттестации - вычисляется действительный уровень учебных достижений студента, т. е. происходит уточнение состояния обученности студента. В процессе тестирования на данном этапе испытуемому предъявляются только те задания, которые соответствуют его исходному уровню знаний, полученному в результате классификации (на первом этапе).
В результате разделения процесса тестирования на два этапа повышаегся верность оценивания.
Эти два этапа рекомендуется разносить во времени, так как известно, что с увеличением времени работы (а для испытуемого тестирование пока еще остается работой в экстремальных условиях с повышенной психоэмоциональной нагрузкой) у тестируемого накапливается усталость, обусловливающая появление ошибок, и как следствие снижается верность оценивания уровня учебных достижений.
Еще одно преимущество такого подхода к организации процесса тестирования заключается в том, что при использовании адаптивных алгоритмов тестирования точнее достигается заданная валидность теста. Большинство алгоритмов КАТ основываются на 1Я,Т-теории, которая допускает. что вся информация, необходимая для отбора заданий, представлена от одного до трех параметров, описывающих трудность задания для индивидов с различными у ровнями достижений. В некоторых случаях при адаптивном тестировании не уделяется должного внимания ровному (включения заданий всех уровней трудностей) прохождению по всем темам или умениям.
На этапе классификации тесты формируются из тестовых заданий различной степени трудности (допускается использование не только адаптивных алгоритмов, но и апробированных тестов, формируемых в строгой последовательности заданий, случайным образом, по возрастанию меры трудности), а число предъявляемых тестовых заданий должно быть не менее 00. Задания должны проектироваться в виде кратких суждений, причем среднее время формирования тестируемым заключения на одно тестовое утверждение не должно превышать 1,5 минут. Оценка достижений тестируемого отображается на 100-балльной шкале.
Второй этап тестовых испытаний (рациональная аттестация) необходим для установления действительного уровня учебных достижений каждого конкретного испытуемого. Поскольку исходный уровень обученности был установлен на первом этапе тестовых проверок, система будет предъявлять испытуемому тестовые задания, мера трудности которых строго соответствует его уровню обученности. Этот этап соответствует процедуре проведения промежуточных проверок. Число заданий в тесте для испытуемого с различным исходным уровнем обученности должно быть не менее 80. Оценка достижении испытуемого отображается на 100-балльной шкале. Верность полученной оценки при выполнении указанных выше условий составит величину 0.85. Для увеличения верности отображения состояния обученности испытуемого увеличивают число заданий в тесте.
Шкала оценивания устанавливается априорно и не изменяется в течение учебного года. Это позволяет объективно сравнивать уровень учебных достижений студентов на различных факультетах или в различных группах.
После проведения текущей и промежуточной проверок результаты тестовых испытаний выводятся на печать. Ошибочные заключения каждого тестируемого на требования тестовых заданий хранятся в системе КАТ в течение необходимого срока.
1. Ваааьсв В. И., Тягунова Т. Н. Философия адаптивного тестирования. М: Наука, 2002. 280 с.
2. Васильев В. И., Тягунова Т. //. Основы культуры адаптивного тестирования. М.: ИКАР. 2003. 183 с.
Несмотря на всё разнообразие, компьютерные тесты часто воспринимаются как бланки, переведенные в цифровой вид. На самом деле у компьютерного тестирования гораздо больше преимуществ: технологии позволяют расширить спектр измеряемых конструктов, оперативно обрабатывать результаты и обеспечивать обратную связь. Мало того, новая форма влияет и на содержание тестирования. Edutainme открывают рубрику, где будут разбираться, какими бывают тесты и как их проводить.
Дмитрий Аббакумов – автор и преподаватель курса «Теория и практика компьютерного тестирования» магистерской программы «Измерения в психологии и образовании» ВШЭ; руководитель Лаборатории адаптивных образовательных технологий ВШЭ.
ЛИНЕЙНЫЕ ТЕСТЫ
Для проведения линейного тестирования созданы сотни (или даже тысячи) инструментов, хотя качественных среди них немного. Сервис Google Forms широко доступен, позволяет рандоминизировать ответы и выгружать данные в формате Excel. При этом в Google Forms не встроены инструменты для психометрического анализа, что затрудняет оценку работоспособности теста. Еще отмечу платный инструмент HT-Line , позволяющий создавать и проводить тесты, а также автоматически анализировать результаты. Кроме этого, сервис рассчитывает статистику, позволяющую сделать вывод о качестве отдельных заданий и теста в целом.
При линейном и рандомизированном тестировании всем участникам попадаются варианты одинаковой сложности: количество простых и трудных заданий для каждого совпадает.
МНОГОСТУПЕНЧАТЫЕ ТЕСТЫ
АДАПТИВНЫЕ ТЕСТЫ
Наиболее совершенным и сложно организованным адаптивным алгоритмом обладает компьютерное адаптивное тестирование. Для каждого испытуемого формируется индивидуальный набор заданий – новые вопросы выбираются в зависимости от ответа на предыдущие. То есть уровень подготовленности студента и ошибка измерения переоцениваются после каждого шага. Обычно тестирование заканчивается, когда достигается максимально возможная точность измерения.
Адаптивные тесты отличаются особой эффективностью. Во-первых, они примерно в два раза короче, чем линейные, во-вторых, позволяют максимально точно оценить уровень подготовки каждого участника. Кроме того, испытуемым не приходится тратить время и силы на слишком простые или слишком сложные задания, что уменьшает влияние дополнительных факторов - утомление, беспокойство, неаккуратность. Участники такого тестирования обычно более мотивированы и спокойны.
Нужно отметить, что для проведения адаптивных тестов часто приходится разрабатывать отдельные алгоритмы для каждого случая. Разработка стоит дорого, но цена оправдывается преимуществами – например, если нужно получить особо точные результаты во время вступительных или выпускных экзаменов.
ОТ ЛИНЕЙНОСТИ К АДАПТИВНОСТИ
В таблице приведена сравнительная характеристика всех четырех рассмотренных алгоритмов. Учитывались следующие критерии: эффективность (баланс точности измерения и количества заданий), надежность и защита от списывания, трудоемкость разработки и реализации (необходимость и сложность сопутствующих исследований, сложность создания программного обеспечения и пр.), стоимость внедрения.
Читайте также: