영어 평가 문항 제작을 위한 AI 프롬프팅 전략

영어 교사들의 업무 중 가장 시간을 많이 소모하는 일 중 하나가 평가 문항 제작이다. 문제는 단순히 만들기만 해서는 안 되고, 학생들의 실제 언어 능력을 정확히 측정하면서도 교육과정의 목표를 충실히 반영해야 한다는 점이다. 최근 인공지능 기술의 발전으로 이런 부담을 덜 수 있는 가능성이 열렸지만, 많은 교사들이 AI에게 어떻게 지시해야 효과적인 평가 문항을 얻을 수 있는지 어려움을 겪고 있다.
AI에게 어떻게 말해야 할까?
"AI야, 영어 문제 좀 만들어줘"라고 요청하면 어떤 결과가 나올까? 아마도 너무 일반적이거나 교육적 가치가 떨어지는 문항일 가능성이 크다. AI가 교사의 의도를 정확히 파악하고 교육적으로 가치 있는 평가 문항을 만들어내려면, 구체적이고 체계적인 지시가 필요하다.
목적부터 명확히 하기
효과적인 평가는 명확한 목적에서 시작된다. Anderson과 Krathwohl(2001)이 개정한 Bloom의 분류학에 따르면, 교육 평가는 다양한 인지적 수준을 측정해야 한다. AI에게 평가의 목적과 대상 학생 수준을 명확히 알려주는 것이 첫 단계다.
이렇게 시작해보자.
고등학교 2학년 학생들을 위한 형성평가 영어 문항을 만들어주세요.
이 평가의 목적은 학생들의 비판적 독해 능력을 확인하고, 추가 지도가 필요한 영역을 파악하는 것입니다.
단순히 "영어 문제"를 요청하는 것보다 훨씬 구체적이다. 학년, 평가 유형, 구체적인 목적까지 명시했기 때문에 AI는 이 맥락에 맞는 문항 생성에 집중할 수 있다.
인지적 수준 분배하기
모든 문항이 단순 암기나 기초적인 이해만 측정한다면, 학생들의 고차원적 사고력을 평가할 수 없다. Brookhart(2010)는 평가에서 다양한 인지적 수준을 포함하는 것의 중요성을 강조했다. AI에게 다음과 같이 지시해보자:
다음 인지 수준에 맞춰 문항을 분배해주세요:
- 기억/회상: 20% (단순 사실이나 정보 회상)
- 이해: 30% (의미 파악, 주요 아이디어 식별)
- 적용: 30% (학습한 내용을 새로운 상황에 적용)
- 분석/평가: 20% (텍스트 요소 간 관계 분석, 논증 평가)
이렇게 하면 단순 암기식 문항에 치우치지 않고 다양한 사고력을 측정하는 균형 잡힌 평가를 구성할 수 있다.
텍스트 난이도 조절하기
독해 문항의 경우, 텍스트 자체의 난이도가 적절해야 한다. 너무 쉬우면 변별력이 떨어지고, 너무 어려우면 학생들의 실제 능력을 제대로 측정할 수 없다. Fisher와 Frey(2014)는 학습자의 근접 발달 영역(ZPD)에 맞는 텍스트가 가장 효과적이라고 강조한다.
다음 조건에 맞는 읽기 지문을 만들어주세요:
- 길이: 약 300-350단어
- 문장 구조: 중간 수준 (문장당 평균 15-20단어)
- 어휘 수준: 고등학교 2학년에 적합한 학술적 어휘 포함
- 주제: 환경 보전과 경제 발전의 균형
- 구조: 원인-결과 형식으로 논증 전개
이렇게 구체적인 지침을 제공하면 학생들의 수준에 맞는 적절한 난이도의 지문을 얻을 수 있다.
다양한 문항 유형 요청하기
언어 능력은 복합적이므로 다양한 문항 유형을 통해 평가해야 한다. Bachman과 Palmer(1996)는 언어 평가에서 다양한 문항 유형의 중요성을 강조했다. 다음과 같이 다양한 문항 유형을 요청해보자.
다음 유형의 문항을 각각 만들어주세요:
1. 주제/요지 파악 문항 (글의 중심 생각 식별)
2. 세부사항 이해 문항 (중요한 세부 정보 찾기)
3. 추론 문항 (명시적으로 언급되지 않은 정보 추론)
4. 어휘 문항 (문맥 속에서 단어의 의미 파악)
5. 글의 구조 파악 문항 (논리적 구성 이해)
이렇게 하면 독해력의 다양한 측면을 종합적으로 평가할 수 있다.
단계별 사고 과정 유도하기
AI가 문항을 개발할 때 체계적인 사고 과정을 거치도록 안내하면 더 질 높은 문항을 얻을 수 있다. 이는 Sweller(1988)의 인지 부하 이론에서도 복잡한 과제를 단계별로 처리하는 것의 중요성을 강조한 바 있다.
각 문항을 개발할 때 다음 단계를 따라주세요:
1. 평가 목표 설정: 이 문항이 측정하고자 하는 구체적인 능력은?
2. 문항 구성: 명확하고 간결한 발문 작성
3. 오답 보기 설계: 학생들의 일반적인 오개념을 반영한 그럴듯한 오답
4. 검증: 정답이 하나만 있고 명확한지 확인
이러한 단계적 접근은 AI가 더 체계적으로 문항을 개발하도록 도와준다.
문화적 맥락 고려하기
효과적인 영어 평가는 학생들의 문화적 배경을 고려해야 한다. Gay(2018)의 문화반응적 교육 이론에 따르면, 학생들의 문화적 배경을 고려한 교육과 평가가 더 효과적이다. 한국 학생들을 위한 평가라면 다음과 같이 입력해 보자.
다음 문화적 요소를 고려해주세요:
- 한국 학생들에게 친숙한 맥락 사용
- 서구권 특정 문화 지식을 요구하는 내용 지양
- 한국 교육과정과 연계된 주제 선택
- 한국 학생들의 언어적 특성(예: 관사, 전치사 사용의 어려움)을 고려한 문항 설계
이렇게 하면 불필요한 문화적 장벽 없이 순수한 언어 능력을 평가할 수 있다.
실제 적용 예시
이러한 원칙들을 종합해 보면, 효과적인 AI 프롬프트는 다음과 같을 수 있다:
고등학교 2학년 학생들의 분석적 독해 능력을 평가하기 위한 형성평가 문항을 개발해주세요.
기후 변화가 농업에 미치는 영향에 관한 300단어 내외의 설명문을 작성하고, 다음 인지 수준에 따라 5개 문항을 만들어주세요:
- 이해력 문항 (1개): 주요 아이디어 파악
- 적용력 문항 (2개): 텍스트 정보를 새로운 상황에 적용
- 분석력 문항 (2개): 원인-결과 관계 분석, 논증 평가
각 문항은 4개의 선택지를 포함하고, 오답은 일반적인 오해를 반영하도록 설계해주세요.
한국 학생들에게 친숙한 농업 사례를 포함하고, 지역 환경 맥락을 고려해주세요.
이러한 상세한 프롬프트는 Wiggins와 McTighe(2005)의 '역방향 설계' 원리를 반영한다. 즉, 먼저 학습 목표를 명확히 하고, 이를 측정할 수 있는 평가 방법을 설계하는 것이다.
평가 개선을 위한 추가 전략
더 정교한 평가를 위해 Mislevy 등(2003)이 제안한 '증거 중심 설계(ECD)' 접근법을 활용할 수 있다. 이 방법은 평가하려는 구인(construct), 이를 보여주는 증거, 그리고 이 증거를 이끌어내는 과제 간의 명확한 연결을 강조한다.
다음 증거 중심 설계 프레임워크에 따라 문항을 개발해주세요:
- 학생 모델: 문맥에서 함축된 의미를 추론하는 능력
- 증거 모델: 학생이 텍스트에 명시적으로 언급되지 않은 결론을 도출할 수 있음
- 과제 모델: 여러 단락의 정보를 통합하여 추론해야 하는 상황 제시
교사의 역할과 책임
AI가 문항 제작을 도울 수 있지만, 최종적인 검토와 조정은 교사의 몫이다. Hughes(2003)가 강조했듯이, 좋은 평가는 교육적 맥락과 학습자에 대한 깊은 이해를 바탕으로 한다. AI가 생성한 문항을 비판적으로 검토하고, 필요에 따라 수정하는 과정이 반드시 필요하다.
마치며
AI를 활용한 영어 평가 문항 제작은 교사의 업무 효율성을 높이고 더 다양하고 질 높은 평가를 가능하게 한다. 하지만 성공의 열쇠는 AI에게 얼마나 명확하고 체계적인 지시를 내리느냐에 달려 있다. 구체적인 목표, 다양한 인지 수준, 적절한 난이도, 문화적 맥락 등을 고려한 프롬프트를 통해 교육적으로 가치 있는 평가 문항을 얻을 수 있다.
교사로서 AI를 단순한 도구가 아닌 교육적 동반자로 활용한다면, 학생들의 학습을 더 효과적으로 지원하는 평가 시스템을 구축할 수 있을 것이다.
참고문헌
- Anderson, L. W., & Krathwohl, D. R. (Eds.). (2001). A taxonomy for learning, teaching, and assessing: A revision of Bloom's taxonomy of educational objectives. Longman.
- Bachman, L. F., & Palmer, A. S. (1996). Language testing in practice: Designing and developing useful language tests. Oxford University Press.
- Brookhart, S. M. (2010). How to assess higher-order thinking skills in your classroom. ASCD.
- Fisher, D., & Frey, N. (2014). Close reading and writing from sources. International Literacy Association.
- Gay, G. (2018). Culturally responsive teaching: Theory, research, and practice (3rd ed.). Teachers College Press.
- Hughes, A. (2003). Testing for language teachers (2nd ed.). Cambridge University Press.
- Mislevy, R. J., Almond, R. G., & Lukas, J. F. (2003). A brief introduction to evidence‐centered design. ETS Research Report Series, 2003(1), i-29.
- Sweller, J. (1988). Cognitive load during problem solving: Effects on learning. Cognitive Science, 12(2), 257-285.
- Wiggins, G., & McTighe, J. (2005). Understanding by design (Expanded 2nd ed.). ASCD.
송세훈 작가, '메타프롬프트-창의적 AI프롬프팅' 저자
송세훈 기자 (작가. '메타프롬프트-창의적 AI프롬프팅' 저자/ soundfury@naver.com)