임용고시/영어교육론

중등임용영어 Ch.13 Assessment 평가 개념 완전 정복

obangti 2026. 5. 17. 13:48

Ch.13 Assessment — 평가 개념 완전 정복 | 임용영어 개념 정리

Ch.13 Assessment는 용어를 많이 아는 것보다 발문 속 조건이 어떤 assessment quality를 건드리는지 잡는 챕터다. 비용·시간이면 Practicality, score consistency면 Reliability, intended construct와 task의 대응이면 Validity로 간다.

이 글은 ① 개념 정의② 기출 맥락③ 키텀 비교④ 답안 작성 팁 순서로 정리한다. 한국어 풀이를 붙이되, 시험장에서 그대로 써야 할 academic key terms는 영어로 유지했다.


① 개념 정의

1) Assessment Qualities — Practicality, Reliability, Validity

  Practicality Reliability Validity
핵심 test를 만들고 administer할 수 있는가 consistent and dependable results measures what it is supposed to measure
대표 단서 financial limitation, time constraint, ease of administration test-retest, equivalent-forms, split-half, inter-rater, intra-rater, internal consistency content, face, construct, criterion-related
답안 방향 "reasonable amount of time and resources" "score consistency is threatened/maintained" "task represents or fails to represent the intended construct"
함정 quality가 좋아도 운영 불가능하면 낮음 Reliability가 높아도 Validity가 자동 보장되지는 않음 "좋아 보이는 test"가 아니라 construct와 use가 맞아야 함

2014 기입10 — reliability, validity, washback 맥락 출제 확인
2023 A-1 — practicality, test usefulness, language assessment 맥락 확인
2025 A-1 — rater consistency와 reliability 유지 방법 맥락 확인

예를 들어 speaking performance를 두 교사가 채점했는데 같은 learner에게 다른 score를 주면 inter-rater reliability가 흔들린다. 같은 교사가 오전과 오후에 기준 없이 다른 점수를 주면 intra-rater reliability가 문제다. 반대로 scoring은 매우 일관적인데 speaking construct를 pronunciation과 grammar만으로 좁혀 버리면 construct validity가 약해진다.

답안 패턴: The assessment lacks/has [quality] because [specific condition] threatens/supports [score consistency / construct representation / practical administration].


2) Validity Types — content, construct, face, criterion-related

Content validity는 assessment content가 course objective와 domain을 representative하게 sample하는 정도다. Pronunciation test가 isolated sounds만 묻고 stress, intonation, sounds within words를 다루지 않으면 content validity가 낮다.

Construct validity는 assessment instrument가 정의된 theoretical construct를 제대로 측정하는 정도다. Oral interview의 intended construct가 communicative speaking ability인데 pronunciation과 grammar만 scoring하면 construct가 너무 좁아진다. 2026 A-8에서는 test specifications와 item alignment가 construct validity 판단의 근거로 확인된다.

Face validity는 test-taker가 test를 "right"하고 적절하다고 받아들이는 정도다. Familiar task, clear direction, course work와의 관련성, doable time limit이 단서다. 단, face validity는 주관적 judgement이므로 content/construct validity와 같은 증거로 쓰면 안 된다.

Criterion-related validity는 새 test score가 이미 확립된 criterion과 어느 정도 관련되는지 본다. 같은 시점에 두 test를 시행해 correlation을 보면 concurrent validity, 일정 시간 뒤의 future performance나 criterion을 예측하면 predictive validity다.

2011 Q24 / 2012 Q24 / 2013 Q24 / 2017 기입8 / 2019 기입7 / 2026 A-8 — validity 유형 및 construct alignment 맥락 확인

함정: "학생들이 test를 적절하다고 느낀다"는 face validity 단서이지 construct validity 단서가 아니다. "출제 범위가 수업 목표를 대표한다"는 content validity, "theory of the trait와 scoring이 맞는다"는 construct validity다.


3) Authenticity and Interactiveness

Authenticity는 test task의 characteristics가 target language use task의 features와 대응하는 정도다. Natural language, contextualized items, meaningful/relevant topics, thematic organization, real-world tasks가 반복 단서다.

Interactiveness는 test task 수행에 learner의 individual characteristics가 얼마나 관여하는지다. language knowledge, metacognitive strategies, topical knowledge, affective schema가 실제로 동원되면 interactiveness가 높다.

예를 들어 "친구와 기억에 남는 경험을 말하는 role play"는 실생활 대화 주제와 목적이 있어 authenticity 단서가 강하다. 여기에 learner가 topical knowledge를 조직하고, 상대방 반응에 맞춰 language knowledge를 쓰고, 긴장이나 자신감 같은 affective schema까지 관여하면 interactiveness도 높아진다.

2012 Q25 — portfolio와 authentic assessment 맥락 확인
2018 기입8 / 2025 A-9 — authenticity, interactiveness, item clarity 맥락 확인

함정: Authenticity는 task와 target language use의 대응이고, Interactiveness는 learner characteristics의 관여다. "실생활 같다"만으로 interactiveness를 설명하면 논거가 비어 보인다.


4) Washback — test가 수업과 학습을 바꾸는 방식

Washback effect는 testing이 teaching과 learning에 미치는 영향이다. Test가 수업 내용, learner preparation, teacher feedback을 바꾸면 washback을 묻는다고 보면 된다.

Beneficial washback은 useful diagnoses와 specific feedback에서 나온다. Learner가 strengths and weaknesses를 알고 다음 목표를 잡을 수 있으면 formative하게 작동한다. 반대로 simple letter grade만 던지면 learner가 무엇을 고쳐야 하는지 알기 어렵고, high-stakes test가 수업을 test-taking practice로만 몰아가면 negative washback이 생길 수 있다.

2014 기입10 / 2017 기입8 / 2018 기입7 / 2022 A-1 — washback, validity, formative, high-stakes test 맥락 확인

답안 패턴: The test produces positive/negative washback by making the teacher/learners [change in instruction or preparation], especially through [specific feedback / narrow test preparation / useful diagnosis].


② 기출 맥락

Assessment는 "정의 쓰기"보다 "주어진 classroom assessment를 보고 quality, test type, scoring problem을 판별하기"로 나온다. 확인된 기출 맥락은 다음처럼 묶을 수 있다.

자주 출제된 포인트

  • 2010 Q24 / 2012 Q23 / 2015 서술2 / 2018 서술2 / 2025 A-1: Reliability, 특히 rater consistency, inter-rater reliability, rater training
  • 2010 Q25 / 2011 Q25 / 2014 기입11: Norm-referenced testing vs Criterion-referenced testing
  • 2010 Q26 / 2015 기입8 / 2019 서술6: Diagnostic test, Placement test, Proficiency test, Formative assessment 구분
  • 2010 Q29 / 2011 Q26 / 2016 서술6 / 2018 서술6 / 2021 논술2 / 2025 논술2: Portfolio, Self-assessment, feedback, self-regulation
  • 2014 서술6 / 2020 서술2 / 2021 논술2 / 2023 B-11 / 2024 기입6: item analysis, rubric, analytic scoring, selected-response item guidelines
  • 2026 B-10: task-based language test와 story-based writing assessment 설계 차이 맥락 확인

답안 작성 형식

Assessment 답안은 대부분 다음 구조로 간다.

The problem is related to [assessment term] because [evidence from the task].
This threatens/supports [score consistency / construct representation / feedback use / classroom feasibility].

또는 비교형이면:

[A] is [term A] because it [criterion A].
[B] is [term B] because it [criterion B].

현직쌤 팁: "평가가 좋다/나쁘다"로 쓰지 말고, 무엇이 흔들리는지를 영어 key term으로 찍어야 한다. consistency면 reliability, representativeness면 validity, learner에게 돌아가는 diagnostic information이면 washback/formative feedback이다.


③ 키텀 비교

Formative vs Summative

  Formative assessment Summative assessment
시점 instruction 과정 중 course end
목적 ongoing and further development what learners have learned
feedback specific feedback, learning goal adjustment final achievement documentation
대표 단서 conferencing, draft comments, portfolio review final exam, course-end score

2011 Q29 / 2018 기입7 / 2019 서술6 — formative assessment와 feedback 맥락 확인

함정: Formal assessment가 항상 summative는 아니다. Portfolio assessment처럼 planned and systematic이면서 formative하게 쓰일 수 있다.


Norm-referenced vs Criterion-referenced

  Norm-referenced testing Criterion-referenced testing
기준 다른 test takers와 비교 mastery criterion 또는 course objective
score 해석 rank order, percentile, relative standing specific course/lesson objectives에 대한 progress
classroom use 선발·서열화 맥락 qualitative feedback, learning goals 확인

2010 Q25 / 2011 Q25 / 2014 기입11 — 두 유형 비교 출제 확인

한 줄 구분: "몇 등인가"는 Norm-referenced, "목표를 얼마나 달성했는가"는 Criterion-referenced.


Direct vs Indirect / Discrete-point vs Integrative

Direct testing은 test-taker가 target task를 실제로 수행하게 한다. Oral production을 측정하려면 learner가 target words를 실제로 발음하게 하는 방식이 direct다.

Indirect testing은 관련 task를 통해 target ability를 추정한다. Written word list에서 stressed syllable을 표시하게 하는 것은 oral production 자체를 수행하는 것이 아니므로 indirect다.

Discrete-point assessment는 language를 component parts로 나누어 one point at a time 측정한다. Integrative assessment는 여러 skills나 components가 함께 작동하는 overall proficiency를 본다. Cloze test는 vocabulary, grammar, discourse structure, reading skill, expectancy grammar가 함께 작동하므로 integrative 단서가 된다.

함정: Direct/indirect는 "target task를 실제로 수행하느냐"의 문제이고, discrete/integrative는 "몇 개의 language component를 함께 보느냐"의 문제다.


Purpose-based Tests

Test type 핵심 기능 발문 단서
Proficiency test prior instruction과 무관한 overall language mastery not linked to a particular course
Placement test learner를 appropriate level or section에 배치 group/level placement
Diagnostic test strengths and weaknesses 파악 diagnose needs to work on imminently
Achievement test 특정 course, textbook, programme의 learning outcome 확인 directly related to classroom lessons
Aptitude test future success in language learning 예측 capacity/general ability to learn

2010 Q26 / 2015 기입8 — diagnostic, placement, proficiency 구분 확인


④ 수험 활용 팁

Portfolio, Self-assessment, Peer assessment

Portfolio는 learner work의 purposeful collection으로 efforts, progress, achievements를 보여 준다. 핵심은 "작품 모음" 자체가 아니라 learner involvement, self-assessment, responsibility, autonomy, teacher-student interaction이다.

Self-assessment는 learner가 completed language learning task나 language use success를 점검하는 방식이다. Metacognitive strategy와 연결되며 learner autonomy와 intrinsic motivation을 촉진할 수 있다. 단, checklist가 모호하면 "좋았음/어려웠음" 수준의 impression으로 흐르므로 구체적 criteria와 conferencing이 필요하다.

Peer assessment는 writing revising stage에서 peers가 comments, questions, suggestions를 제공하는 방식으로 설명된다. Cooperative learning, audience awareness, feedback literacy와 연결되지만, criteria를 모델링하지 않으면 reliability가 흔들릴 수 있다.

2010 Q29 / 2011 Q26 / 2016 서술6 / 2018 서술6 / 2025 논술2 — portfolio, self-assessment, feedback 맥락 확인


Holistic vs Analytic Scoring

Holistic scoring은 composition as a whole에 대한 overall impression으로 single score를 준다. Fast evaluation, high inter-rater reliability, easy interpretation이 장점이지만, diagnostic information이 약해 washback이 제한될 수 있다.

Analytic scoring은 performance features를 따로 rating하고, 필요하면 different weights를 준다. 시간이 더 걸리지만 strengths/weaknesses를 보여 주고, teacher의 instruction planning과 learner의 revision에 specific feedback을 제공한다.

2021 논술2 / 2024 기입6 — rubric, feedback, writing assessment, analytic scoring 맥락 확인

답안 패턴: Analytic scoring is more appropriate because it separates [components] and provides specific diagnostic feedback on learners' strengths and weaknesses.


Selected-response Item Guidelines

Selected-response items는 multiple-choice, true/false, matching처럼 ready-made list에서 answer를 고르는 item이다. Declarative knowledge나 beginning level learner 평가에는 practical하고 reliable할 수 있지만, guessing과 distractor quality 문제가 생긴다.

Multiple-choice item에서 자주 보는 guideline은 세 가지다.

  1. Stem은 concise and simple해야 한다.
  2. 하나의 clearly formulated problem만 물어야 한다.
  3. Distractors는 같은 grammatical/semantic category에 속해야 하며, 정답을 아는 학생을 속이기보다 모르는 학생을 끌어들이는 plausible alternatives여야 한다.

2023 B-11 — selected-response item guideline 맥락 확인
2014 서술6 / 2020 서술2 — item analysis, item discrimination, Cronbach's alpha 맥락 확인

함정: 어려운 item이 좋은 item은 아니다. Item facility는 정답률과 관련되고, Item discrimination은 high-ability와 low-ability examinees를 구분하는 정도다.


직접 풀어보기

OX 20문항 — 위 개념을 읽은 뒤에는 "정의 암기"가 아니라 발문 조건을 보고 어떤 quality, test type, scoring issue인지 바로 찍는 연습을 하자.

📝 [Assessment] OX 20문항 풀러 가기 →