AI 자동 채점 — 수천 편의 에세이를 AI가 읽고 점수를 매기다
ETS(Educational Testing Service)의 e-rater는 TOEFL, GRE 등의 에세이 채점에 사용되는 AI 자동 채점 시스템이다.
성공 팩트
ETS(Educational Testing Service)의 e-rater는 TOEFL, GRE 등의 에세이 채점에 사용되는 AI 자동 채점 시스템이다. 인간 채점자 2명이 채점하고, AI가 3번째 채점자 역할을 한다. 인간 채점자 간의 점수 차이가 큰 경우 AI 점수가 조정 기준으로 활용된다. e-rater는 문법, 어휘 다양성, 논리 구조, 주제 관련성 등을 분석하며, 인간 채점자와의 점수 일치도(상관계수)는 0.7~0.8 수준으로, 인간 채점자 간 일치도와 유사하다. 수백만 명이 응시하는 대규모 시험에서 채점의 일관성을 유지하고 비용을 절감하는 핵심 도구다.
시너지의 본질
인간 채점자도 피로, 편향, 기분에 따라 같은 답안에 다른 점수를 줄 수 있다. AI 채점의 가치는 "더 정확한 채점"이 아니라 "더 일관된 채점"이다. 수천 명의 채점자가 수만 편의 답안을 채점할 때, AI는 일관성의 기준선(baseline) 역할을 한다.
모듈 시너지
모듈 A(정보 검증): AI 채점은 텍스트의 "형식적 품질"(문법, 구조, 어휘)을 잘 평가하지만, "내용적 깊이"(독창성, 비판적 사고, 창의적 논증)를 평가하는 데는 한계가 있다. 형식은 좋지만 내용이 빈약한 답안이 높은 점수를 받을 수 있다.
모듈 D(논쟁적 주제/의사결정): AI 자동 채점에 대한 반발도 존재한다. "기계가 인간의 생각을 평가할 수 있는가?"라는 교육 철학적 질문이다. AI 채점은 효율성 도구이지, 교육적 평가의 전부가 아니다.
방패 연결
방패 편 S-53(AI가 써 준 가짜 논문으로 채운 연수 보고서) — AI가 쓴 답안을 AI가 채점하는 상황이 이미 현실이다. AI가 생성한 텍스트가 AI 채점에서 높은 점수를 받으면, "학습" 없이 "점수"만 생산하는 시스템이 된다.
→ 본편: 2부 4장 (모듈 A — 정보 검증), 2부 4장 (모듈 D — 논쟁적 주제)