불러오는 중...
학생에게 "이번 시험 80점" 이라고 알려주면, 그 점수는 의외로 많은 정보를 숨깁니다. 쉬운 시험에서 받은 80점과 어려운 시험에서 받은 80점은 전혀 다른 실력을 가리킵니다. 같은 학생이 다른 문항 세트를 풀었을 때 점수가 출렁이는 것도, 실력이 바뀐 게 아니라 문항의 난이도가 달랐기 때문일 때가 많습니다. 원점수는 "학생이 무엇을 얼마나 아는가" 가 아니라 "이번 문항들이 얼마나 쉬웠는가" 에 크게 흔들립니다.
풀림은 원점수 대신 IRT(Item Response Theory, 문항반응이론)의 능력 모수 θ(세타)로 학생의 실력을 추정합니다. IRT 의 핵심 아이디어는 문항의 난이도와 학생의 능력을 같은 축 위에 올려놓는 것입니다. 어려운 문항을 맞히면 능력 추정치가 크게 올라가고, 쉬운 문항을 틀리면 크게 내려갑니다. 단순히 맞힌 개수를 세는 것이 아니라, "어떤 난이도의 문항을 맞혔는가" 를 가중해서 능력을 계산합니다.
이 방식은 시험마다 달라지는 난이도를 자동으로 보정합니다. 어려운 문항 세트를 푼 학생과 쉬운 문항 세트를 푼 학생을 같은 θ 척도 위에서 비교할 수 있습니다. 문항이 바뀌어도 능력 추정치는 일관되게 유지되므로, "지난주 모의고사 θ" 와 "오늘 단원평가 θ" 를 직접 견줘 학생이 실제로 늘었는지 흔들렸을 뿐인지 구분할 수 있습니다. 점수의 출렁임에 휘둘리지 않고 실력의 추세를 봅니다.
θ 추정은 콘텐츠 운영에도 영향을 줍니다. 학생별 풀이 데이터가 환류되면 각 문항의 실제 난이도가 데이터로 다시 매겨지고, 그 난이도가 다음 학생의 θ 추정에 반영됩니다. 출제자가 "이 문제는 중 난이도" 라고 직관으로 적은 라벨이 아니라, 실제로 학생들이 어떻게 풀었는지를 근거로 난이도가 보정되는 것입니다. 이렇게 보정된 난이도는 풀림 인증의 정량 축에도 들어가, 콘텐츠 품질을 데이터로 다시 검증합니다.
학생 입장에서 θ 는 더 정확한 복습 처방으로 이어집니다. 풀림은 θ 추정치를 5박스 Leitner 간격 반복 시스템과 연결합니다. 학생의 능력 대비 너무 쉬운 문항은 복습 주기를 길게 늘리고, 능력 경계에 있는 문항은 더 자주 노출합니다. "이미 아는 것을 또 푸는" 비효율과 "아직 모르는 것을 건너뛰는" 위험을 동시에 줄이는 것이 목표입니다. 점수 한 줄이 아니라 능력 지도를 그려, 다음에 무엇을 풀어야 하는지를 처방합니다.
물론 θ 는 만능 숫자가 아닙니다. 능력 추정에는 항상 측정 오차가 따르고, 푼 문항 수가 적으면 추정치의 신뢰 구간이 넓어집니다. 그래서 풀림은 θ 를 단정적인 등급이 아니라 신뢰 구간을 동반한 추정치로 다룹니다. "이 학생은 몇 등급" 이라고 결과를 단정하는 대신, "현재 능력 추정은 이 범위이고, 더 풀수록 좁아진다" 는 식으로 제시합니다. 측정의 한계를 숨기지 않는 것이 측정을 신뢰하게 만드는 방식입니다.
요약하면, 풀림이 점수 대신 θ 를 쓰는 이유는 단순합니다. 점수는 시험에 달려 있고, θ 는 학생에게 달려 있습니다. 풀림은 학생의 실력을 시험의 난이도와 분리해 재고, 그 측정을 콘텐츠 검증·복습 처방과 한 축으로 묶으려 합니다. 학생에게 보여줄 한 줄은 "이번 시험 80점" 이 아니라 "지난달보다 능력이 이만큼 늘었고, 다음은 이것을 풀면 된다" 입니다.
브랜드 · 인증 · 도입 · 운영에 대한 풀림 팀의 글 전체를 봅니다.