いま、求められるテストとは？～テストの科学～項目反応理論（IRT）を活用したテスト品質向上の取り組み～ : 富士通ラーニングメディア

テクノロジー

みなさん、こんにちは。
富士通ラーニングメディアの田中です。
私は普段、UNIX / Linuxやクラウドコンピューティング、ビッグデータなどの分野の研修の講師を担当しています。
さらに、「テスト品質向上プロジェクト」のメンバーの一人として、よりよいテストを提供するために活動しています。

今月は、「テスト問題の品質」というテーマでお話をしています。
今回はPDCAの"C"の作業である、テストの妥当性確認の中で、私が取り組んでいる「項目反応理論」を活用したテストの評価とその改善についてご紹介します。

＜なぜ、テスト1問1問に目を向ける必要があるのか＞

前回のコラムでご紹介したように、弊社ではテスト開発プロセスに沿って、何段階ものチェックを経てテストをご提供していますが、テスト実施後、受講者の解答結果を見た講師から次のような話を聞くことがありました。

「理解度の高い人ほど解けていない問題がある」

そこで、テストを提供・実施した後も、「意図に沿った問題であったのか」「品質面で問題はなかったのか」「難易度は適切であったのか」など、妥当性を確認するため、受験者の解答データを活用し、チェックおよび改善を行っています。

テストの受験者の解答データを活用し、テスト問題を評価する方法は様々あります。
S-P表といったものもありますが、今回は項目反応理論（IRT：Item Response Theory)と呼ばれる手法を活用したテスト品質の評価を紹介します。

右図は、あるテスト問題の1問を取り上げ、受講者の解答結果を基に作成した2次元グラフです。

グラフの見方の詳細は後ほど説明しますが、このグラフを分析してみると、この問題は、テスト全体の成績がよい受講者ほど、正答率が低くなる傾向にあることがわかります。たとえば、テスト問題の表現があいまいのため、受験者が「別の選択肢も正しい可能性があるのではないか？｣と惑わされる傾向がある問題の場合、このような結果が見られます。

もうひとつ、右図のグラフを見てみましょう。

この問題は、理解度が低い人も高い人も、正答率が30%から50%の範囲にとどまっています。つまり、この問題が解けたからといって、その人が問題で取り上げている事柄について理解しているかどうかがわかりにくい問題になっています。「問いたい事柄を理解しているかどうか」を明確に判断するためのテストとして、この問題を活用したい場合には、あまりよい問題とはいえません。

このような、テストの各問題の特徴は、テスト全体の平均点を見ているだけではわかりません。
また、問題ごとの正答率を算出しても、「どのような人が」その問題に正解したのか、不正解だったのかはわかりません。
よりよいテストを提供するためには、このような課題を改善していく必要がありますが、事前のレビューや平均点・正答率といったデータだけでは検出することが困難です。

そこで、私たちはその検出のために、項目反応理論という手法を用いています。

＜項目反応理論とは＞

項目反応理論は、テスト結果をもとに、テスト全体や各問題の妥当性を示すので、テストが目的に対して適切かの見極めに活用できます。

広く実施されているITや、語学に関するテストでも、項目反応理論に基づいて難易度の調整や問題の改善が行われています。
項目反応理論の詳細については、Webや書籍でさまざまな情報が得られますので、興味があれば調べてみてください。

項目反応理論ではテストに関するさまざまな情報が得られますが、現在のところ私たちは、「項目特性曲線」と呼ばれるグラフをもとに、改善すべき問題の検出と難易度の識別を行っています。
先ほどご紹介した2つの図も、実は、項目反応理論の手法の一つである、「項目特性曲線」と呼ばれるグラフです。

項目特性曲線は、横軸に受験者の「理解度」、縦軸に問題の正答率をとった2次元のグラフで表されます。（理解度の値が高いほど、成績が優秀であることを示します）
横軸と縦軸を合わせて見ることで、「これくらいの能力がある人がこの問題に正解する確率は何%である」ということが、各問題についてわかります。
ここでいう理解度とは、テスト全体や各問題で取り上げている事柄についての理解度と考えてください。

この項目特性曲線の算出にはR言語というオープンソースの統計解析環境を使用しています。
このグラフの形を見て、改善すべき問題の検出と難易度の識別を行っています。

＜項目特性曲線を活用したテストの妥当性確認＞

では、具体的にはどのように、グラフの形から改善すべき問題を検出しているのでしょうか。
項目特性曲線は、一般的に理解度0の近辺で正答率が50%を越えるような、S字のカーブが望ましいとされています。

正答率が50%を越える位置が右側に寄っていれば、その問題の難易度が高い、左側に寄っていれば難易度が低いことがわかります。
また、S字の形から外れて、直線に近い形だったり、逆S字になっているような曲線になる問題は、能力差を適切に測定できない問題であるということができます。
そのような問題の問題文や選択肢を見ると、先ほど挙げたようなあいまいさや、不適切な表現が含まれていることが多いので、それらを改善していきます。

このように、私たちはテストの結果をもとに視覚的に改善すべき問題を検出できる仕組みを整え、テストの継続的改善につとめています。
加えて、さまざまな難易度の問題を組み合わせて、受講者の理解度をきめ細かく把握できるテスト問題にしています。

前回と今回の2回にわたり、レビューと統計手法による分析、という異なる視点でのテスト問題改善の取り組みをご紹介しました。
私たちは、品質の高いテストを効率的に提供するために、レビュープロセスの改善やレビュアーの育成、新しい分析手法の調査に常に取り組んでいます。
これからもこれらの取り組みを続け、受講者のみなさまが、研修の結果を客観視し、次の取り組みテーマが見出せるようなテストを提供していきたいと思ってっています。

今月は「テスト問題の品質」というテーマでお話してきましたが、次回はいよいよ最終回です。お楽しみに！

(2013/03/21)

前の記事へ

次の記事へ