主成分分析とは、統計学上のデータ解析手法のひとつで、たくさんの量的な説明変数を、より少ない指標や合成変数(複数の変数が合体したもの)に要約する手法を指します。
この要約は「次元の縮約」という表現で呼ばれることもあります。要約した合成変数のことを「主成分」と呼びます。
わかりやすく言えば、たくさんの次元(指標)のデータから、全体をわかりやすく見通しの良い1~3程度の次元に要約していくことです。
たとえば、身長と体重という2次元から、BMI(ボディマス指数)という肥満度を表す1次元の指標に要約するのが主成分分析、と言えばイメージしやすいとされています。
ビッグデータは多変量、多次元であるためそのままでは理解しにくいですが、主成分分析を行うことにより、データの持つ情報をできる限り損なわず、かつデータ全体の雰囲気を可視化し、誰もが理解しやすい形にすることが可能です。
たとえば、10科目のテストを実施している学校があるとしましょう。テスト結果を分析する際、ある教科の点数と別の教科の点数は単純に比較できません。平均点も違えば、点数分布も違うからです。
このとき主成分分析を行えば、第1主成分に総合成績、第2主成分に文系科目/理系科目という指標で、各学生の能力を可視化できます。ある学生の総合的な学力がどのくらいなのか、文系と理系のどちらの能力が高いのかが一目瞭然になります。
まとめ
集計しただけのアンケートでは見えない情報・データも主成分分析を利用することによって見えてくるので、データの利用をする際には主成分分析を行うことが非常に重要になります。以上、主成分分析の用語説明でした。