tech::hexagram

personal note for technical issue.

統計検定2級に受かったのでやったことを全部書く

1ヶ月ほど前の6月17日に、 統計検定2級 を受けてきた。

自己採点で34問中31問正解だったので、マークミスさえなけりゃ大丈夫と踏んでいたが、昨日試験結果の通知が書面で届き、無事合格確定となった。

f:id:manji602:20180719214401j:plain

f:id:manji602:20180719214414j:plain

ありがたいことに、最優秀成績賞なるものも合わせて頂いた。賞状をもらうのも学生時代以来で、承認欲求を満たせて良い。たまに資格試験を受けるのもよいのかもしれない笑

極めて優秀な成績を修めた受験者にS、特に優秀な成績を修めた受験者にAの評価を与えました。

とあり、受験番号と照らし合わせて確認したところ今回頂いた表彰状はS評価らしい。

受験データ を見る限りだと、1532人の受験者の中669人が合格で、自分と同様にS評価を受けたのは31人(Web合格発表希望者のみ)とのことだった。 S評価を受けた総数(Web合格発表希望者以外も含めた)を50人と見積もると、統計検定は100点満点で採点されているとの情報をチラッと見かけたので、概ね90点ないし80点後半を獲得した受験者が対象になりそうという推測ができる。

受験を考えたきっかけ

今年に入ってから、業務上いわゆるビッグデータの類を扱うことが増えた。詳細を書くことは控えるが、ここ半年ほどビッグデータの中からある特徴を持ったデータを効率よく見つけられるようにしたいという問題に取り組んでいる。

取り組み始めた当初、データの分布・特性というものをよく理解していないままよく使われている手法に飛びついて解決を試みようとした。特定するために必要なパラメーターを選んだり、特定するためのロジックを検討したりする上で統計の知識がないときついと思う場面が多々あった。

例えばマハラノビス距離を例として1つとってみよう。マハラノビス距離は各パラメーターの平均と、パラメーター間の共分散を元に正規化した距離を計算することになる。距離が極めて大きいデータを異常値として検出することが可能になるが、これは各パラメーターが等しく正規分布に従っている時でなければ欲しい集団を安定して検出することが難しい。

業務ではこの距離の算出に利用するパラメーターをそういった視点で選ばずに、直感で選んでいた。そしてただ闇雲にいくつかのケースに適用してああでもない、こうでもないと検討しながら半ば無為な時間を過ごしていた。そしていくつかの検討の後に上述の事実に気付かされた。とにかく最短ルートで解決を試みようとする姿勢でいると、そういった側面に気づくのが遅れるのがデータ分析だと痛感した。

それ以降、手法の検証に移る前に対象となるデータがどういった分布や特性を持っているか、ということを深く洞察してから手法の検討に入るようにしようと心がけている。

こういった内容を勉強したり扱っていく上で、まずは統計の基礎をやり直さないと体系的な知識をもとに適切な判断をすることは難しいと考えた。そのため、仕事の片手間で勉強を始め、せっかく勉強するのだから勉強の成果を形にしたいと思い、今回この資格試験を受けることにした。

勉強したこと

統計検定2級 の概要ページを見ると、試験内容については下記のように記述されている。

大学基礎課程(1・2年次学部共通)で習得すべきことについて検定を行います。

大学時代、実は統計の講義を履修していて、その時に利用していた教科書が8割方の試験範囲を網羅していた。

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

そこで、この教科書を最初から読み進めていった。章ごとに練習問題も用意されているので、それらをほぼ何も見ない状態で解けるところまで反復して取り組んだ。

一度読み終えたところで、理解半分くらいの状態で一度無謀にも過去問を解いてみると、19/34くらいで合格ギリギリか不合格なラインだった。その後 出題範囲表 を見ると、「統計学入門」に乗っていない項目が各カテゴリごとに少しずつあることがわかった。

具体的な項目はざっと挙げる限りだと以下。かなりある。

  • 箱ひげ図・幹葉図・四分位範囲
  • ローレンツ曲線・ジニ係数
  • カイ二乗
  • 変動係数・指数化・標準誤差
  • 標本の抽出方法
  • フィッシャーの三原則
  • 分散分析表
  • 母比率の区間推定(1つの母集団 / 2つの母集団)
  • 多重共線性
  • 非標本誤差
  • 実験研究・観察研究

これらをググりながらノートにまとめつつ、また物によってはインターネット上にある練習問題などを解きながら理解を深め、出題範囲表の内容を網羅していった。

最後に過去問をあるだけ解いた。統計検定の公式サイトには確認する限りだと2級の試験問題・解答が4回分載っていた。 それらを週末に分散して解き進め、出題の傾向と対策を掴んでいった。

ざっくりとした問題の構成は、以下の5つに分類されると考えている。

  • データの分布に関する問題
    • ヒストグラム・箱ひげ図・散布図などを読み解いてデータの特性を掴む
  • 確率に関する問題
  • 分布に関する問題
    • 正規分布・指数分布あたりは頻出
    • 基礎的な部分だけでなく、問題文から線形変換などを読み解く必要もある
  • 標本分布・推定・仮説検定に関する問題
    • ここは手を変え品を変えほぼ固定で出てくる
  • 回帰分析に関する問題
    • プログラムによる出力を元に問題が過去かなりの回数出ていた(今回は出なかったが)
    • 各ラベルがどういった値を出力しているかの見方にコツが必要

ここに分類されない問題ももちろんあって、単発の語彙や事例に関する問題であったり、出題範囲に直接記載されていない指標や用語(もちろん問題文にはヒントがある)を元にした問題もいくつか見受けられた。

資格試験受験を通じて感じたこと

まず第一に、社会人になると勉強する時間を確保するのが非常に大変だということ。 平日だと仕事前に早起きして勉強の時間を確保するか、仕事後に諸々の家事を済ませた後勉強の時間を確保するかしかないし、休日は平日やり残した家事を済ませたりするとそれだけで半日くらい経つので、土日のうち片方でも1日丸々遊んでいるとそれだけで勉強時間は半日以下しかとれない。

勉強ノートを見る限りだと、勉強を開始したのが2018年3月10日からなので3ヶ月程度は受験に向けた準備にかかっていた。

f:id:manji602:20180719222239j:plain

ざっと期間毎に勉強していた内容を振り返ると、

  • 3/10〜4/21: 「統計学入門」読み進め
  • 4/22〜5/31: 過去問を1回分解く、その後出題範囲表をもとに「統計学入門」で網羅されていない単語・分野の落穂拾い
  • 6/1〜6/16: 過去問を3回分解いて更に弱点を潰す

といったところ。学生時代だったら同じ分量の勉強をもっと短い期間で準備できただろうと思う。

そして次に、計算力だったりスピードは中高時代に比べて圧倒的に劣化しているということ。 確率の計算でああれ分布の計算であれ、標本平均・分散の計算であれとにかく色んな所でミスる。頭の空で考えて計算した内容を紙に書き写すと微妙に間違えていたりして愕然とする。年をとるということはこういうことらしい…

やはり日常的に計算だったり手を動かして数式を整理したりすることがほとんどなくなっているのでいろいろと衰えを感じる瞬間だった。

最後に、正解のある資格試験とはいえ、統計検定の問題はとても考えさせられる出題の仕方がされていて実業務に近い感覚で取り組むことができたということ。 公式を使えばさっくり解けるような問題ももちろんあるが、どの分布だったり変換公式を利用すればよいか一筋縄に分からない問題もあった。 解説を見てなるほどと唸らされることがどの過去問を解いてもあったし、本番の試験でもそうだった。


まとまりのない終わり方にはなってしまったが、久々に資格試験を受けるというのもなかなか刺激があって良い経験になったという振り返りでこのエントリを締めておく。