データマイニングなど

データマイニングなどを中心に思ったことを

クラスター分析は難しい

クラスター分析は難しい

 

 直近のテーマはクラスター分析。仕事上でもクラスター分析を使用してみようという場面はたくさんある。とにかく分類する必要がある場合はkmeansを利用したことが何度かあった。クラスター分析は難しいことを考えなくてもとりあえず分類してくれる。アルゴリズムも難しいものではない。それでも私は思う。クラスター分析は難しい。

 

 

何が難しいのか?

 

 アウトプットの評価、解釈が難しい。クラスター分析の結果が出たとしてそれがどの程度有用なのかの判断は分析者に委ねられることが多い。というよりも評価をせずアウトプットを都合の良いように解釈していくことが大部分の作業を占める。ビジネス上では正確な分析をすることよりも結果を役立てることが大事なので解釈に時間を費やすことは問題ない。ただ分析者としては時間の許す限り正確な分析を目指したい。

 もちろん、クラスター分析結果の評価方法は数多く提唱されている。私が仕事上で評価することが必要な場面がなかったことが理由の一つだがそれでもクラスター分析の評価は語られることがすくないと思う。

 

解釈も難しい

 結果の解釈も難しいと思う。kmeansでは分類後の書くクラスターの件数がかたよることが多い。大部分のデータが含まれるクラスターと数件だけのクラスターが大多数というような結果になることがある。またクラスター数も恣意的になる。

 階層クラスター分析は仕事上で使用することがあまりなかったがクラスター数を事前に指示する必要はない。だが、出力結果のデンドログラムの解釈が難しい。階層構造は解釈が難しい。

 

今後何がしたいのか?

 

 クラスター分析の評価方法を整理したい。調べた中で有名そうなランド指数(Rand index)を知りする。

 またクラスター分析の解釈方法を整理したい。結果を解釈するには情報を2次元、または1次元に圧縮して図示することが一番。その方法を模索する。