データマイニングなど

データマイニングなどを中心に思ったことを

javascript map reduce

最近javascriptを書くことが多い。

 

なれていないので、配列の処理に戸惑う。

 

整理しておこうと調べたらぴったりのページを見つけた

http://takuya-1st.hatenablog.jp/entry/2014/05/12/164017

 

世の中必要な情報はすでにある。

でもそこになかなか辿りつけないことも多いので

たどり着いたときはとてもうれしい。

 

すでに情報があるから自分で考えるのは無駄というのは間違いかも。

情報にたどりつくまでの過程がある。

認識できなかれば情報はないも同然だ。

クロスバリデーション

クロスバリデーションの有用さを感じながら実務で使う場面がなかったので自分のなかで整理できていない。

 

少しずつ整理を試みる。

 

クロスバリデーションの定義

 

 私が初めて参画した分析案件の影響でクロスバリデーションの定義を間違えていたようだ。

 そのプロジェクトではいわゆるホールドアウト検証をクロスバリデーションと呼んでいた。今後は言葉を正確に使用するように気をつけたい。

 今後のTODOとしては情報収集、R実装確認、SASなど他アプリの実装確認などできる範囲で。

 

クラスター分析は難しい

クラスター分析は難しい

 

 直近のテーマはクラスター分析。仕事上でもクラスター分析を使用してみようという場面はたくさんある。とにかく分類する必要がある場合はkmeansを利用したことが何度かあった。クラスター分析は難しいことを考えなくてもとりあえず分類してくれる。アルゴリズムも難しいものではない。それでも私は思う。クラスター分析は難しい。

 

 

何が難しいのか?

 

 アウトプットの評価、解釈が難しい。クラスター分析の結果が出たとしてそれがどの程度有用なのかの判断は分析者に委ねられることが多い。というよりも評価をせずアウトプットを都合の良いように解釈していくことが大部分の作業を占める。ビジネス上では正確な分析をすることよりも結果を役立てることが大事なので解釈に時間を費やすことは問題ない。ただ分析者としては時間の許す限り正確な分析を目指したい。

 もちろん、クラスター分析結果の評価方法は数多く提唱されている。私が仕事上で評価することが必要な場面がなかったことが理由の一つだがそれでもクラスター分析の評価は語られることがすくないと思う。

 

解釈も難しい

 結果の解釈も難しいと思う。kmeansでは分類後の書くクラスターの件数がかたよることが多い。大部分のデータが含まれるクラスターと数件だけのクラスターが大多数というような結果になることがある。またクラスター数も恣意的になる。

 階層クラスター分析は仕事上で使用することがあまりなかったがクラスター数を事前に指示する必要はない。だが、出力結果のデンドログラムの解釈が難しい。階層構造は解釈が難しい。

 

今後何がしたいのか?

 

 クラスター分析の評価方法を整理したい。調べた中で有名そうなランド指数(Rand index)を知りする。

 またクラスター分析の解釈方法を整理したい。結果を解釈するには情報を2次元、または1次元に圧縮して図示することが一番。その方法を模索する。

 

 

 

書評: 実践! ビジネスに役立つ “超”分析の教科書

 


Amazon.co.jp: 実践! ビジネスに役立つ “超”分析の教科書 (日経BPムック): 日経ビッグデータ: 本

 

 超ということで大きな期待を胸にAMAZONでポチっと。内容も確認せずに。ビジネス展開できない、分析は手間がかかりすぎる、スキルが足りない、ニーズがみつからない、・・・そんな私の悩みを解決するヒントをくれるかも。藁をも掴む気持ちで右クリックした。

 感想から。・・・残念。世に出ている書籍にケチをつけるのは良くないと思っている。多くの時間と労力を費やしてやっと出版しているのだから内容がどうであれ敬意を感じている。形あるものを創ったことにはそれだけで素晴らしいと思う。

ただ、私が期待するものとは違っただけ。内容を確認せずに安易に右人差し指を動かした私が悪い。安易に購入できるAMAZONが悪・・。いや、AMAZONでは試し読みができたのかもしれない?いや、あれはKINDLEだけの機能か?いや、いや・・・。

 

 超分析ということでかなり専門的な実践的な内容を期待していた。何しろ分析を超えているのだから。分析を超えるにはかなりのページが必要だろう。でも、専門的になりすぎると理解できない。いや、専門的な内容も噛み砕いてイメージが膨らむようにしてくれているだろう。何しろ超なのだ。超ってすごい。私が何かを超えたことがあるだろうか?いや、ない。超えるということは何だって難しい。すごいことだ。無条件に尊敬できる。はずだ・・・。

 

 内容としてはインタビュー、実際の事例集と分析手法の紹介、用語集。一つ一つが数ページで終わる。掘り下げ方が半端ない。逆の意味で半端ない。いや、私の期待が的外れなだけか?きっとそうに違いない。私の期待はいつもずれている。

 

 今回の書籍で得た教訓。

技術的な書籍はテーマを絞った専門書を買う。WEBに情報がある場合が多い。知りたいことが自分の中で言語化できていない場合は検索が難しい場合でも根気よく調べれば求めているものに近づけることが多い。英語圏の方が情報が充実している。書籍は立ち読みしてから購入する。KINDLEがあればベター。検索して求める情報にたどり着くまでの時間を考慮すると優れた専門書は価値が高い。でもどんな書籍が必要かは調べた後でないと分からない。間違っても今回のような本に求める情報はない。・・言い過ぎました。間違っても今回のような本に「私」の求める情報はない。他の人にとって有用なことは当然あるのでそのような人にはおすすめです。