Cloudera World Tokyo 2016で機械学習プロダクトの作り方を話しました #cwt2016
さる11/8に、自社の主催するCloudera World Tokyo 2016で、機械学習プロダクトの作り方について話をしました。
さる11/8に、自社の主催するCloudera World Tokyo 2016で、機械学習プロダクトの作り方について話をしました。
kawasaki.rb #041 で得た知見です。 /opt 以下から /usr/local 以下にhomebrewの場所を戻しました。理由はhomebrew caskが/optから/usr/localに移ったためなんですが、これに伴いrbenvで入れたirubyがopensslを/opt以下から探すようになってしまったため、壊れてしまいました。
京大の黒橋・河原研から最近出たJUMAN++をmacOSのhomebrewでinstallできるようにしました。 JUMAN++はRNNLMというディープラーニングベースの言語モデルを使っています。 こちらの記事を読んで知ったという方も多いのではないでしょうか。
RubyKaigiに参加するとコード書きたいという気持ちが高まって良いのですが、今回はPDFの表を読み込んで pandas の DataFrame に変換できる tabula-pyを作りました。 これをもってRubyKaigiの参加報告とさせていただければと思います。
さる 8/20 に川崎Ruby会議01を開催しました。 regional.rubykaigi.org 川崎Ruby会議は、kawasaki.rbの主催する地域Ruby会議です。 ちゃんとしたまとめはるびまに出ると思うので、ここでは開催の経緯なんかを簡単に書こうと思います。
2016/07/25に「夏真っ盛り!Spark + Python + Data Science祭り」を開催しました。
Spark Summit 2016でもトークがあったSparkのREST serverであるlivyですが、MicrosoftがHDInsight上のSpark clusterとJupyterをlivyを使って繋げられるようにしたと聞いて、早速試してみました。
Q: うわっ…ワタシのモデル過学習してる…? 機械学習をしていると、「やったほぼ100%の性能でました!」みたいな話がちょこちょこでて、その度に「あー、はいはい過学習乙」とか「leakageじゃね?」とかいう話になると思います。
機械学習の分類の話を、主に決定境界と損失関数の観点から整理してみました。 とはいっても、k-NNとか損失関数関係ないのもいます。
先日、この記事を読んで分析のハードルを下げること大事だよね、というのを思い出したのでつらつらと書いてみようと思います。