aws memo

AWS関連の備忘録 (※本ブログの内容は個人的見解であり、所属組織及び企業の意見を代弁するものではありません。１年以上古いエントリは疑ってかかってください)

訳： Twitterでの、大規模機械学習

NoSQL 訳 EMR

Large-Scale Machine Learning at Twitter // Speaker Deck

これは興味深い。

数式以外(爆)をメモ

===

140文字、アクティブユーザ1億4000万人、3億4000万ツイート/日

PBクラスのデータ、毎日100TB増、Hadoop job数 1万以上/日

古典的なデータ分析＝ descriptive、機械学習＝ predictive

目標：　汎用的な機械学習基盤を創り、使いやすくすること。

フロントエンドはMySQL、解析はPig、ワークフロー制御は Oink。->スケールしないので再設計

mahoutは使っていない。Pigとの連携方式はほとんど一緒になるはず。