訳: Twitterでの、大規模機械学習
Large-Scale Machine Learning at Twitter // Speaker Deck
これは興味深い。
数式以外(爆)をメモ
===
140文字、アクティブユーザ1億4000万人、3億4000万 ツイート/日
PBクラスのデータ、毎日100TB増、Hadoop job数 1万以上/日
古典的なデータ分析= descriptive、機械学習= predictive
目標: 汎用的な機械学習基盤を創り、使いやすくすること。
フロントエンドはMySQL、解析はPig、ワークフロー制御は Oink。->スケールしないので再設計
mahoutは使っていない。Pigとの連携方式はほとんど一緒になるはず。