aws memo

AWS関連の備忘録 (※本ブログの内容は個人的見解であり、所属組織及び企業の意見を代弁するものではありません。1年以上古いエントリは疑ってかかってください)

訳: Twitterでの、大規模機械学習

Large-Scale Machine Learning at Twitter // Speaker Deck

これは興味深い。

数式以外(爆)をメモ

===

140文字、アクティブユーザ1億4000万人、3億4000万 ツイート/日

PBクラスのデータ、毎日100TB増、Hadoop job数 1万以上/日

古典的なデータ分析= descriptive、機械学習= predictive

目標: 汎用的な機械学習基盤を創り、使いやすくすること。

フロントエンドはMySQL、解析はPig、ワークフロー制御は Oink。->スケールしないので再設計

mahoutは使っていない。Pigとの連携方式はほとんど一緒になるはず。