aws memo

AWS関連の備忘録 (※本ブログの内容は個人的見解であり、所属組織及び企業の意見を代弁するものではありません。1年以上古いエントリは疑ってかかってください)

EBS: Provisioned IOPSの性能・ベンチマーク

そのものずばりのページが、EC2のドキュメントにあるので、メモ。 Increasing EBS Performance - Amazon Elastic Compute Cloud 性能を出すには RAID0かRAID1+0 (RAID10) でストライピング 平均キューレングスをチェック EBSボリューム利用前にプリロード(※)…

EC2: GlusterFS in AWS

GlusterFS on AWSといえば、 #ヤマン のスライドですね。(後述) こちらの記事では、実際の設定手順等が書かれてある。 GlusterFS in AWS | Celingest Blog – Feel the Cloud ---以下、拾い訳-- 事前の考慮点 アベイラビリティゾーン(AZ)を跨いだ2台のサーバ…

訳:どのようにしてVimeoはEC2の費用を50%削減したか

これは面白い記事。 High Scalability - High Scalability - How Vimeo Saves 50% on EC2 by Playing a Smarter Game == ビデオトランスコーディング処理用のEC2インスタンス費用を、スポットインスタンス、オンデマンドインスタンス、リザーブドインスタ…

リーンスタートアップとDevOps

ビジネスとシステムという少し距離のある2つだが、共通点が非常に多いし、ゴールは実は同じという点で、リーンスタートアップとDevOpsを組み合わせることは非常に効果的だろう。 つまり、常に計測可能な数字をもって仮説とし、それを測定する仕組みも必ず一…

EMR: EMRで集計してiOSで可視化する手順

Using AWS Elastic MapReduce Results with Mobile BI Analytics | Architects Zone EMRの解析結果を、Roambi Analyticsという iOS向け BI 可視化ツールのクラウドサービスに食わせて、そちらで見る手順。 Roambi は、無料のLite(CSV, Excel, html対応)、Pr…

MongoDB: foursquareは EC2上で MongoDBが動いている

という、スライド。 単一リージョン、単一アベイラビリティゾーン(AZ)に、7つのShardクラスタ(最大で14shard)と3つの非Shardクラスタ。各シャードは3か4のReplica Sets。 m2.4xlarge(68GBメモリ)に、EBS4本でRAID0。データはほぼオンメモリで保持。 iosta…

複数のデータセンターにMongoDBを配備する戦略

MongoDB: Strategies for Multiple Data Center Deployment | Architects Zone MongoDB NY 2012の資料から。 これ、普通にオンプレミスやってたら縁遠いけど、AWSだと複数のリージョンをまたがせてすぐに試せるので、グローバルなアプリケーション作る時の参…

DevOps : 日本語で語る DevOps

Japanese Words for DevOps Practitioners | IT Revolution もともと DevOpsは、リーン開発やアジャイル開発とも近いので、TPS (トヨタ方式)の哲学が入っていても不思議ではないですが、やっぱり大野耐一さんはすごい。そして、製造業におけるシステム運用と…

訳:Netflixが 6.29のAWSと嵐から学んだこと

2012年6月は、立て続けにUS EASTリージョンでダウンタイムが発生している。 NetflixのようにマルチAZの構成にして、常に擬似的に障害を発生させる仕組み( Chaos Monkey)を導入していても、ダウンする場合があることが明らかになった。さらなる可用性向上のた…

訳: AWSで高可用性を実現するベストプラクティス

AWS Cloud Best Practice: Introduction to High Availability Deployment | Newvem AWSのアーキテクチャセンターにも図があるが、解説が少ないので、このシナリオ・ステップは参考になるだろう。 しかし、インフラがRoute53でリージョン間冗長性を考えるグ…

訳:MongoDBのレプリケーションと耐久性

MongoDB: Replication, Durability, and Disaster Recovery | Architects Zone レプリカセットの説明と、 耐久性 ( Fire and forget, write concern)の説明。 最後の、レプリカセットの台数(1~5台)に関する話は興味深い。 Replication, Durability, and Disa…

DevOps: Netflixが、Webベースのクラウド管理・デプロイツール AsgardをOSS化

NetflixがWebベースの管理・デプロイツール Asgard をOSS化した。 The Netflix Tech Blog: Asgard: Web-based Cloud Management and Deployment AWS Management Consoleよりも、直感的かもしれないし、AutoScaleもGUIで設定できたり、自動化をGUIから設定で…

EC2: PostgreSQLをS3にバックアップする

heroku/WAL-E という、HerokuがOSS化したPython製のツール。 バックアップ、およびWALをS3に保存(Push)したり、取得(fetch)したりするものらしい。 通常、EBSのスナップショットでフルバックアップを取得できても、次回のスナップショット取得までの期間のデ…

訳:クラウドのアプリケーションデザインパターン

P.15からの、MTTRとMTTFを、従来のITとクラウドで比較検証するあたりがいい。 従来のITは、MTTFを長くすることに注力していたが、クラウドでは、MTTRを短くすることに注力できる。MTTFとMTTRがそれぞれ長い・短いでどうなるかを検証する。 P.17-P20 従来のIT…

訳: Twitterでの、大規模機械学習

Large-Scale Machine Learning at Twitter // Speaker Deck これは興味深い。 数式以外(爆)をメモ === 140文字、アクティブユーザ1億4000万人、3億4000万 ツイート/日 PBクラスのデータ、毎日100TB増、Hadoop job数 1万以上/日 古典的なデータ分析= descrip…

EMR: Hadoop ハンズオン資料

Python使ったStreamingと、PigでのWordcountの例。 EMRだとセットアップ周りは不要、実行方法も若干異なるけどもハンズオンのシナリオとしては参考になる。 Hands-on Hadoop: An intro for Web developers View more PowerPoint from Erik Eldridge

バックグラウンドで5億レコードをMySQLにロードする

Percona使うとかmy.cnf書き換え以外で、RDSでも使える部分があるか。 derwiki - Loading half a billion rows into MySQL ポイントはこのへん 外部キーチェック、ユニークチェックを無効にしておく 分離レベルを、READ-UNCOMMITTEDにしておく binlogを出さな…

CS:CloudSearchでWikipediaを検索するデモサイト

いつまであるかわからないけど。。。 Search Technologies, Wikipedia / Amazon CloudSearch Demo 仕組みの解説 http://www.searchtechnologies.com/wikipedia-cloudsearch-lab.html Aspireというコンテンツ処理プラットフォーム経由でWikipediaのダンプファ…

AWS Summit 2012 NY のスライド一覧

Amazon Web Services’s slideshows on SlideShare 暇があったら見る。

EC2: Cloud-init でGitを使う

EC2の機能として、インスタンス作成時にUser Dataとしてパラメータ を渡すことで、起動時に cloud-initが動作する。 これを使って、インスタンス作成時に動的にGitからコンテンツを取得・デプロイすることが可能。 本格的にDevOpsやるなら、PuppetやChefを導…

訳 : MongoDBのバックアップ戦略

10gen - MongoDB Presentations - Backup Strategies: Keeping Your Data Safe 一般的にMongoDBで使われるバックアップツールや機能としては mongodumpでダンプ mongoexport でエクポート バイナリデータファイル 冗長化(Replica sets) Oplog あたり、と。 m…

訳: MongoDBとHadoop

10gen - MongoDB Presentations - MongoSF 2012: MongoDB and Hadoop MongoDBのMapReduceと、HadoopのMapReduceを紹介し、mongo-hadoop を使ってHadoop StreamingでM/RしたものをMongoDBにロードするETLのパターンを紹介している。 MongoDB, Hadoop and Humo…

訳: MongoDBの高可用性

10gen - MongoDB Presentations - High Availability with MongoDB for Fun and Profit Master(Primary) 1台、Slave(Secondary)2台のReplica Setを起動して、クラッシュさせるデモのプレゼン。 High Availability with MongoDB for Fun and Profit View mo…

訳:NoSQL:NoSQLデータモデリングテクニック

NoSQL Data Modeling Techniques « Highly Scalable Blog http://highlyscalable.wordpress.com/2012/03/01/nosql-data-modeling-techniques/ 訳:https://gist.github.com/2396234

訳:NoSQLのパターン

An Introduction to NoSQL Patterns | Architects Zone これはひと通り俯瞰できますな。 API モデル マシンレイアウト データパーティション(コンシステントハッシング) データレプリケーション メンバーシップ クライアントコンシステンシ マスタスレーブ…

訳: Globus Onlineの説明資料 by Ian Foster

Globus OnlineはAWSで動いています、と。その上で、S3ではない新しいストレージの説明になってますね。 GlobusWorld 2012 Foster Keynote View more PowerPoint from Ian Foster

訳:NoSQLとRDBMSの選択

Deciding Between NoSQL and RDMS | Architects Zone NoSQLを使うべきシチュエーションが面白いww 2カラムで、XMLぶっこむような使い方は間違ってるww ==== 単純なKey/Valueペアを保存している場合。RDBMSのあるテーブルにキーとCLOBの2カラムしか…

訳:クラウドへの移行の理由(もしくは移行しない理由)

Why (or Why Not) to Migrate to the Cloud | Cloud Zone ===== 同じコストで比較した時に、 物理サーバに比べてEC2にどのような制限があり、どのように性能が落ちるのか、という技術フォーラムや議論がたくさんある。同じ金額で、もっと多くのハードウェア…

訳:スケーラブルなエンタープライズシステムを構築する

さわりとしてはいいかも。もはやSOAとは言わないんだろうけどw Building Scalable Enterprise Systems - Java Code Geeks === 成功している企業は、ビジネスの俊敏さがあることと、新製品や新サービスを市場に導入できることをみたしている。ITのオーバー…

訳:2012年 ビッグデータのトレンドは?

ふーむ。。。 既存のRDBMSベンダーが乗り出すのは間違いないし、SaaSも立ち上がりつつある。あとはユーザ企業が、自力でオンプレミスに構築するのではなく、それらを使うようにMind Shiftできるか、が肝だな。。 Big Data Trends in 2012 - Java Code Geeks …