google分散処理

googleのwebフロントエンドにおける分散処理技術については、あまり目にしない。
GFS, MapReduce, BigtableのPaperに記述している事例はほとんどがバッチ処理である。インデクシングとかリンク解析とか。

googleのつよみは、大規模な統計処理をどこよりも速くやることにある気もするので、当然なのかもしれない。

しかしながら、いわゆるWeb的な部分はどのように分散しているのだろうか ということも気になる。
MySQLのヘビーユーザであると聞いたことがあるので、 MySQLのマスタスレーブ構成でレプリばりばりみたいなことをやっているのかもしれない。

BigtableのPaperには、レイテンシセンシティブなエンドユーザサービスにも適合しているといっていたが、いまいちピンとこない。
Bigtableをあまり理解できていないからなのだろうけど。それに加えて記載している例もWebコンテンツの解析バッチであり、フロントエンドでのリアルタイム処理の事例がない。

いろいろよくわからない。

ただ、MySQLのマスタスレーブ構成でレプリばりばり負荷分散なんかをすると、更新負荷のバランシングのためテーブル分割が必要になり、結局のところ集合演算なんてのは使ってはいけないということになり、データのストア先としてしか利用していなかったりする。

つまり巨大なハッシュマップというアプローチは必然であることは確かである。


何かやりたいことがあり、実際やってみて、チューニングしたらGFS, MapReduce, Bigtableができた感じなんだろうな。