誰よりもドデカイデータを持っているGoogleは、データの規模に影響されず、常に高速で、しかも誰もが簡単に使える処理基盤が必要だったわけだ。
つまりそういう要求から開発されたBigQueryは、沢山のサーバーを使って超並列処理をする。大量のデータでも、サーバーを山ほど使って一気に処理すれば早くなるじゃん。って、そう言えば簡単に思えるかもしれないけれど、サーバーが山ほどあればあるほどボトルネックは通信になる。だからBigQueryが超絶早いのは、ウルトラスーパーなネットワークがあるからに違いないのだ。
だから、例えば全米の出生記録データ。1億3,700万件で、21.9GBある。
こいつからカルフォルニア州で産まれた子供の人種別人数を調べるとする。
こんな簡単なQUERYで。
2秒かかってない。
ついでにお金もかかってない。
ま、こうやって見ると、なんかデータベースっぽいけど、仕組み的にはバッチ処理を行う基盤。記述はQUERYを使うわけだけど、これを組み合わせていくと一般的な業務バッチなんかがかけてしまう。
とはいえ業務バッチってやつは、単純なQUERY一発で解決できるほど単純じゃない。
だからQUERYを多段に実行すればいい。QUERYを組み合わせって使っていくと、たいていの業務システムは開発できてしまう。
でもさー、BigQueryを多段に実行とかって、じゃぁどうすんのよ。ということで、ぼくらがリリースした「MAGELLAN BLOCKS」使うとこんな感じ。
BigQueryブロックや、データをBigQueryに入れたり出したりするブロックを組み合わせていけば完成しちゃう。
処理内容は、BigQueryブロックにQUERYを記述するだけ。
難しいことは何もない。だから、プログラムが組めなくても、QUERYを覚えれば作れる。
ほとんどの人は、「まー、そうは言ってもなかなか難しいんでしょ?」って言うんだけど、少し使いはじめると自分でドンドンやってしまえる。
”圧倒的”をすべての人に。ぼくらがめざしていること。
ITは、すべての人のためにある。そして、着想した人が自分で取り組めれば、世界はドンドン楽しくなる。だから、特別な知識や経験なんてなくても、誰もが簡単に使えるべき。
こうしたBLOCKSについて、5月19日に詳しく説明するので、興味のある人はぜひ見に来てね。(お申し込みはこちら)
場所は、六本木Google本社。圧倒的なGoogleサービスについて、Googleからわかりやすく説明してくれるよ。
コメント
コメントを投稿