スキップしてメイン コンテンツに移動

ビッグデータな時代だからやるべきこと

大量のデータを取り扱う時、何が大変かっていうと大量だからだよね。データが小さければ、誰もそれほど悩まない。とか言いながら、「大量」ってどのくらい?ってことになると、大抵の場合メガバイトかギガバイトレベルなわけで、そんなんビッグデータでもなんでもないじゃん。ってことになるわけなんだけどさ。

しょせん企業が持っているデータはその程度なんだけど、でもやっぱりそれでも大変なところがあって。つまり集計する軸とか分析する軸とかがどうしても多くなってくるので、そうすると何百回もデータをなめまわすことになる。だからなんやかんやで、結局アホみたいに時間がかかってしまう。下手したら1日分の集計が1日で終わらないとか。

例えば車載機からの情報がたんまり集まってきているとする。そこから時間帯別の稼働率を調べたい。そこから危険運転の確認をしたいとか。集まっている情報には、エンジンの状態とか、走行距離とか、加速度センサーとか、緯度経度とか。まぁ、そういうシンプルなその時が刻まれているわけだ。時間帯別の稼働率なら、集まってきたデータから、時間帯毎に動いていたかどうかを集計すればいい。危険運転なら、急加速/急停止とかの回数や場所を調べればいい。

集まってきているデータ全体は、絶望的にデカかったとしても、集計したい軸にとっては全てが必要なわけじゃない。だからどうする?そう、デッカイデータから、必要な部分を取り出す。さっきの例だと、アホみたいにデカイデータから、時間帯別の稼働時間を抜き出す。元データがテラバイトだろうが、ペタバイトだろうが、そんな感じで抽出してしまうと結果はキロバイトとか、そんなちょっとしたデータになる。

ここ数年の流れからいうと、こうしたどデカイデータをちょっとしたデータに変える部分ってことになると、Hadoopというかmap reduceの出番的な雰囲気が漂っていた。まぁ、map reduceは、慣れてしまえばなんてことないものなんで、後はひたすら根性途切れないように黙々とやるだけだけど。でも、なんつうか、環境構築とか、そうは言ってもひたすらプログラム準備していくわけだし。Hiveとかいろいろ出てきても、なんかお手軽感は全くないし。そういうんじゃないんだよな。ということで、ウンザリして放り出してしまっていた人が多かったんじゃないかと。

map reduceの言い出しっぺは、Googleなわけだ。そのGoogleが、「俺たち、もうmap reduceとか使ってないもんね。てへぺろ。」という波動砲発言を発表したので、まじかよーウェーブがスタジアムを数周したのが今年の夏。

ま、その発表はDataflowというサービスに関することだったんだけど、それ言う前にBigQueryで充分そんな雰囲気を醸し出していたわけなので、Googleからしたらまじかよーとか、何をいまさらってところなんだろうな。

で、このBigQuery。すこぶる使い勝手がいい。さっきのどデカイデータをちょっとしたデータに変えるってのに最適。しかも、このBigQueryも何台ものサーバー使って超高速で処理してくれる仕組みなわけだけど、サーバーを何台使うとか、そういうことはよろしくやってくれるので、わずらわしいことがほとんどない。

こいつを使うためには、データをBigQuery環境にぶちこむ。ぶちこまれたデータは、消すまで保存される。そのデータ使って、シンプルなQuery使ってデータを絞り込む。絞り込んだデータは、再びBigQueryに戻すことができるので、そいつ使ってまたまた処理を続けることもできる。終わったらデータを取り出して、後はExcelとかなんでも好きなように使えばいい。つまりメンドくさいことを諸々省略できる。

このデータをBiguQuery環境にぶちこむところと、データを取り出すところは、お金がかからない。Query使ってデータを絞り込むところは、検索結果の毎月合計がテラバイトを超えないと無料。テラバイトを超えるとテラバイトあたり5ドル。保存は、毎月ギガバイトあたり2セント。

てな感じで、多分普通の用途だったら、毎月10ドルいくかいかないかだろうな。と激安。あー、ちなみにとりあえず使ってみようと思うなら、ぶちこむデータを小さめにすればいい。そしたら結果も小さくなるので。経験的に言うなら、ガンガン使っても月額請求は保存料の2セントだけ請求されて終了。2セント。2セントだぜ。ざっくり言うと2円だよ。チロルチョコも買えない。

使ってみるには、最初はDeveloper Consoleという画面があって、そこからQueryをいろいろ試せるので、そこから始めるのが便利。(ここの右上に「コンソールに移動」ってあるでしょ?そこからモゾモゾしていくとBigQueryにたどり着くから)ここでは画面でデータを確認しながら、Queryを色々と試してみることができる。こいつでデータを絞り込むと、結果をCSVファイルとして受け取ることもできるので、これで済むならいっちょあがり。

もう少しQueryを連続して使いたいとか、後で何度も実行したいなら、bqコマンドというツールがあるので、そいつでまとめていけばいい。

  bq query --destination_table=... "select ... from ... where ..."

てな感じ。destination_tableは、Queryの結果を保存するテーブルを指定するところ。

単純な検索で絞り込めるんだったら、Excelと組み合わせるのがいい。これやるためのプラグイン、BigQuery Connector for Excelというのがあって。ExcelにQuery組み込んで、直接結果をシートに取り込める。あとはExcelの世界なので、グラフ化したり他のデータと組み合わせて計算したりとか。ほら、いつもやってるやつでしょ?

ま、ここまででも充分やりたいことできると思うけど、もうちょっと複雑なことやりたいんだったら、お楽しみのプログラミング作成すればいい。楽しみたいからプログラム作るってのは本末顛倒なので、できるだけ簡単な手段で結果が出るのが理想なんだけどね。

  job_data = {
     'configuration' => {
      'extract' => {
       'sourceTable' => {
        'projectId' => '...',
        'datasetId' => '...',

てな感じでジョブの対象とかを指定して、

  bigquery = client.discovered_api('bigquery', 'v2')

BigQuery使いまっせと宣言して、

  result = client.execute(
    :api_method => bigquery.jobs.insert,
    :parameters => {

APIを呼ぶ。このプログラム組むあたりで、妄想が色々と膨らむと思う。なぜかっていうと、このclient.discovered_api('bigquery''v2')ってやつね。これ見てわかる通り、こいつはBigQuery専用ってわけじゃく、Googleのサービス全般を同じように使えるようになっている。

同じように使えるサービスを見ていると、なんかそういうことだよな。って思ってくる。ね?Googleのクラウドって、独特だよな。って気分わかるでしょ?

こまかいことをウダウダ説明したいんじゃなくて、こうしてどデカイデータだろうが、シンプルにデータを抜き出してしまえば、話はどんどん簡単になるってこと。環境構築もいらないし、必要なデータにまとめられれば、後はExcelでもいいし、手元でちょっとプログラム組んでもいいし。

最近あっちこっちでビッグデータ時代というキャッチが踊ってるけど、そんな中身のないキャッチに踊らされて不必要な出費してる場合じゃなくて、やれることを一歩一歩やっていけばいいのであって、そうやって努力する人は、劇的なコスト削減とか、劇的な速度改善というご褒美があって。そういうことやらずにコンサルとかベンダーとかに任せてしまう人は、驚くような請求されて、なんだかなー。な、時代なわけですよ。

コメント

このブログの人気の投稿

増資に関わる ぼくたちの覚悟

世の中は、時々おどろくほど大きな転換点が訪れる。過去と無関係な未来なんてないはずだけど、これまでの様々なこととは不連続に思える未来だ。


さきほど日本経済新聞のサイトでニュースが流れたので、お知らせします。
ぼくたちグルーヴノーツは、少し大きめの資金調達に踏み切りました。

グルーヴノーツと名乗り始めてから一貫して取り組んできたのは、最先端のIT技術を、専門知識がない人でも取り組めること。

そしてぼくらの「MAGELLAN BLOCKS

めざしているのは「機械学習の民主化」だ。

そのために、たくさん議論をし、機能を磨き、たくさんのプロジェクトで実践してきた。そして、さまざまな成果から、過去とは不連続だけど、とてつもなく大きな可能性を秘めた未来が見えてきた。同時に、ぼくらがやらなければならないことがハッキリしてきた。

だからこそ、ここはしっかりと前に進み、大きく前進していこう。
曖昧な一歩ではなく、ぼくらがやらなければならないことを、確実に、ためらわずに実行する。

今回の増資は、そういうこと。そして、増資を外部に公表するのは、そうしたぼくたちの覚悟を世間に公開する。そういう意思表示。

日経の記事には次のように紹介されている。

「同社の「マゼランブロックス」は米グーグルの機械学習サービスを使い、数値や文字、画像データを入力するだけで、AIが規則性などを発見して将来を予測できる。プログラミングなど専門知識を不要にした。」

でも、正確に言うなら、

「同社の「マゼランブロックス」はGoogleの機械学習インフラを活用し、グルーヴノーツが独自開発した機械学習サービスを使い、数値や文字、画像データを入力するだけで、AIが規則性などを発見して将来を予測できる。プログラミングなど専門知識を不要にした。」

Googleの圧倒的なパワーを借りながら、ぼくら自身が作り上げた機械学習モデルを使い、ぼくら自身が考え、作り上げたサービス。だから、これまでのやり方では解決できないことがあったら、ぜひ相談してほしい。

専門ベンダーを起用するのではなく、事業会社が自力で考え、自力で作り上げる機械学習サービス。そうしたことが、実現できるのだから。

そして、ベンダーに依存するのではなく、自力で考え、構築することこそ、機械学習が開く未来への扉の鍵なのだから。

福岡本社の、まだまだ小さな会社だけど、社会が望むことに真っ直…

福岡ではじまる新たな動き「OPEN AI LAB」

ぼくたちは、福岡が本社だ。このエネルギーにあふれ、人の可能性を否定しない街は、ぼくたちのあらゆることの原点でもある。


だからこそ、福岡が刺激的に成長していくことは、ぼくたちにとって欠くべからざることなのだ。

テックパークという学童保育をやっていることも、九州経済産業局と一緒に地元製造業のために機械学習を学ぶ場を作ったことも、すべてそういう思いがあったから。

でも、もっと継続的に。地元企業同士が学び、知見を共有しあいながら、機械学習について研鑽を深め、事業を生み出していくことができたら。

実際、地元企業からとても多くの相談を受けるようになって、わずかなアドバイスでめちゃくちゃ画期的なサービスを完成させた人たちもいるし。そして、この土地は、周りと協力しあうことがとても好きな土地だし。

やっぱり機械学習は、理屈よりも実践だ。機械学習の権威が「無理じゃないかな」と言ったことが、やってみたら意外にも成果が出たこともある。

だから、まずは実践すること。迷わず実践してみて、成果が見込まれたら本格的に取り組めばいい。そしてこういうことは、一人で悶々と進めちゃダメだ。仲間と一緒に、あーだこーだ実験したり、成果を共有しあいながら進める。できるなら、会社も違い、業種も違う人たちと一緒に。そうなんだよ。こういうことが得意なのは、やっぱり福岡の人間だよな。そう思ったわけだ。

色々な思いがあって、ふくおかフィナンシャルグループの人たちと意気投合し、ざっくりとしたアイディアながら、高島市長も賛同してくれたし。

そして、いつもいろんな意見を交わしあっているソフトバンクが、「やるよ!」って男らしく笑顔とともに引き受けてくれたし、機械学習で世界を圧倒的にリードしているGoogleも、もちろんやりますよ。といってくれたし。

ということでスタートします。

オープンな場で、機械学習について学び、事業化に向けて実践していく場。
OPEN AI LAB

これはエンジニアの集まりではなく、事業家の集まり、ビジネスマンのためのもの。

そういう人たちが実践できるような、数々の手段や、事例や、ワークショップや。そういうものを通じて、理屈だけじゃなく、成功までの道筋を体感できるような。そんな活動をはじめます。

とびっきりの道具を使って、自分のビジネスに劇的な革新を起こしたい人は、ぜひここに集ってほしい。最高の体験を…

工場の不良品検査を機械学習で実現 BLOCKSに画像分類モデル登場

製造業にとっては、生産している商品が全てだ。


会社の体制も、工場の仕組みも、顧客の信頼を裏切らない商品を生産するために存在する。

工夫に工夫を重ね、素晴らしい精度で商品を生み出しているからこそ、商品のわずかな傷や、不良も見逃せない。

そんな製造業では、最終検品をベテラン社員が目視で行なっているところが非常に多い。


社員は製品を熟知しているし、新しい製品が出てきたとしても、少しレクチャーを受ければすぐにコツをつかむことができる。

でも、人間は疲れるし、体調だって崩すこともある。そして社会全体が人口減少なんだから、人手に頼っているのはコスト的にも、拡張性という点でもリスクだとも言える。

そんなことを考えてしまうと、例えばデジタルカメラの精度は人間の目をはるかに超えているわけだし、そんな作業はコンピュータに任せることはできないのか。そう思っている会社は極めて多い。

コンピュータを使って不良品を見つけ出す。

簡単なようでいて、これはなかなか難しい課題だ。

だって製品の仕様はコロコロ変わるわけだし、バリエーションもたくさんあったりする。

機械学習を使って判定させようとすると、新しい製品が出るたびに、新しい仕様が決まるたびに、新しく何千枚、何万枚と画像を撮影して学習させなければいけないとしたら、多分そんなことやってられない。

でも、もしも、わずか100枚くらいの画像を見せて、極めて高い精度の判定ができるとしたら。もしも学習が10分ちょっとで終わるとしたら。

そんなに簡単なら、新しい商品が登場するたびに、写真をとって学習させ、すぐに使ってみることができるだろう。

だから。



製造業のみなさん、おまたせしました。

そんなことを実現するMAGELLAN BLOCKSの新しい機械学習モデル「画像分類」がリリースされました。

新しい画像分類モデルは、転移学習という手法を使っており、あらかじめ世の中の様々な画像で物の見た目から特徴をつかむことを学習させてあります。だから不良の画像が100枚、正常の画像が100枚といった少ない枚数でも、不良という画像にはどんな特徴があるのかを、極めて高い精度で見つけ出し、判断することができるようになります。

使い方は簡単。

例えば良・不良の判定をしたいなら、goodというフォルダにgoodな画像を入れ、NGというフォルダにNGな画像を入れ。そしてBLOCK…