スキップしてメイン コンテンツに移動

ビッグデータな時代だからやるべきこと

大量のデータを取り扱う時、何が大変かっていうと大量だからだよね。データが小さければ、誰もそれほど悩まない。とか言いながら、「大量」ってどのくらい?ってことになると、大抵の場合メガバイトかギガバイトレベルなわけで、そんなんビッグデータでもなんでもないじゃん。ってことになるわけなんだけどさ。

しょせん企業が持っているデータはその程度なんだけど、でもやっぱりそれでも大変なところがあって。つまり集計する軸とか分析する軸とかがどうしても多くなってくるので、そうすると何百回もデータをなめまわすことになる。だからなんやかんやで、結局アホみたいに時間がかかってしまう。下手したら1日分の集計が1日で終わらないとか。

例えば車載機からの情報がたんまり集まってきているとする。そこから時間帯別の稼働率を調べたい。そこから危険運転の確認をしたいとか。集まっている情報には、エンジンの状態とか、走行距離とか、加速度センサーとか、緯度経度とか。まぁ、そういうシンプルなその時が刻まれているわけだ。時間帯別の稼働率なら、集まってきたデータから、時間帯毎に動いていたかどうかを集計すればいい。危険運転なら、急加速/急停止とかの回数や場所を調べればいい。

集まってきているデータ全体は、絶望的にデカかったとしても、集計したい軸にとっては全てが必要なわけじゃない。だからどうする?そう、デッカイデータから、必要な部分を取り出す。さっきの例だと、アホみたいにデカイデータから、時間帯別の稼働時間を抜き出す。元データがテラバイトだろうが、ペタバイトだろうが、そんな感じで抽出してしまうと結果はキロバイトとか、そんなちょっとしたデータになる。

ここ数年の流れからいうと、こうしたどデカイデータをちょっとしたデータに変える部分ってことになると、Hadoopというかmap reduceの出番的な雰囲気が漂っていた。まぁ、map reduceは、慣れてしまえばなんてことないものなんで、後はひたすら根性途切れないように黙々とやるだけだけど。でも、なんつうか、環境構築とか、そうは言ってもひたすらプログラム準備していくわけだし。Hiveとかいろいろ出てきても、なんかお手軽感は全くないし。そういうんじゃないんだよな。ということで、ウンザリして放り出してしまっていた人が多かったんじゃないかと。

map reduceの言い出しっぺは、Googleなわけだ。そのGoogleが、「俺たち、もうmap reduceとか使ってないもんね。てへぺろ。」という波動砲発言を発表したので、まじかよーウェーブがスタジアムを数周したのが今年の夏。

ま、その発表はDataflowというサービスに関することだったんだけど、それ言う前にBigQueryで充分そんな雰囲気を醸し出していたわけなので、Googleからしたらまじかよーとか、何をいまさらってところなんだろうな。

で、このBigQuery。すこぶる使い勝手がいい。さっきのどデカイデータをちょっとしたデータに変えるってのに最適。しかも、このBigQueryも何台ものサーバー使って超高速で処理してくれる仕組みなわけだけど、サーバーを何台使うとか、そういうことはよろしくやってくれるので、わずらわしいことがほとんどない。

こいつを使うためには、データをBigQuery環境にぶちこむ。ぶちこまれたデータは、消すまで保存される。そのデータ使って、シンプルなQuery使ってデータを絞り込む。絞り込んだデータは、再びBigQueryに戻すことができるので、そいつ使ってまたまた処理を続けることもできる。終わったらデータを取り出して、後はExcelとかなんでも好きなように使えばいい。つまりメンドくさいことを諸々省略できる。

このデータをBiguQuery環境にぶちこむところと、データを取り出すところは、お金がかからない。Query使ってデータを絞り込むところは、検索結果の毎月合計がテラバイトを超えないと無料。テラバイトを超えるとテラバイトあたり5ドル。保存は、毎月ギガバイトあたり2セント。

てな感じで、多分普通の用途だったら、毎月10ドルいくかいかないかだろうな。と激安。あー、ちなみにとりあえず使ってみようと思うなら、ぶちこむデータを小さめにすればいい。そしたら結果も小さくなるので。経験的に言うなら、ガンガン使っても月額請求は保存料の2セントだけ請求されて終了。2セント。2セントだぜ。ざっくり言うと2円だよ。チロルチョコも買えない。

使ってみるには、最初はDeveloper Consoleという画面があって、そこからQueryをいろいろ試せるので、そこから始めるのが便利。(ここの右上に「コンソールに移動」ってあるでしょ?そこからモゾモゾしていくとBigQueryにたどり着くから)ここでは画面でデータを確認しながら、Queryを色々と試してみることができる。こいつでデータを絞り込むと、結果をCSVファイルとして受け取ることもできるので、これで済むならいっちょあがり。

もう少しQueryを連続して使いたいとか、後で何度も実行したいなら、bqコマンドというツールがあるので、そいつでまとめていけばいい。

  bq query --destination_table=... "select ... from ... where ..."

てな感じ。destination_tableは、Queryの結果を保存するテーブルを指定するところ。

単純な検索で絞り込めるんだったら、Excelと組み合わせるのがいい。これやるためのプラグイン、BigQuery Connector for Excelというのがあって。ExcelにQuery組み込んで、直接結果をシートに取り込める。あとはExcelの世界なので、グラフ化したり他のデータと組み合わせて計算したりとか。ほら、いつもやってるやつでしょ?

ま、ここまででも充分やりたいことできると思うけど、もうちょっと複雑なことやりたいんだったら、お楽しみのプログラミング作成すればいい。楽しみたいからプログラム作るってのは本末顛倒なので、できるだけ簡単な手段で結果が出るのが理想なんだけどね。

  job_data = {
     'configuration' => {
      'extract' => {
       'sourceTable' => {
        'projectId' => '...',
        'datasetId' => '...',

てな感じでジョブの対象とかを指定して、

  bigquery = client.discovered_api('bigquery', 'v2')

BigQuery使いまっせと宣言して、

  result = client.execute(
    :api_method => bigquery.jobs.insert,
    :parameters => {

APIを呼ぶ。このプログラム組むあたりで、妄想が色々と膨らむと思う。なぜかっていうと、このclient.discovered_api('bigquery''v2')ってやつね。これ見てわかる通り、こいつはBigQuery専用ってわけじゃく、Googleのサービス全般を同じように使えるようになっている。

同じように使えるサービスを見ていると、なんかそういうことだよな。って思ってくる。ね?Googleのクラウドって、独特だよな。って気分わかるでしょ?

こまかいことをウダウダ説明したいんじゃなくて、こうしてどデカイデータだろうが、シンプルにデータを抜き出してしまえば、話はどんどん簡単になるってこと。環境構築もいらないし、必要なデータにまとめられれば、後はExcelでもいいし、手元でちょっとプログラム組んでもいいし。

最近あっちこっちでビッグデータ時代というキャッチが踊ってるけど、そんな中身のないキャッチに踊らされて不必要な出費してる場合じゃなくて、やれることを一歩一歩やっていけばいいのであって、そうやって努力する人は、劇的なコスト削減とか、劇的な速度改善というご褒美があって。そういうことやらずにコンサルとかベンダーとかに任せてしまう人は、驚くような請求されて、なんだかなー。な、時代なわけですよ。

コメント

このブログの人気の投稿

福岡ではじまる新たな動き「OPEN AI LAB」

ぼくたちは、福岡が本社だ。このエネルギーにあふれ、人の可能性を否定しない街は、ぼくたちのあらゆることの原点でもある。


だからこそ、福岡が刺激的に成長していくことは、ぼくたちにとって欠くべからざることなのだ。

テックパークという学童保育をやっていることも、九州経済産業局と一緒に地元製造業のために機械学習を学ぶ場を作ったことも、すべてそういう思いがあったから。

でも、もっと継続的に。地元企業同士が学び、知見を共有しあいながら、機械学習について研鑽を深め、事業を生み出していくことができたら。

実際、地元企業からとても多くの相談を受けるようになって、わずかなアドバイスでめちゃくちゃ画期的なサービスを完成させた人たちもいるし。そして、この土地は、周りと協力しあうことがとても好きな土地だし。

やっぱり機械学習は、理屈よりも実践だ。機械学習の権威が「無理じゃないかな」と言ったことが、やってみたら意外にも成果が出たこともある。

だから、まずは実践すること。迷わず実践してみて、成果が見込まれたら本格的に取り組めばいい。そしてこういうことは、一人で悶々と進めちゃダメだ。仲間と一緒に、あーだこーだ実験したり、成果を共有しあいながら進める。できるなら、会社も違い、業種も違う人たちと一緒に。そうなんだよ。こういうことが得意なのは、やっぱり福岡の人間だよな。そう思ったわけだ。

色々な思いがあって、ふくおかフィナンシャルグループの人たちと意気投合し、ざっくりとしたアイディアながら、高島市長も賛同してくれたし。

そして、いつもいろんな意見を交わしあっているソフトバンクが、「やるよ!」って男らしく笑顔とともに引き受けてくれたし、機械学習で世界を圧倒的にリードしているGoogleも、もちろんやりますよ。といってくれたし。

ということでスタートします。

オープンな場で、機械学習について学び、事業化に向けて実践していく場。
OPEN AI LAB

これはエンジニアの集まりではなく、事業家の集まり、ビジネスマンのためのもの。

そういう人たちが実践できるような、数々の手段や、事例や、ワークショップや。そういうものを通じて、理屈だけじゃなく、成功までの道筋を体感できるような。そんな活動をはじめます。

とびっきりの道具を使って、自分のビジネスに劇的な革新を起こしたい人は、ぜひここに集ってほしい。最高の体験を…

工場の不良品検査を機械学習で実現 BLOCKSに画像分類モデル登場

製造業にとっては、生産している商品が全てだ。


会社の体制も、工場の仕組みも、顧客の信頼を裏切らない商品を生産するために存在する。

工夫に工夫を重ね、素晴らしい精度で商品を生み出しているからこそ、商品のわずかな傷や、不良も見逃せない。

そんな製造業では、最終検品をベテラン社員が目視で行なっているところが非常に多い。


社員は製品を熟知しているし、新しい製品が出てきたとしても、少しレクチャーを受ければすぐにコツをつかむことができる。

でも、人間は疲れるし、体調だって崩すこともある。そして社会全体が人口減少なんだから、人手に頼っているのはコスト的にも、拡張性という点でもリスクだとも言える。

そんなことを考えてしまうと、例えばデジタルカメラの精度は人間の目をはるかに超えているわけだし、そんな作業はコンピュータに任せることはできないのか。そう思っている会社は極めて多い。

コンピュータを使って不良品を見つけ出す。

簡単なようでいて、これはなかなか難しい課題だ。

だって製品の仕様はコロコロ変わるわけだし、バリエーションもたくさんあったりする。

機械学習を使って判定させようとすると、新しい製品が出るたびに、新しい仕様が決まるたびに、新しく何千枚、何万枚と画像を撮影して学習させなければいけないとしたら、多分そんなことやってられない。

でも、もしも、わずか100枚くらいの画像を見せて、極めて高い精度の判定ができるとしたら。もしも学習が10分ちょっとで終わるとしたら。

そんなに簡単なら、新しい商品が登場するたびに、写真をとって学習させ、すぐに使ってみることができるだろう。

だから。



製造業のみなさん、おまたせしました。

そんなことを実現するMAGELLAN BLOCKSの新しい機械学習モデル「画像分類」がリリースされました。

新しい画像分類モデルは、転移学習という手法を使っており、あらかじめ世の中の様々な画像で物の見た目から特徴をつかむことを学習させてあります。だから不良の画像が100枚、正常の画像が100枚といった少ない枚数でも、不良という画像にはどんな特徴があるのかを、極めて高い精度で見つけ出し、判断することができるようになります。

使い方は簡単。

例えば良・不良の判定をしたいなら、goodというフォルダにgoodな画像を入れ、NGというフォルダにNGな画像を入れ。そしてBLOCK…

東京に縛られるな。福岡移住のすすめ。

九州の人には信じがたいことかもしれないけれど、東京の人たちは「どこの出身」とか「どこに本社がある」とかは、大して興味がない。そんなことより、その人、その人の感性、その人たちがやっていること、ポリシー。そういうことのほう興味があるし、重要だ。

でも、九州の人たちは、地元から来たとか、地元企業だというだけで、放っておけなくなる。

しかも、地元では「九州」というカテゴリはほとんど意味がないのに、東京に来た瞬間に「九州」は、大切な地元。九州全県出身者が、がぜん愛すべき地元出身者になるわけだ。



だから、ぼくは東京でのプレゼンで、「本社は福岡です。」「今日は福岡から来ました。」と呼びかけてみたりする。

呼びかけてみなくても、福岡に住んでいる間にしみついてしまった博多弁の片鱗が出てしまって

「あのですね」
「それでですね」
「ですからですね」

とか全く無自覚に言ってしまったりする。そうすると、なんかプレゼン終わった後にニヤニヤ近づいてくる人が必ずいる。

まー、つまりこういうことっていうのは、ある意味ボーナスポイントみたいなもんで、本当ならコンセプトで勝負し、中身で訴えなければならないのに、「地元」というプレゼントをもらってしまえる。図らずも心の友が登場する。という感じなんだな。

でも、それは今九州に住んでいる人のおかげというよりも、これまでの長い歴史の中で、先人たちが築きあげてきた文化だったりするわけだ。

そして素晴らしいことに、ぼくのように東京から移住した人間であっても、やっぱり地元なのであって、放っておけない仲間として扱ってくれる。

だから東京で最高のビジネス経験をした人は、例えば福岡に拠点を移し、そして福岡を飛び出して仕事を広げるのがおすすめ。どこへ行っても、愛すべき「地元」の仲間、先輩がいて、放っておけない気持ちでさりげなくアドバイスしてくれる。

そういう人は、東京から離れているとか離れてないとか、全く関係ないもんな。

デキるやつほど、東京に縛られるなよ。ということなんだけどな。