日本のビックデータの未来は?9万人の天才が集う「Kaggle」

日本のビックデータの未来は?9万人の天才が集う「Kaggle」

  • このエントリーをはてなブックマークに追加

はじめまして!来年度の内定者で只今インターンに参加中の藤井です。
海外のサービスに興味が有り読者が楽しめる記事を頭ゆるゆるで書いていきたいと思っています。
それでは初投稿で少し長めの記事ですが宜しくお願いします〜。

ビックデータとそれを取り巻く環境

スクリーンショット 2014-06-12 15.08.51
昨今よく耳にするビックデータ

ビッグデータとは、従来の方法では処理できない程大量に積み重なった情報に付いた呼び名です。

「大量だから何?」と思われるかもしれませんが、
ビッグデータは「データサイエンティスト」と呼ばれる専門家によってきちんと分析されることで、
作業の大幅な効率化や様々な需要に対応したサービスを生み出すことができます。

つまり、大きな可能性を秘めたテクノロジーなのです。

ビックデータの活用例

例えば、AmazonやGoogleの検索で出てくるあの検索候補もビックデータを使った仕組みです。

スクリーンショット 2014-06-05 11.07.04

ビックデータの問題点

こんな良い事尽くしのビックデータですが、そこにはビックデータを分析できる専門家の
人材不足の問題も毎回付いて廻ります。

しかし、その様な状況をアメリカを中心に2011年から広まりつつある新サービス
Kaggle」が変えようとしています。

ビックデータの問題を解決する救世主「Kaggle」とは?

スクリーンショット 2014-06-12 12.24.02
Kaggleとはシンプルに言うと、
世界中のデータサイエンティストが企業の投稿する賞金のかかった課題を
競いながら解決していくウェブサービスです。

Kaggleのサービス内容

Kaggleには9万5千人を超えるデータサイエンティストが登録していて、
彼らは統計学、数学、経済学や情報科学等に精通しています。

Kaggleへの登録はFacebook、Google+、Yahoo idがあれば誰でも可能で、
登録後は個人やグループ単位で企業のコンペに参加することができます。

Kaggleで課題を出題する会社は、データサイエンティストを社内で保有していなくとも、自社のデータをKaggleに公開することでKaggleに登録しているデータサイエンティストの協力を得ることが出来ます。

中には社内にごく当たり前のようにデータサイエンティストがいるようなGoogleMicrosoftといった超有名会社も課題を提供しており、企業側のKaggleの注目度の高さが伺えます。

企業がKaggleに課題を載せる時に提示する項目は、課題の概要や、締め切り等のルール、賞金額、課題解決に必要となる過去のビックデータ等があります。

データサイエンティストは自身でデータを収集する手間を省くことができる一方、
限られた量のデータのみから回答を導く能力が求められます。

賞金とデータサイエンティスト

Kaggleでのユーザーの回答は、即座に点数化され、常にユーザーランキングに反映されるため、
データサイエンティストの革新的な回答への更なるモチベーションにつながります。

このランキングの中には日本人の名前もちらほら混じっており、
世界各国の優秀なデータサイエンティストを一覧で見ることができます。

スクリーンショット 2014-06-12 13.23.41

賞金は数百ドル(数万円)から、商用のコンペなら1万ドル~25万ドル(2千5百万円)相当の額が
提供されます。企業はデータサイエンティスト達が提案してきた回答の中から最適だと思うものを選び、無償利用権等の項目に同意をしてもらった上で、サイエンティストに賞金を支払います。

スクリーンショット 2014-06-12 13.31.58
Kaggle: How it Works – YouTubeより

過去出題された課題

代表的な課題の例には、HIV感染者の予測モデルチェスの結果予測モデルがあります。
また、一般的なものだと交通量予測や、ユニークな物だとタイタニック号の生存者傾向を調べる課題があります。今まで取り組んだことがないような、刺激のある課題に取り組めることも、データサイエンティストにとっては魅力的です。

Kaggle誕生のきっかけはNetflix

Kaggle誕生のきっかけは 、アメリカの映像ストリーミングサービスで有名なNetflixが2010年に
行った、100万ドル(1億円相当)が賞金としてかけられた予測モデルの公募コンテストでした。

このコンテストの内容は、映像視聴者に対しておすすめ映画を提案するためのアルゴリズムの精度を
上げるというもので、186カ国から5万人以上の挑戦者が集いました。これにヒントを得たオーストラリア人の数学者がKaggleを立ち上げたところ、決済サービスを運営するPayPalの共同創業者や、Googleのチーフエコノミスト等の投資家達が集まり、十分な金額を集めるまでに至りました。

こうしたKaggleの成長と同時期に、シリコンバレーではデータサイエンティストなる人材の需要が増してきたことも重なり、Kaggleは一躍注目されるようになったというわけです。

深刻化する日本のデータサイエンティスト不足

今世紀最もセクシーな職業と言われているデータサイエンティスト。
ですが、日本もアメリカと同様に、急増する需要に対してデータサイエンティストの数は乏しいものとなっています。

実はほとんどいない?日本のデータサイエンティストの現状

データサイエンティストの人口は、需要に対して追いついていません。

日本国内では具体的に、将来25万人のデータサイエンティスト不足に直面すると言われています。
また、データサイエンティストの卵である数理統計を専門にする学生たちも減少傾向にあります。

世界と比較してみるとその差は歴然で、世界における分析のスキルを有する人材の推移は中国では年率平均約10.4%、アメリカでは3.9%と増加傾向であるのに対し、日本は年率平均約-5.3%と減少傾向です

スクリーンショット 2014-06-12 14.33.28

日本のビックデータとデータサイエンティストの未来とは?

アメリカでは、1企業では限界のあるデータサイエンティスト不足という状況を
Kaggleというオープンソース型の募集手段で解決しました。一般的にアメリカの抱える問題は、日本も遅かれ早かれ抱える問題となりますが、データサイエンティスト不足という問題は現在進行形で既に日本でも起こり始めている問題です。日本では、たとえデータサイエンティストの育成を今から急速に進めていったとしても、25万人の人材不足という将来起こり得る問題を食い止められないことは明白です。

日本でもKaggleのようなサービスを利用し、国外の有能な人材に仕事を日常的にオープンソースで依頼する日は近いのかもしれません。

この記事を書いた人

author by 藤井 和香

藤井 和香

宝塚を愛する乙女。元星組トップの柚希礼音で宝塚にはまり今では星・月組中心に観劇しています。体力余っているときは会社帰りに日比谷で出待ちバリバリです。

投稿記事一覧