こんにちは、富士通ラーニングメディアの田中です。私は普段、「クラウドコンピューティング」や「ビッグデータ」などのトレンド分野および、Linuxやストレージなどのシステム基盤分野の講習会を担当しています。このブログでは以前「項目反応理論(IRT)を活用したテスト品質向上の取り組み」を紹介した際に登場しました。今回は、流行のキーワードである「データサイエンティスト」という職種と、彼らが専門とする「データサイエンス」についてご紹介します。
さて、まずはそれぞれ「データサイエンスとは」「データサイエンティストとは」ということを考えてみましょう。といっても、これらの言葉について明確な定義はありません。世間で言われるところを踏まえ、私たちは以下のように考えています。
データサイエンス:アイデアの発想、仮説立案、データ分析、評価というサイクルから得られた結果を、ビジネスに適用して価値を生み出す一連のプロセス
データサイエンティスト:データサイエンスに基づいた思考、行動ができ、(1)自社のビジネスに関する知識、(2)データ分析の知識、(3)ICTの知識のいずれかを専門家として深く理解している人材
データサイエンティストについて、異論がある方もいるかもしれません。私たちは1人のデータサイエンティストという人材ではなく、複数人でデータサイエンスチームを構成し、データ活用に取り組むことを想定しています。そして、そのチームのメンバーである、さまざまなバックグラウンドを持つ人材をデータサイエンティストと呼んでいます。このあたりを、弊社のテキストから一部抜粋したものを以下に示します。
なぜデータサイエンス"チーム"なのか、というところを補足しておきます。それは、「1人で求められる領域全てをカバーするのは非常に困難」だからです。それができる少数の優れた人材をヘッドハントしてくるならともかく、一般企業の従業員1人に、業務経験が豊富で、統計学に詳しく、それをICTシステムとして実装できる、というスキルを求めるのは難しいでしょう。一方で、それぞれの分野で経験を積んだ従業員はいるはずです。そこで、チームを構成して課題に取り組むことを想定しています。
さて、次にデータサイエンスチームを構成するメンバーに求められる知識、スキルを考えてみましょう。基本的には先述した3つのものですが、ここでは少し具体的に、各分野についてキーワードを挙げています。
キーワードの中には、聞いたことがある、すでに経験がある、というものもあるのではないでしょうか。データサイエンスは決して何もないところから突然あらわれたものではありません。さまざまな知識、スキルを統合し、データ分析で課題解決に取り組むための方法論が、データサイエンスなのです。
次に、せっかくデータサイエンスについて語っていますので、データの見方の一例として、世間でデータサイエンティスト、データサイエンスがどのような注目を集めているのかを、Web検索のトレンドから見てみましょう。Googleトレンドを使うと、2004年以降の検索キーワードのトレンドをグラフなどの形式で見ることができます。まず、「Data Scientist」および「データサイエンティスト」を合わせて調べた結果を以下に示します。
この結果から、世界的に、2011年9月頃にはじめてData Scientistがトレンドとしてあらわれたことがわかります。また、日本では2012年末から2013年はじめに、データサイエンティストについて語られるようになりました。そして、海外でも国内でも、2013年の前半に注目のピークを迎えたあと、注目度が低下しています。これは、ビッグデータを活用する人材として華々しく取り上げられたあと、現実的には人材が不足していたり、育成が困難であること、またそのような人を雇用するだけで企業の業績が改善するものではないことがわかり、幻滅の雰囲気が漂ったためと考えられます。それでも、海外では再び上昇気配に転じており、引き続き注目が集まる職種であると言えます。日本では今後どのようになっていくか不明な部分もありますが、一定程度の注目をこれからも集めるのではないでしょうか。
※データサイエンティスト1人では何もできません。全従業員がデータの価値を意識し、分析結果を自業務に活かそうという姿勢がなければ、企業としてデータを活用することはできません。
次に、同じように「Data Science」と「データサイエンス」のトレンドについても見てみましょう。
こちらも、興味深い傾向が見えてきます。実は、Data Scienceやデータサイエンスが大きく取り上げられる現在だけでなく、2004年から2005年頃にも注目が集まった時期があります。海外では、それ以降2012年頃までは注目度が低下し、安定した状態が続いていましたが、2012年中頃から再びピークを迎えつつあり、(執筆時点では)今年の4月が、これまでを通じての注目のピークです。ただし、同じキーワードでも文脈が変わっているため注意が必要です。2005年頃に注目されていたData Scienceとは、コンピュータの発展にともない、古典的な統計学に変わり用いられるようになった多変量解析や機械学習などの研究手法です。そして、現在注目されているData Scienceは、先述のようにそれらの手法を含むビジネスにおけるデータ活用の全体像です。
日本でも同様に、2005年から2006年頃にいちど注目度が高まっています。この時期に、データサイエンスをテーマとした大学の学部(同志社大学文化情報学部)が設置されたり、データサイエンスを冠する講義や書籍が増加したようです。当時はやはり、大学や研究機関を中心とした研究手法としてのトレンドでした。全体としてはそれ以降注目度が下がっています。海外では注目度がどんどん高まっているのに比べ、日本では上昇の気配が見えません。これは、日本では「データ分析」「統計学」「アナリティクス」など複数の言葉がデータサイエンスと同じ(と思われる)ものを指して用いられているので、検索数が分散しているとも考えられます。また、Data Scientistとデータサイエンティストの注目が集まる時間差から、今後データサイエンスの注目度が高まっていくとも考えられます。弊社でもそのような観点から、ビジネスパーソン一般に向けた、データサイエンスを理解するための研修として「データサイエンス入門」を提供開始しました。その他、データサイエンスに基づくデータ分析、システム構築のための各種研修も提供しています。詳細はビッグデータ関連コースのご紹介をご参照ください。
2つのグラフから、まずデータサイエンティストという"スーパーマン"に注目が集まり、その後に実質的な方法論としてデータサイエンスが注目され始めている、というトレンドも見えてきて、興味深いですね。
このように、「Data Science」「Data Scientist」「データサイエンス」「データサイエンティスト」というキーワードは、ここ数年で新しく生まれた言葉ではありません。10年以上前から、コンピュータの性能向上にともなって可能となった複雑な分析手法と、それを使いこなす人材をあらわす言葉として使われてきました。近年になって、企業でもデータの重要性が再認識され、それを扱うための手法、人材が注目された結果、「ビジネス分野における」データサイエンスやデータサイエンティストという言葉が流行していると言えます。
実は(後だしっぽいですが)、私自身「ビッグデータ」が話題に上り、講習会開発を行わねばという雰囲気になった頃に、さまざまな資料にあたった結果、「普通の科学の方法論だ」というように感じました。ビジネス、という皮を被っているものの、そこで語られていることはごく一般的な科学の研究手法だったのです。明らかにしたいことを定め、それを検証するためのデータを集め、分析を行って当初の仮説を検証し、結果を実務に適用する。最後が論文かビジネスかという違いはありますが、ほとんどのステップはみなさんの多くも経験したであろう、卒業論文の執筆過程と共通です。ですから、それを思い出して、ビジネスシーンに科学的・論理的な考え方を適用するのが、ビッグデータあるいはデータサイエンスで成功するための近道です。当初はそのあたりが周囲やお客様も含めてなかなか伝わらなかった(伝えられなかった)ので、苦労した面がありますが、現在は少しずつ理解が広がっているように感じています。
もしかしたら、皆さんの会社にも10年前に「データサイエンス」に取り組んでいて、今はビジネスパーソンとして活躍している人材がいるかもしれません。データサイエンスの素養を持った人が、10年間の現場経験を身につけていれば、その人はとても貴重なデータサイエンティストです。これから御社がデータ活用に取り組もうとされているのであれば、まずは社内にどのようなデータがあって、どのような人材がいるのか、ということを確認してみるとよいかもしれません。
もちろん、その中で強化したい技術、人材が見つかったら、お手伝いさせていただきますよ。
統計学に関する書籍は世の中にたくさんありますので、ここではそれ以外のテーマを扱った書籍を中心に紹介します。
ご紹介している書籍以外に、私が担当している
「データサイエンスの基礎~データの収集、分析、評価~」コースもございます。ぜひ詳細をご覧ください。
講習会で皆様とお会いできることを楽しみにしております。
プロフィール: ビッグデータ、クラウドおよびシステム基盤関連の研修を担当。
学生時代は、心理学、教育工学、障害者支援などを少し長く研究していました。その中で培った仮説検証の方法論やデータ分析のスキルが、現在のビッグデータ関連研修の開発に役だっています。
また、組版ソフトTeXや、統計解析ソフトRなど、OSS関連のコミュニティ活動を学生時代から続けています。
(2014/05/22)