スマートフォンやタブレット端末が浸透するにつれて、ユーザーはオンラインで多くの情報を発信するようになりました。ソーシャルメディアでの発言や検索ワード、各種行動記録などの情報は、さまざまなサービスの運用や開発に活かされています。ビッグデータの分析技術の開発や運用に携わっているコンシューマシステム事業部 第2システム開発部のメンバーに質問をぶつけてみました。
※この記事の内容はすべて、取材が行われた当時のものです。
中川 現在、多くの人が日常的にソーシャルメディアを利用し、コミュニケーションを楽しんでいますよね。何気なく投稿されるコメントやつぶやきの中には、さまざまなサービスのヒントやビジネスチャンスが眠っています。「●●●を買いたいけど、ちょっと高いな」、「●●●をこんなふうに使ってみた」「●●●最高! また参加したい」など、一般の生活者が発信するリアルな本音があふれているわけですから、企業にとっては自社の商品やサービスがユーザーにどう評価されているのかを知るための、この上ない情報源ですよね。今や多くの企業がその価値を意識し、データの収集・活用を試みるようになってきました。
しかし、そのボリュームはあまりに膨大なため、本質を表す特徴的な情報のみに絞り込むことで計算量を減らしたり、文章等の数値化されていないデータを数値に置き換えることで単純化したり、様々に集められたデータ同士を紐付けられるように情報を付与したり等の処理が必要な「ビッグデータ」と呼ばれるものになります。
中川 情報分析の依頼が少しずつ寄せられるようになったのは2004年頃から。ソーシャルメディアが今のように普及する前のことでしたが、インターネットを通じて情報を発信したり、交換することが一般的なことになってきたタイミングでした。クライアントの要望に応える形で私たちは自然言語解析など※1の研究を進め、技術を培ってきました。2010年には蓄積してきたノウハウを結集し、クチコミの活性化を支援する「VOCシステム※2」を開発しました。
K.S 私はWebサーバやスマートフォンアプリのログからユーザーの動きや好みを読み解き、一人ひとりに最適化した魅力的な情報を届けられるようにする──そんなしくみをクライアント企業とともにつくっています。このプロジェクトが始動したのは2010年でしたが、当時はスマートフォンが市場に出回り始めた頃で、使っている人も決して多いとは言えない状況でした。それが一般化することを前提としたプロジェクトだったので、時代を先取りするワクワク感の一方で「本当に流行るのだろうか」という不安がなかったといえば嘘になりますね。
幸い私の懸念は杞憂に終わり、その後スマートフォンの普及率は急速に上昇。目的に応じたアプリをダウンロードして利用する行為も珍しいものではなくなっていきました。“どんな人が、いつ、どのようなことを知りたいと思ったのか”──それを可視化する分析結果の価値も、さらに高まってきています。
太田 インターネット上にある膨大な情報、その多くは誰もがアクセスできるオープンなものです。そこからクライアントの企業が求めているものを見つけ出し、解析することで「商品」としての価値が生まれる。海のどこかに眠っている宝物を探すような面白さがありますね。問題なのは、この「海」があまりにも広すぎること。VOCシステムでは常時4億ページ以上のデータを解析していますが、これだけのボリュームをリアルタイムで処理するノウハウを、開発当時の私たちは持ち合わせていなかったんです。どんなOSS※3をどのように活かせばいいのか、自分でもソーシャルメディアに登録し、海外の成功事例なども調査しながら試行錯誤を重ねてきました。
ローンチできたのは“自由闊達な気風を大切にする”環境によるものが大きかったと思います。安定した経営基盤を持ちながらベンチャー精神を忘れず、現場のチャレンジに投資してくれる企業体質はNTTデータCCSの大きな強みですね。経験豊富な先輩であり、上司でもある中川さんが私なりのやり方を尊重してくれたことで、納得行くまでトライ&エラーを繰り返すことができました。プレッシャーもありましたが、自分の方法論でシステムをつくり上げることができた経験は大きな自信になったと思います。
中川 生活者の声や行動を把握し、マーケティングに活用することのメリットは今や多くの企業が知るところとなり、さまざまなサービスの中で広く活用されるようになりました。これまでクライアントとなるのはメーカーや広告代理店などが中心でしたが、最近では行政サービスに市民の声を反映させたい官公庁からの依頼も増えつつあります。もちろん、課題がないわけではありません。ユーザー数の増加に伴ってビッグデータ化はますます進んでいきますし、SNSやアプリの仕様変更によってそれまで使っていたクローラ※4がうまく作動しなくなることもある。より精度の高い情報をピックアップするための仕組みにも、まだまだ改善の余地があります。
新しいサービスに接することの多い、若い世代のスタッフのチャレンジをサポートしていく必要もあるでしょう。お客様のニーズに応えながらブラッシュアップを進め、ユーザーにより良いサービスを提供できるシステムをつくりあげていきたいですね。
自然言語解析とは、人間が日常的に使っている言葉をコンピュータに処理させる技術のこと。人工知能のテクノロジーと言語学の研究結果を応用することで、文章が意味することを把握し、分類することが可能になります。NTTデータCCSではこれと同時に、性別や世代など発言者の属性を推定する機械学習技術の研究も進めてきました。
インターネット上のクチコミ情報を収集し、発言者の性別や年齢、ポジティブかネガティブかを推定するシステム。VOCはVoice Of Customerの略で、「お客様の声」という意味。解析結果によりファンを特定し、クチコミの活性化やより良いサービス・製品の開発に活かすことができます。
オープンソースソフトウェア(Open Source Software)の略語。ソースコードの著作権保有者が、その利用を広く許可しているソフトウェアのこと。現在ではOSSを駆使したシステム開発は一般的なものになっています。インターネットや書籍などで、さまざまな事例や関連知識にも触れることができますが、当然ながらお客様の求めているシステムそのもののつくり方はどこにも載っていません。最終的には自分の頭で組み立てていく必要があります。
インターネット上の情報を取得して、データベースを作成する自動巡回プログラムのこと。Webサイトを這う(クロール)するイメージが名前の由来です。