オンラインや社内には多くのテキストコンテンツがあるはずです。日々膨大なメールがやり取りされますし、アンケートなどでも自由記入欄があります。ソーシャルメディアなどで日々製品やサービスに関する話が取り上げられているでしょう。
そうした膨大なテキスト情報(非構造化テキスト)の中から意味を見いだし、企業にとって重要な情報を取り出すのがテキストマイニングになります。その主な目的や役立つサービスを紹介します。
感情分析
SNS投稿や製品のレビューなどから、そのテキストを書いた人がどういった感情を持っているのかを分析します。単純化するとネガポジ分析になるでしょう。製品に対してポジティブな感情を持っているのか否か、さらに楽しさや嬉しさ、悲しさなど幅広い感情を分析できます。
分類分け
そのテキストがどういったカテゴリに分類されるのかを判定します。昔であればベイジアンフィルタが得意としていた分野になるでしょう。ニュース記事をカテゴライズしたり、質問がどの製品の機能に対するものなのかをグループに分けます。それによってFAQを構築したり、改善ポイントが見えてきます。
キーワード抽出
テキストに含まれているキーワードを抽出します。関連キーワードを見いだせば、どのキーワードが別なキーワードと一緒に出てくるのか、文脈はどういったものが多いのかなどが分かります。日本語においては漢字、カタカナ、ひらがな、略語、英語などが混ざり合う傾向があるので、キーワードの名寄せも必要になるでしょう。分かち書きや形態素解析などを用いて単語の抽出が行われたりします。
SNS投稿など、テキストによっては新語が多く登録されている辞書(例: SudachiDict)を使うことも有効です。
関連分析
膨大なデータを見ていても分からない、相互関連性を見いだすのに特徴分析が利用できます。たとえばブランドAとブランドBが同じキーワードで出ることが多いといった具合です。そうした分析を行うと、意外な競合ブランドが見えてくることがあります。
時系列との組み合わせ
こうしたテキストマイニングは時系列と組み合わせるのが大事です。突如盛り上がっているキーワードや新機能に対する反応など、時間軸に沿って変化していくのも分かることでしょう。
テキストマイニング用のサービス
テキストマイニングを行うのに便利なWeb APIを紹介します。
- Cloud Natural Language | Google Cloud
- Text Analytics | Microsoft Azure
- News API Overview - AYLIEN News API
- 自然言語理解 - Yahoo!デベロッパーネットワーク
- Amazon Comprehend(テキストのインサイトや関係性を検出)| AWS
- カテゴライズAPI(カテゴリ分類) | X-デジタルマーケティング
まとめ
コンピュータ上にある最も多いコンテンツがテキストになるでしょう。それだけにテキストを分析することで、多くのインサイトがあるはずです。テキスト情報を眠らせておくのではなく、解析してビジネスに役立つ情報を得ましょう。