日本語データの抽出 - takayu-k.archives

Google Newsとかのデータを取って解析したいとき、多言語文書の中から日本語のデータだけが欲しいということがよくある。
そこで抽出を試みるワケだけれども、
日本語には漢字ひらがなカタカナが混じっているので、例えばひらがなを含むか否かで判別できる。これはよくやる。

ニュースデータには必ずURLが存在するので、URL → 文書のハッシュを考えると管理しやすい。日本語としてマッチングされなかった記事URLのドメインを保存しておけば次からは文書を見なくても除外できる。

これをTwitterデータでやるとするとどうなるかな。フォローフォロワー関係を見て識別するのが良さそう、文書データが主体のサービスなんだから上手く抽出できると思う。また試してみよう。