みんなのつぶやきを元にしたQ&Aデータベース Questo
Twitter上では時々、ツイートでフォロワーのみんなに問いかけをする場合があります。
そんな中で「Twitter上でやりとりされるQ&Aをうまく取り出してQ&Aデータベースを作ったら便利なのでは?」という思いつきで作りました。
本のPR会社 QUESTO
(※即席で実装したので、デザインがテキトーで機能もほとんどありません・・・)
Q&Aの取り出し方
たったそれだけのものなのですが、膨大な「つぶやき」の中から時々出てくる「質問」を取り出すのは難しい問題です。
今回は、このような手段を使いました。
- 「?」を含むツイートは質問とみなす
- 「@」「RT」「http://」「(?)」を含むツイートは除外
- ユーザーIDに「bot」を含むツイートは除外
- ベイジアンフィルタで質問かどうか判定
- 返信のないツイートは除外
ベイジアンフィルタとは?
よく迷惑メールのスパム判定に使われるものです。
メール本文を単語に分解し、その単語群がスパムメールに含まれる確率を元に、そのメールがスパムかどうかを判定します。
これをスパム判定ではなく、質問判定に使おうというものです。
このアルゴリズムは、事前に膨大な学習をさせる必要があるので、ひたすら質問か質問じゃないかを手動で判定していきました。
ある程度精度が出るようになったら、あとはベイジアンフィルタの判定結果を元に学習させることができます。だから今も自ら学習中です。
ベイジアンフィルタの有用性は?
これをやりたいがためにベイズ統計などを少し勉強して作りましたが、実際の精度はいまいち。
目的にはあまり合っていなかったかもしれません・・・。
コメント