kakakakakku blog

Weekly Tech Blog: Keep on Learning!

Wikipediaワークショップ(SWO20)に参加してきた

本日は「第20回セマンティックウェブとオントロジー研究会 Wikipediaワークショップ」に参加してきた(セッションIとセッションII).立ち見続出の満員で,Wikipediaを取り巻いた研究の注目度合が感じ取れた.

辞書の構築やオントロジーの構築,異言語対訳への可能性など,Wikipediaという大規模なコーパスを存分に活用した研究だけでなく,Wikipediaの成長や信頼性を検証するという逆の視点から研究しているグループもあり,多岐に渡る可能性を秘めているWikipediaマイニングの将来に希望を感じることができた.

ただ言語処理やセマンティックウェブ,情報検索など,Wikipediaが多くの分野に適用できることはわかったが,日本国内だけではなく,世界各国でもこれだけ注目されている新分野だけに,同じような取り組みをすることも考えられるし,その中でどう新しさを見出すか,秀でた成果を出すのか,などの難しさもあるように思う.

以下に自分用の簡単なメモを残しておく.

チュートリアル:Wikipediaマイニングチュートリアル〜Wikipediaマイニングの勘どころ〜

SIG-SWO-A803-03:WikipediaFolksonomyタグに基づくドメインオントロジー構築支援環境の実現と評価

なんとなく見たことがあったので,多分「Not found ページが見つかりませんでした | 人工知能学会 (The Japanese Society for Artificial Intelligence)」や「SIG-SWO-A801-06:汎用オントロジー構築における日本語Wikipediaの適用可能性」あたりの続編だと思う.論文の図が見えなくて残念.特に図1,2,5,7,9など.
内容は,Wikipediaのリダイレクトリンクや一覧記事,カテゴリ階層,Infoboxを活用してオントロジーを構築しましょうという研究.構築されたオントロジーは「日本語Wikipediaオントロジー」で公開されている.ただWikipediaコーパスとしたオントロジー構築系の発表を見ると,類似研究との決定的な差異はどの辺にあるのだろう?と思ってしまう(自分の理解不足?).例えば「DBPedia」や「YAGO」や「Wikipediaオントロジ(Wikipediaシソーラス)」や「Ontolopedia」などなど,今思い付くだけでもこのぐらいある.類似した研究が各地で行われているっていうのは,どこが一抜けするかという意味で難しいなぁと思う.それでもセマンティックウェブの実現に向けて汎用的なウェブオントロジーが構築されることは大きな意味を持つので,今後の進展に期待したい.

SIG-SWO-A803-06:ウィキペディアの成長における秩序と多様性

Wikipediaの成長に着目した研究.スライドの2ページ目あたりを見た瞬間,この研究をどこかで見たことがあるなーと思って,帰って調べたら「Not found ページが見つかりませんでした | 人工知能学会 (The Japanese Society for Artificial Intelligence)」だった.この発表も見てました.

SIG-SWO-A803-08:意外性のある知識発見のためのWikipediaカテゴリ間の関係分析

カテゴリ情報を統計的に分析して,意外性のある知識を発見しようという試み.意外と感じるかどうかというのは人によって違うため,その定義が難しいと思うが,実際に例示された知識は確かに意外だった.また,カテゴリ間の子孫関係がある場合,共通カテゴリ数F(S_i_j)が1でも意外ではない知識になってしまうというのは興味深かった.例示されていた意外性のある知識は,子孫関係がなくてF(S_i_j)が1の場合であったが,F(S_i_j)が2以上の場合で意外性のある知識ってのはないのだろうか?

SIG-SWO-A803-09:Wikipedia編集履歴を用いた記事の信頼性導出

「一人の著者が信頼できる記事と信頼できない記事をどちらも記述する場合が他の場合と比較して小さい」という仮説の基,著者が記述した記事の残存率から記事の信頼性を導出しようという試み.まず疑問に感じたのが,Wikipediaコミュニティにおける追記・削除・置換の中で,事実と反する記述を訂正する作業の割合はどの程度あるのか?という点.例えば,信頼できる記述だがちょっと日本語の表現を訂正するという場合や,これまでは事実と認識されてきた事柄に新たな発見があって訂正された場合,また番組の記事など,放送が進むたびに記事も追記されていく場合もあるように思う.もしかしたら導出が適するカテゴリと適さないカテゴリに二分するのかもしれない.それでも非常に興味深い研究だと感じた.