kakakakakku blog

Weekly Tech Blog: Keep on Learning!

JSAI2008_聴講まとめ

JSAI2008で勉強になった発表を自分用にまとめておく.発表と原稿を元に書くが,もし誤解釈をしていたら指摘求む.
ちなみに,JSAI2008のプログラムと原稿は「jsai2008 Schedule」に公開されてます.

1G2-1:Wikipediaマイニングによる大規模Webオントロジの実現

オントロジー構築のコーパスとして,膨大な概念を網羅したWikipediaを利用した研究.これまでもWikipediaを利用したシソーラス辞書構築などを数々提案されてきたということで(研究業績参照)シソーラスからオントロジーに目標が広がってきたと言える.重要文解析のためのLSP法とISP法はこれまでの論文でも書かれている内容で非常に有用な手法です.そこで,今回の提案手法で抽出された意味関係の例(原稿の表3)を見ると,

Apple is Fruit
Cat is Mammal

など,Predicate(属性)がis(was)のみであった(研究結果ではもっと多種のPredicateが抽出できているのかもしれないが).このPredicateをオントロジー的に言うと,is-a関係やsubClassOf関係であり,知識表現において汎用的で重要な関係ではあるが,きっとセマンティックウェブ(Web3.0)の必要としているWebオントロジーはもっと多種多様なプロパティ(属性)が概念間を網羅していないといけないのではないかなと僕的には考えている.よって,今後の取り組みでより詳細な意味表現を自動的に抽出できる手法の提案に心底期待したいと思う.

2D2-1:日本語オントロジー辞書システムOntolopediaを用いた検索手法に関する一考察

この研究もWikipediaコーパスとした日本語オントロジーの構築と,汎用的な利用を目指したOntolopediaの開発をされている.そもそもこのような研究はどうやってWikipediaの膨大なページを解析しているんだろう(HTMLをゴッソリ抜いてくるなんて無謀すぎるし・・・)と前から謎だったんだけど,Wikipediaダンプデータというものが公開されているらしい.1.3GBのXMLファイルとか異常すぎ.

それで,ここで構築されているオントロジーは全7種のプロパティを半自動的に(ボランティア有)抽出している.

supers, IsA, same, has_part, attribute, where, can

構築されたオントロジーの網羅性評価などが行われていなく(オントロジーの評価は困難だと言われている),どの程度有用な辞書になっているかわからなかったので,実際に公開されているサービス(Ontolopedia)を使ってみた.

検索語「セマンティックウェブ」だと,残念ながら7属性に値なし.検索語「オントロジー」だと,上位概念[哲学/セマンティックウェブ/人工知能/バイオインフォマティクス],類義語[存在論/オントロジー/遺伝子オントロジー],部分材料[メタデータ]で,他の4属性には値なし.ということで,キーワードによるけど,そこそこ有用な結果が出てるような気がします.また,このOntolopediaからXML形式のデータを抜き出すAPIも公開されているようなので,今度使ってみようかと思う.

3F2-03:日本語Wikipediaからの汎用オントロジーの構築と評価

Wikipediaを利用して汎用的なオントロジーを構築する試み.主に(1)後方文字列照合と(2)前方文字列照合部除去を用いたクラス階層の構築と,Wikipediaの一覧記事を用いたインスタンスの抽出を行っている.クラス間のis-a関係の抽出は,他でも行われているが,インスタンスを抽出している点が興味深かった.

6節のまとめで

(前略)文字列を利用した全自動構築には限界が見えたともいえる結果となった.この問題を解決するため,今後は既存の上位オントロジーを利用し,さらに人間とのインタラクションを取り入れながら半自動的にWikipediaから汎用オントロジーを構築していく予定である.

と書かれている.やはりオントロジーの有用性を向上させるためには,最終的には人手での修正が不可欠になると思う.まぁ巨大なオントロジーの保守運用は膨大なコストがかかるわけだけど.

2D3-02:Wikipediaの言語間リンクに関する分析

Wikipediaを用いた多言語対訳辞書を構築する研究.ここで「対訳」とは既存の辞書に載っていないような語を多言語に訳すことを意味する.例えば「あいのり」は英文だと「Ainori」だし,中文だと「戀愛巴士」である.

その手法としてWikipediaの言語間リンクを用いる.この言語間リンクとはWikipediaの機能の一つで,「人工知能」という語を例とすると,
和文:人工知能 - Wikipedia
英文:Artificial intelligence - Wikipedia
伊文:Pagina principale - Wikipedia
こんな感じに各語にページが存在し,これらがWikipediaの左側の「他の言語」の箇所でリンクされている.

なんとなくだけど,上に数点挙げてきた汎用(Web)オントロジーのクラスやインスタンスのそれぞれにこの研究の要素を取り入れることで,多言語を網羅する無敵のオントロジー(世界汎用オントロジー)が構築できる可能性を秘めている気がする.

2D2-03:Web上の同姓同名人物識別のための職業関連情報の抽出

Webページ内から職業に関する情報(職業関連情報)を抽出する研究.基本的なアプローチは,名詞を抽出して,ヒューリスティックを用いて職業関連情報かどうかを判定している.職業関連情報(2)所属と役職を表す語,では「固有表現抽出システム:NExT」の「組織名辞書」というものを利用しているらしい.調べてみよう!使えそうだったら使ってみよう.


この研究で気になる点が3点

  • HTML構造(p要素,tr要素,title要素...etc)に着目するより,むしろタグを除去しちゃった方が良いかも?
  • 評価をされてないのでわからないけど,同姓同名の識別はできてるのか?現職と前職の判別をしていないような気がするので,例えば「内閣総理大臣福田康夫」と「内閣官房長官福田康夫」が同姓同名と判別されないか?
  • 同姓同名の分離と識別って何が違うの?

1E1-04:人物名に着目した二段階クラスタリングによるWeb上の同姓同名人物の分離

上の2D2-3と共著者が同じなので,同じ研究室の院生と予想.この研究は,氏名によりWeb検索結果(スニペットかな?)から同姓同名人物毎にWebページを分離することを目的としている.そのアプローチとして,人物名に着目した2段階のクラスタリングを行っている.

中間クラスタに対して,特徴語ベクトル(人物名,組織名,地名,キーワード)を用いてクラスタリングをしているわけだけど,やっぱり気になるのは現職と前職で同姓同名と判断されてしまってないかということ.実験の結果では「おおむね良好」と書かれているし,僕の杞憂なのかな.

3B1-04:検索エンジンを用いた関連語の自動抽出

検索エンジンにクエリを投げて関連語を抽出する研究.関連研究との比較がしっかりとされていて,とても勉強になった.ここで挙げられている参考文献を読んでみようと思う.研究のアプローチとしては,あらかじめ正解データ(WordNetなどを利用)で学習をさせることで,語とその関係の順位付けされたリストを獲得する.評価もしっかりとされていて参考になる.
ただ発表の時に言っていたのが,Googleにとにかくたくさんのクエリを投げるから,処理の時間が膨大にかかるということだった.1語の関連語を抽出するのにどのぐらいの時間がかかるんだろう.

ちなみにこの発表じゃなく2日目の2D2のセッションに参加したときだけど,座長をされていた松尾先生をはじめてお見かけした.ただ見かけただけだけど,とっても感激☆

最後に

そんなことで,人工知能学会の全国大会には初めて参加したけど,とても良い経験になりました.自分の知らないことが多すぎて「もっと勉強しなきゃ!」と焦ったりしたけど,「この分野の研究しててよかったな」なんて思うこともあり,非常に考えさせられる3日間でした.

関連エントリー1(JSAI2008開催中に書いた!)

JSAI2008_1日目 - kakku blog
JSAI2008_2日目 - kakku blog
JSAI2008_3日目 - kakku blog