SlideShare a Scribd company logo
2009年8月27日
第114回ku‐librarians勉強会@京都大学附属図書館




   Wikipediaをいかに使いこなすか?
   ~知識抽出、情報ナビゲーション、
   ~知識抽出 情報ナビゲ ション
          そしてトピック発見
                  見

         東京大学情報基盤センター
         東京大学情報基盤センタ
         学術情報研究部門 助教
      (兼 株式会社リッテル 上席研究員)
            清田 陽司
            清
関心分野
• 自然言語処理技術を応用した情報検索システム
 – 対話的ヘルプシステム「ダイアログナビ」
   対話的 ルプシステム ダイア グナビ」
  • WindowsやOffice利用者向けの質問応答サービス
• 情報検索プロセスの解明
 – 対話(聞き返し)による情報探しニーズの明確化
 – 情報の組織化
  • 聞き返しをするには何らかの知識構造が必要
 – 情報検索手段の変遷
  • 人に聞く 図書館 データベース サーチエンジン 掲示板
    人に聞く、図書館、データベース、サーチエンジン、掲示板…
  図書館レファレンスサービスの課題と共通
• レファレンス支援システムの研究
 – タクソノミーとフォークソノミーの統合
 – 実用システムの研究開発
    リッテルナビゲーターとして実用化               2
経緯
• もともと京大メディアセンターのヘルプシステム
  を手掛かりに博士の研究を始めた (     年)
                   (2000年)
 – 京大附属図書館レファレンスシステムもあった
 – 利用できるデータはNDLSHだけだった
• その後 MSとの共同研究でダイアログナビを
  その後、MSとの共同研究でダイアログナビを
  開発し、博士論文を提出
• 「次に何を研究しようか」と考えていたときに東
  大総合図書館内の研究室に赴任 (2004年)
 – 図書館の豊富な情報リソースをうまく使えないか?
 – Wiki di のコンテンツが本格的に充実してきた
   Wikipediaのコンテンツが本格的に充実してきた
ダイアログナビ(Dialog Navigator)
       (     g     g    )




 • マイクロソフト株式会社との共同研究
 • 2002年4月から運用開始
    • いまは稼働していませんが          4
5
6
7
8
9
質問とテキストの間の
       具体性のギャップ
           52件のテキストが見つかりました。
           52件のテキストが見つかりました
Windowsで      • Windows 98を起動したときに、…と
エラーが発生した       いうエラーが発生する
              • Wi d    XPでアプリケ シ ンを
                Windows XPでアプリケーションを
              起動したときに、エラーが発生する
              • インターネットにダイアルアップで接
              続しようとしたときに、…というエラー
              続     うと たとき     と う
              が発生する
              • 印刷中にエラーが発生して印刷で
              きない
              • …………………………..




                                   10
質問とテキストの間の
       具体性のギャップ
           52件のテキストが見つかりました。
           52件のテキストが見つかりました
Windowsで      • Windows 98を起動したときに、…と
エラーが発生した       いうエラーが発生する
              • Wi d    XPでアプリケ シ ンを
                Windows XPでアプリケーションを
              起動したときに、エラーが発生する
              • インターネットにダイアルアップで接
              続しようとしたときに、…というエラー
              続     うと たとき     と う
              が発生する
              • 印刷中にエラーが発生して印刷で
              きない
              • …………………………..




                                   11
エキスパートやコールセンター
対話的に具体性のギャップを解消

 Windowsで    エラーが発生したのはい
 エラーが発生した    つですか?



             お使いのWindowsは何で
             すか?



             どんなエラーメッセージが
             出ましたか?




                              12
もくじ
1.                   とは?
     Littel Navigatorとは?
          l
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik‐IEの紹介
     –   Hadoop, MapReduceとは?
         Hadoop MapReduceとは?
5. まとめ

                                13
もくじ
1.                   とは?
     Littel Navigatorとは?
          l
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik‐IEの紹介
     –   Hadoop, MapReduceとは?
         Hadoop MapReduceとは?
5. まとめ

                                14
こんなときどうしますか?
• Winnyをテーマにしてレポートを書く
 – 知的財産(著作権)に関する法律の観点から
 – P2Pソフトウェアの技術について
 – 匿名掲 板独特 文化
   匿名掲示板独特の文化
 – 表現の自由との関連
• 「日本のアニメ」を研究したい
 – アニメ産業のあり方 (製作会社、分業制、…)
   ア メ産業のあり方
 – アニメ製作技術 (セル画、CG、…)
 – アニメの主題 キャラクターの描き方・・・ユニ
   アニメの主題、キャラクターの描き方・・・ユニ
   セックス…
 – アニメの国際比較
   アニメの国際比較…
                            15
こんなときお役にたちます
リッテルナビゲ タ
リッテルナビゲーター
=情報探しのヒント検索システム
(1) 「
    「切り口」探し
         探
(2) 情報の関連づけ
  情報そのものの発見、情報の関係との発見




                        16
リッテルナビゲーターとは?
 リッテルナビゲ タ とは?
「情報探索のヒント」検索システム
=パスファインダ 自動生成システム
=パスファインダー自動生成システム
• さまざまな情報リソースの統合検索
 – 件名標目、書架分類、レファレンスブック、
   Webサイト、オンライン百科事典、...
• 曖昧な質問(キーワード)から具体的な探
  し方へのナビゲ ション
  し方へのナビゲーション
 – Wikipediaを用いた探索テーマの自動導出

                             17
リッテルナビゲーターの主な機能
リ テルナビゲ タ の主な機能
• テーマグラフの自動生成
 – 分野の自動的な導出
• 分野からの情報探し
 – 日本十進分類法(NDC)による資料検索
   →書架の特定、参考図書調べ
 – インタ ネ ト学術情報インデ クスの利用
   インターネット学術情報インデックスの利用
• 関連キーワード探し
• 他のサーチエンジンとのリンク
 – OPAC JapanKnowledge Google Scholarなど
   OPAC、JapanKnowledge、Google Scholarなど
                                          18
19
20
セキュリティへの脅威
              (情報漏洩など)
 著作権法改正の
議論に与えた影響は
議論に与えた影響は?
  被害額は?




         ソフトウェアの開発モデ
         ルとしてのフリーウェア
         ルとしてのフリ ウェア
                          21
P2Pネットワーク
          P2Pネットワ ク
          技術の観点から
            特異な存在




   ソフトウェア=創作物         匿名性により普及
創作物を公開することで逮捕され
創作物を 開する と 逮捕され       匿名掲示板独自の
 るのは表現の自由に反する?           文化   22
23
一大産業としての
              ア
              アニメ


芸術としてのアニメ              アニメ製作技術の
 もはやサブカル                  高度化
チャーではない?




                             24
25
26
•著作権法百年史
•著作権法事典
•著作権法ハンドブック
 著作権法  ドブ ク
•表現の自由・著作権・名誉毀損
やさしく引ける判例総覧
•著作権法のノウハウ
•…




            27
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見
利用実績
• 導
  導入先
  東
  東京大学、東京電機大学、同志社大学、東邦大
       、東  機   、     、東
  学、亜細亜大学、千葉大学、神奈川工科大学
※2009年5月より国立国会図書館 リサ チ ナビ
※2009年5月より国立国会図書館「リサーチ・ナビ
  」にコンポーネントとして導入
• マーケティング用途利用
  マ ケティング用途利用
 – ベクトル空間モデルによる関連KW抽出とWikipedia
   カテ リの組み合わせでSEMワ ド候補を導出
   カテゴリの組み合わせでSEMワード候補を導出
 – 分野別辞書の作成
  • テレビ番組、ドラマ、タレント、映画、お菓子、…
                              32
ワ ド抽出例
        ワード抽出例
おでん
 鍋料理→すき焼き、寄せ鍋、味噌煮込みうどん…
涼宮ハルヒの憂鬱
涼宮 ルヒの憂鬱
 角川書店→ハレ晴レユカイ、ザ・スニーカー、月刊
  少年エース、ねこマン、…
 学園小説 ご愁傷さま ノ宮くん、Missing、フルメ
 学園小説→ご愁傷さま二ノ宮くん、Missing、フルメ
  タル・パニック!、…
 独立UHF放送局→らき☆すた NHKにようこそ! 魔
 独立UHF放送局→らき☆すた、NHKにようこそ!、魔
  法少女リリカルなのはA‘s、ひぐらしのなく頃に、少
  年陰陽師、ゼロの使い魔、…
  年陰陽師 ゼロの使い魔
                          33
もくじ
1.   Littel Navigatorとは?
2.
2    図書館の世界とW bの世界
     図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     Wiki di を使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik-IEの紹介
     –   Hadoop,
         Hadoop MapReduceとは?
5. まとめ
                               34
情報検索の手段の変遷
• 20世紀以前
 – 人に聞く
 – 相談窓口
   (無料: 図書館や公共機関, 有料: コンサルタントなど)
 – 本屋に行く
 – 図書館で調べる
 – Webディレクトリ、個人ブックマーク、商用DB…
      デ  ク   個人ブ ク  ク 商
• 21世紀: 上に加えて
 – GoogleなどのWebサーチエンジンの利用
 – 掲示板 人力検索エンジン ソーシャルブック
   掲示板、人力検索エンジン、ソ シャルブック
   マーク…                            35
情報探しのニーズ
• Web検索で探せる質問=事実を問う質問
 – 関東大震災はいつ発生しましたか?
 – XXXってどんな病気?
• 本当に探し手が知りたいこと
 – 大学の学生「関東大震災についてのレポートを書か
   大学の学生「関東大震災についてのレポ トを書か
   なきゃいけなんだけど、いったいどんな資料から調べ
         」
   たらいいの?」
 – 難病の患者「この病気について最先端の治療を行っ
   ている病院を探す方法は?」
      情報探しのテーマが曖昧な場合が多い
    →テ マの推薦(レコメンデ ション)が必要!
    →テーマの推薦(レコメンデーション)が必要!
 36
テ マ推薦の要件
          テーマ推薦の要件
• カバレ ジ
  カバレッジ
 – どんなキーワードに対しても何かをお薦めして
   欲しい
 – これができないと結局使ってもらえない
• 組織化
 – 「これを見た人はこんな情報も見ています」で
   は不十分!
 – 分類ごとにお薦めすべき情報資源には定番が
   存在
• 信頼性
 – 「ネットでググる」だけでは不十分!
 – 信頼できる情報資源が必要

 37   Web情報の組織化の現状は?
Web情報の組織化の取り組み
• サーチエンジンの性能向上
       ジ
 – PageRank ( eb の民主主義)
    age a (Web上の民主主義)
 – 自然言語処理分野の成果の活用
• 多数の 般利用者による情報組織化
  多数の一般利用者による情報組織化
 – ブログ: トラックバック
 – 掲示板: スレッド、まとめサイト
 – ソーシャルブックマーク: 一般利用者によるタグ
   ソ シャルブックマ ク: 般利用者によるタグ
   (キーワード)の付与
 – Wikipedia: 百科事典の共同編纂
                             38
情報検索におけるロングテール(?)
• 難病の治療法
 – 10万人に1人という難病にかかった。かかりつけの医者
   はXという治療法を勧めたが、深刻な副作用を伴うらしい。
   一方、たまたまニュースで海外で普及しつつある治療法Y
     方 たまたまニ  スで海外で普及しつつある治療法Y
   を知ったが、それを実践できる医者を知らない。さてどち
   らを選択すべきか?
• F社の期限切れ原料使用問題の背景
 – 過去の同様の事件との共通点は?
 – では他社の製品は安全なのか?
 – Web掲示板上での主流意見はあてになるのか?
• A市における過去100年間の犯罪発生率

      Webの利用で答えられるか?         39
Webの情報検索手段としての性質
利点
• とんでもなく広いカバレ ジ
  とんでもなく広いカバレッジ
• 多様性(マスメディアへのアンチテーゼ)
     (              )
欠点
• 価値・信頼性の判断基準を提供してくれない
 – 利用者自身が知識体系をもっている必要がある
• フロー情報中心
     情報中心
 – ストック情報は残りにくい
 – 注目されすぎた情報は突如姿を消してしまう
• ブラウジング指向の組織化
                          40
Web上での組織化の限界
ブラウジング指向に偏りがち
ブ   ジ グ      が
• ソーシャルブックマークやランキングを機能さ
  ソ シャルブックマ クやランキングを機能さ
  せているフィードバックは、ブラウジングを便
  利にしたい情報消費者のものが中心
• 偏った探索になりがち
 – 検証を経ていない二次情報への頼りすぎ
• 人類が積み重ねてきたストック情報とリンクさ
  れていない(浅い組織化)
                        41
Webの可能性
             可能性
• 探索手段としての間口の広さ
 – どんなキーワードを入力してもとりあえず何かヒット
          ド     も    ず
 – 情報探索の足がかりとしては最適
• 注目されていない情報も存在を許される
 – マスメディアにはない最大の特色
 – どうやって価値を判断するかが問題
• Wikipediaの可能性
 – 膨大な項目数(日本語: 30万項目以上)
 – 明確な目的: 「
    確な 的 「Web上に百科事典を構築する」
                 科事典を構築する
 – 項目の組織化への取り組み(Wikipediaカテゴリ)
   他のWebサイトにはない大きな特色          42
テ マ推薦の要件
          テーマ推薦の要件
• カバレ ジ
  カバレッジ
 – どんなキーワードに対しても何かをお薦めして    Web
   欲しい
 – これができないと結局使ってもらえない
                            Wikipedia
• 組織化
 – 「これを見た人はこんな情報も見ています」で
   は不十分!
 – 分類ごとにお薦めすべき情報資源には定番が     図書館
   存在                       システム
• 信頼性
 – 「ネットでググる」だけでは不十分!
 – 信頼できる情報資源が必要
            渡          情
 Wikipediaを橋渡しとして、信頼できる情報
 資源をお薦めできないか?
 43
もくじ
1.                   とは?
     Littel Navigatorとは?
          l
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik‐IEの紹介
     –   Hadoop, MapReduceとは?
         Hadoop MapReduceとは?
5. まとめ

                                44
オントロジーとフォークソノミー
オントロジー
     ジ               フォークソノミー
• トップダウン的な分類         • ボトムアップ的な分類
• ひとつの上位概念           • 複数の上位概念
                            再生可能 半導体
       電気化学           電池    エネルギー 素子

 電離層    電池    磁気化学


燃料電池   太陽電池    蓄電池   燃料電池   太陽電池   トランジスタ



図書館的な分類体系            Web的な分類体系
                                       45
Wikipedia
                 p
                   価格
• インターネット上で共       価格(かかく)とは、有形・無形の各種の商品
                   (サービスを含む)の取引に際して提示される金
  同編集されている多        額を言う。基本的には需要と供給のバランスに
  言語百科事典           よって決定される。一般には、値段(ねだん)とも
                   呼ばれる。
• 各記事にはカテゴリ        …
                   カテゴリ: [マーケティング][経済学][市場]
  が付与されている
 – フォークソノミーの特
   フォ クソノミ の特              社会
   徴を有する            社会科学
                            経済
 – カテゴリにもカテゴリを
   付与できる(ゆるやか    労働               産業
   な階層構造)
               ビジネススキル            商業
 – 複数の上位概念を与
   えることができる(多重      経営学        流通
   継承)             マーケティング 経済学
                     ケティング        市場
                                         46
                             価格
オントロジー        社会
 型構造
       社会科学   経済


  労働                     産業

ビジネススキル
ビジネ  キ                   商業

       経営学          流通

    マーケティング
          グ   経済学        市場

フォ クソノミ 型
フォークソノミー型
   構造         価格              47
提案: Wikipediaと図書館分類体系の
           対応づけ
図書館の分類体系をWiki di で拡張してみよう
図書館の分類体系をWikipediaで拡張してみよう!
• Wikipedia
 – Webの汎用的な情報資源としては最も組織化されてい
   る(Wikipediaカテゴリ)
 – Web上の他の情報資源との親和性をもつ
• 図書館分類体系(書架分類法、件名標目表)
         (           )
 – 人類が営々と積み重ねてきた知識体系
 – 価値判断に必要な情報資源への有力なポインタ
両者を組み合わせて利用することによって、キー
 ワ ドから探索テ
 ワードから探索テーマ(=件名)を自動導出する
           ( 件名)を自動導出する
→ 導出された件名に関連する情報資源を提示 48
社会科学(300)                  自然科学(400)    技術(500)

                     「地震防災の事典」(岡(             「日本被害地震総覧」
             経済(330) 田恒男ほか, 2000年)
                       社会(360)              地球科学(450) 建築学(520)
                                               (宇佐美龍夫, 2003年)
             経済史(332)   社会福祉(369)            地震学(453) 建築構造(524)
「経済学事典」(日本
経済新聞社, 1996年)
経済史-日本                    災害          地震誌(453.2)      地震
 (332.1)
経済史-日本                         地震災害           地震予知         耐震建築
-平成時代
 (332.107)                          図書館オ
                                    図書館オントロジー   ジ
                                     (NDC, BSH)
                                      Wikipedia
                                          p
              経済史         災害
                                     震災がその後の
              日本の       災害と防災の        防災対策に           地震
              経済史         歴史          与えた影響

   平成時代                              地震の歴史         震災を引き起こした
                                                   地震(1995年兵庫県
  震災が日本経済に                                           南部地震) 49
    与えた影響                 阪神・淡路大震災
情報探索の
     スタ ト地点
     スタート地点


         Web情報資源(サーチエンジン)
            情報資        ジ
              フォークソノミー

 図書館  Wikipedia                       情
 分類体系                                 報の
 •NDC                                   専
                  対応づけ→                 門
 •BSH                                   性
                  深い情報探
多様な情報資源                          ・
                    索へ           信
•入門書                              頼
•レファレンスブック
 レフ レンスブ ク                        性
•各種データベース
•学術雑誌論文
 学術雑誌論文
•過去の文献・資料                   50
もくじ
1.
1    Littel Navigatorとは?
     Litt l N i t とは
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik-IEの紹介
     –   Hadoop,
         Hadoop MapReduceとは?
5. まとめ
                               51
最新の状況
• 日本語版が60万項目を超えた (7/8)
   本 版が     を超 た
 – XMLでダウンロード可能 (1.1Bytes)
       ダウン   可能 (    y )
• 英語版は300万項目を超えた (8/17)
 –9 G
  9.4GBytes, bzip2圧縮
             b i 2圧縮




                             52
Wikipediaで何ができる?(1)
• コーパスとしての利用
    パ
 – 定義文の抽出 → 言い換え
   定義文 抽出 → 言 換え
  • コーパスとは、電子化された自然言語の文章から成る
    巨大なテキストデータである。
 – 翻訳用例の獲得 (言語間リンク)
• 文書集合としての利用
 – 単語(Wikipediaエントリ)間の類似度計算



                              53
Wikipediaで何ができる?(2)
• 表記揺れ辞書としての利用
 – リダイレクト
   •   ソフトウエア工学 → ソフトウェア工学
                 → ソフトウェア工学
   •   モンティ パイソンズ    → モンティ パイソン
   •   線形代数学 → 線型代数学
   •   国道17号線 → 国道17号
   •   業務上過失致傷罪 → 業務上過失致死傷罪
 – 括弧表現
   • アカンタリア(Acantharea、棘針綱・棘針類とも)は原生生物である
     放散虫の一群である。
   • 東日本電信電話株式会社(ひがしにっぽんでんしんでんわ、通
     称:NTT東日本、英称:NIPPON TELEGRAPH AND TELEPHONE EAST 
     CORPORATION)は、日本最大手の電気通信事業者である。

                                                    54
Wikipediaで何ができる?(3)
• シソーラスとしての利用
 – Wikipediaカテゴリ
       p    カテ リ
• 固有表現辞書としての利用
 – 地名 人名 組織名
   地名、人名、組織名
 – 商品名
   • 菓子: アーモンドグリコ、M&M’s、かっぱえびせん、ポッ
     キー、チョコエッグ、…
   • 自動車: カローラ、エスティマ、マーチ、ベンツ、…
   • テレビドラマ: ごくせん、斉藤さん、7人の女弁護士、…

                                 55
Wikipediaの特徴
•   多数の参加者による編集
    多数 参加者   る編集
•   半定型デ タ
    半定型データ
•   外部情報リソースとの連携
•   項目の組織化




                       56
(1)多数の参加者による編集
• 基本方針 「誰 も編集 きる
  基本方針は「誰でも編集できる」
• 秩序維持の仕組みが存在する
 – ガイドライン (5つの原則)
 – ペ ジ毎のノ ト (議論 合意形成の場)
   ページ毎のノート (議論、合意形成の場)
 – 管理者によるコントロール
  •   保護 (編集合戦への対応)
  •   削除
  •   投稿ブロック
  •   管理者の選任・解任

                          57
(2)半定型データ
• ウ キプ ジ ク
  ウィキプロジェクト
 • 大学、スポーツチーム、芸能人、…
• テンプレート
 • 大学、サッカー選手、映画、




                      58
(3)外部情報リソースとの連携
• 外部
  外部Webサイトへのリンク
 – 緯度・経度 (Google Mapsなどへのリンク)
   緯度 経度 (   g     pな    リンク)
• 参考文献
 – ISBN (Amazon, OPACなどへのリンク)
    S (          O Cなど のリンク)




                                59
(4)項目の組織化
               価格
               価格(かかく)とは、有形・無形の各種の商品
• カテゴリシステム
    ゴ          (サービスを含む)の取引に際して提示される金
               額を言う。基本的には需要と供給のバランスに
 – フォークソノミーの   よって決定される。一般には、値段(ねだん)とも
               呼ばれる。
               呼ばれる
   特徴を有する      …
 – カテゴリにもカテゴ   カテゴリ: [マーケティング][経済学][市場]
   リを付与できる(ゆ              社会
   るやかな階層構造)      社会科学
                          経済
 – 複数の上位概念を
   複数の 位概念を
   与えることができる   労働                   産業
   (多重継承)    ビジネススキル                商業
                 経営学           流通
               マ ケティング
               マーケティング   経済学        市場
                                         60
                          価格
既存の情報リソースとの比較
タクソノミーとフォークソノミーの中間的性格
タクソノミ とフ  クソノミ の中間的性格
• 構造
 – 下位層はフォークソノミー的 (複数の上位概念)
 – 上位層はタクソノミー的(単一の上位概念)
• 信頼性
 – 既存のシソーラスよりはいい加減
   既存のシソ ラスよりはいい加減
 – フォークソノミーよりは信頼できる?
• カバレッジ
 – フォークソノミーほどではないが、多様な概念をカ
   バ している
   バーしている
                             61
情報の価値評価
信頼性 あるカテゴリ の重要な語彙を網羅性良く含む
    あるカテゴリーの重要な語彙を網羅性良く含む

意外性 複数のカテゴリ の語彙を併せ 含むか
    複数のカテゴリーの語彙を併せて含むか

意外性の程度 複数のカテゴリーの距離がどのくらい離れてい
意 性 程度 複数   ゴ    離がど く  離れ
るか
 従来は遠いと思われていた概念たちの架け橋

有用性 個人の目的によ て異なる 個々人の過去の興味を示
    個人の目的によって異なる。個々人の過去の興味を示
す用語リストに適度に関連することが大切:機械学習による適応

                            62
意外性の少ない情報
     Wikipediaのカテゴリー階層構造の場合の例

あるカテゴリとその直系の子孫の間では新規性、意
外性はない。

                    イギリスの企業

イギリスの鉄道事業


                        ユーロトンネル株
                        式会社




                                   63
カテゴリ関係から得られた結果が
                多くの人々にとって既知の例
                多くの人々にと て既知の例
                                                      共通項目
  カテゴリ1        階層     カテゴリ2        階層 子孫関係    項目
                                                       数
                                             ユーロト
category:イギリ      category:イギリス
                5                   6   あり   ンネル会
                                              ネ 会             1
スの企業              の鉄道事業者
                                             社
                        g y 伝統医
                    category:伝統医             漢方医
         医療
category:医療
  t             2                   3   あり                    1
                    学                        学
category:アメリ                                 卒業
                    category:恋愛映
                        g y
カ合衆国の映          6                   4   なし   (1967年          55
                    画
画作品                                          の映画)
                  Category:アメリカ
category:アメリ                                 ビーナ
                                             ビ ナ
                  合衆国のオリン
カ合衆国のオ          6                   7   なし   ス・ウィリ           55
                  ピック金メダリス
リンピック選手                                      アムズ
                  ト
category:日本       category:東京都               木村拓
                6                   5   なし              2088
                                                        64
の俳優               出身の人物                      哉
意外性のある知識情報
    Wikipediaのカテゴリー階層構造の場合の例

離れたカテゴリー間の面白い架け橋は、情報アクセス
グラフ間の構造を利用して評価、選別できる。

                       カ ボンナノチュ ブ
                       カーボンナノチューブ


   宇宙




                        軌道エレベータ



                                  65
意外性のあるカテゴリ関係をもつ項目の例
                                                         共通項目
   カテゴリ1         階層      カテゴリ2         階層 子孫関係    項目
                                                          数
                    category:オリンピック
category:日本の内
                  5 射撃競技日本代表選           8   なし   麻生太郎          1
閣総理大臣
                    手
category:弁当       4 category:キャラクター     5   なし   キャラ弁          1
                    category:アメリカ合衆              テカムセ
category:呪術       4                     6   なし                 1
                    国の大統領                        の呪い
                    category:オリンピック
category:日本の経
                  5 サッカー日本代表選           8   なし   堀江忠男          1
済学者
                    手
category:コンピュー                                   福田ウイ
                  5 category:福田康夫       4   なし                 1
タウイルス                                            ルス
                                                 カナビス・
category:祭        3 category:大麻         3   なし                 1
                                                 カップ
category:イリノイ州
                      category:グラミー賞             バラク・オ
選出のアメリカ合衆         7                     4   なし                 1
                      受賞者                        バマ       66
国上院議員
新規性、有用性のある知識はどこにいるか
     iki di の構造を機械学習
    Wikipediaの構造を機械学習
下図「軌道エレベータ」のような新規性などのある情報が現れる確率が高い
   Wikipediaの語彙、グラフ構造を、新規性、有用性のある記事の例から
   教師あり機械学習し、情報の評価、選別、発見、推奨に活用




                          カーボンナノチューブ
                          このカテゴリーの
                          記事に現れる語
       宇宙                 彙

このカテゴリーの
記事に現れる語
彙
                       軌道エレベータ         67
用語の対訳取得
Wikipediaの対訳の利用(システム開発中)
Web上の多言語資源などから専門用語対訳
辞書抽出
  現在も進めており、日中、日英での成果あり
  現在も進めており 日中 日英での成果あり
多言語化により言語コミュニティのごとのモノ
の見方の相違を調べることができる
言語依存性の少ないシステム
  言語依存性の高いソフトの使用は最小限にし、多くの
  言語への拡張性を狙う。
  言語への拡張性を狙う
                           68
Wikipediaの言語間格差の解消
      参考文献が充実                     数学関係が充実


    英語のWikipedia 280万項目
    英語     p         項目
                                  日本語のWikipedia 50万項目
     ローカルな文
     化などで必ず                       ローカルな文
                                  ロ カルな文       Wikipe
     しも対訳され                対訳の    化などで必ず       diaを補
     る必要はない                ある項目   しも対訳され       完する
     項目           技術用語な           る必要はない
                  ど対訳される          項目
                  べき項目                        選別
                           用語を翻訳し、
                           用語を翻訳し
                           対応する日本      Web
                           語Webページ     ページ
 この境界線を見つける機械学習手法          を検索
自然言語処理(固有名、地域名などの処
       理を利用)                                       69
Wikipediaのデータを活用するには
• 全デ タ
  全データはXMLでダウンロード可能
           ダウ   ド 能
• ただし取り扱いは意外と面倒
  – データが巨大
  – Wiki記法のparsing
     iki記法の    i
  – リンク切れの扱い


Wikipediaの軽量解析ツ ルを開発しています
Wikipediaの軽量解析ツールを開発しています
 Wik‐IE: http://wik‐ie.sourceforge.jp/
                                         70
Hadoopとは何か?
A large‐scale distributed batch processing 
  infrastracture
• Large‐scale = Web規模のデータを扱える
  • 1TB t (1兆バイト) 1PB t (1000兆バイト)
    1TBytes(1兆バイト)~1PBytes(1000兆バイト)
• Distributed = 分散型システム
• Batch = バッチ処理専用 (高速な処理)
• I f t t          インフラとしてのシステム
  Infrastructure = インフラとしてのシステム
  • つまり意識せずに使える
Hadoopのアプローチ
• 並列処理をするためにたくさんのコンピュータ
  をつないで、大量の情報を効率的に処理
• コストの安いコンピュータをたくさん結びつけ
  てひとつのクラスタを構成する
 • 1000個のCPUを積んだ1台のマシン(現実には存
   在しないが)のコストは、1個のCPUを積んだ1000
   在しな が      トは 個   を積んだ
   台のマシンより高くつく
スケールアップとスケールアウト
1台の計算機
の性能



                    性能を上げようとすると
                     コストが飛躍的に
                      増大してしまう



         この領域をうまく
           使いたい




                       コスト
既存技術との比較
• H d
  Hadoop
  • 単純化されたプログラミングモデル
    • ユーザは簡単に分散システムの実装とテストが可能
  • 与えられたデータとタスクを各マシンに効率的・自動
    的に分散
    • 各マシンのCPUコアをフルに活用できる
• 既存技術の例: Condor 
  • データの分散機能がない
  • 高価なストレージ(SAN)が必要
  • 各マシン間での同期システム(
    各マシン間での同期システム(MPIなど)を実装する必
                     など)を実装する必
    要
データ分散
•h d   のクラスタ
 hadoopのクラスタ
 • データを全ノードに分散
• Hadoop分散ファイルシステム(HDFS)
 • 大きなデータファイルは 管理された複数ノー
   大きなデ タファイルは、管理された複数ノ
   ドに分散
 • 分散したファイルは、複数マシン間で複製
    • マシン故障でもデータ損失がない
    • 故障に応じて データを再複製
      故障に応じて、デ タを再複製
    • 一つの名前空間で管理し、アクセス可能
MapReduce:
   各プロセスの自立性を高める
• 各プ
  各プロセスの個別化で信頼性向上
            個    信頼性向
• 「MapReduce」プログラムモデルで記述
• MapReduce
 • Mappers:分割するタスク
 • Reducers:集約するタスク
• ノード間通信の制限で、データ転送を管理
 • 分散システムの信頼性を向上
k1 v1   k2 v2   k3 v3    k4 v4   k5 v5    k6 v6




 map                 map                   map                map


a 1    b 2        c 3     c 6           a 5   c 2           b 7   c 8

      Shuffle and Sort: aggregate values by keys
             a    1 5             b     2 7           c     2 3 6 8




        reduce              reduce                 reduce


          r1 s1                 r2 s2               r3 s3
k1 v1   k2 v2   k3 v3     k4 v4   k5 v5      k6 v6




 map                    map                     map                  map


a 1    b 2            c 3     c 6            a 5   c 2             b 7     c 8

 combine               combine                combine               combine



a 1    b 2                  c 9              a 5   c 2             b 7     c 8

partitioner            partitioner           partitioner            partitioner

 Shuffle and Sort: aggregate values by keys
                a     1 5              b     2 7             c     2 9 8




         reduc                    reduc                 reduc
           e                        e                     e

              r1 s1                  r2 s2                 r3 s3
MapReduceの応用タスク
• 検索
  検索インデックスの作成
      デ    作成
• キーワードのカウント
  キ ワ ドのカウント
• ログの時系列解析
 – 例) あるキーワードで探した人がどんな資料にあ
   たっているのか?
• レコメンデーション(いわゆる協調フィルタリン
  グ)
• グラフ探索
• 機械学習                       79
スケーラビリティ
• Hadoopの利点の1つは、単調なスケーラビリティ
    d   の利点の は 単調なスケ ラビリテ
  カーブ
• Hadoopプログラム
        プ グ
 • 小規模データは不向き→他の分散システムで実行さ
   せた方が良い場合がある
    た方が良 場合がある
• 他の分散システム
 • 大規模(10~1000台のマシンで実行)データでは、書
   き換えが必要
• 非常にフラットなスケーラビリティカーブ
 • マシン数と比例したパフォーマンス増加
もくじ
1.
1    Littel Navigatorとは?
     Litt l N i t とは
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik-IEの紹介
     –   Hadoop,
         Hadoop MapReduceとは?
5. まとめ
                               81
今後 展開
        今後の展開
他言語版の開発
• 英語版 開発中 LCSHが検索可能
  英語版の開発中:     が検索 能
分野別シソ ラスの活用
分野別シソーラスの活用
• 医学分野: MeSHなどとの連携
情報リテラシー教育の題材として
• 大学の教育現場
 – シラバスとの連携
• 企業研修、生涯学習など
   業 修   学 など
 – 検索の多様な側面を体験的に学べる
   検索の多様な側面を体験的に学 る
                       82
おわりに
• Wikipediaと図書館分類体系の統合利用によって、
  パスファインダ に近い「情報探索のヒント提示」を
  パスファインダーに近い「情報探索のヒント提示」を
  可能とした
   – 情報探索の多様な「切り口」の提示
   – 信頼性のある情報資源への誘導
• 「 書館
  「図書館かWebか」という二項対立ではなく、両者
                        な  者
  の役割を踏まえた見方が大事
   – 図書館: 信頼性、組織化
   – Web: どんなキーワードからでも探せる
          どんなキ ワ ドからでも探せる


                            83

More Related Content

PDF
マイニング探検会#09 情報レコメンデーションとは
PDF
050830 openforum
PDF
20090919 ku-librarians勉強会 #115 : 収書業務の舞台裏
PDF
20120713 ku-librarians勉強会#151:書誌データベースの漢字処理
PDF
20131025 ku librarians勉強会#169:図書館データを研究推進にもっと利活用するための情報デザイン
PDF
20130118 ku-librarians勉強会#157:新人企画その1「日本史と数学の資料たち」(奥)
PPT
20040820 ku-librarians勉強会 #58:機関リポジトリ(『電子図書館の新たな潮流』シリーズ 第2回)
PDF
20050127 ku-librarians勉強会 #63 アメリカ医学図書館協会年次総会参加報告
マイニング探検会#09 情報レコメンデーションとは
050830 openforum
20090919 ku-librarians勉強会 #115 : 収書業務の舞台裏
20120713 ku-librarians勉強会#151:書誌データベースの漢字処理
20131025 ku librarians勉強会#169:図書館データを研究推進にもっと利活用するための情報デザイン
20130118 ku-librarians勉強会#157:新人企画その1「日本史と数学の資料たち」(奥)
20040820 ku-librarians勉強会 #58:機関リポジトリ(『電子図書館の新たな潮流』シリーズ 第2回)
20050127 ku-librarians勉強会 #63 アメリカ医学図書館協会年次総会参加報告

Similar to 20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見 (20)

PDF
リサーチ・ナビ検索システムの技術
PDF
マイニング探検会#04
PDF
Opensource and Value creation by community
PDF
ハッカー中心の企業文化を日本で根付かせるには。TechLION vol.5 12/14/2011
PDF
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日
PDF
[18-A-1] ハッカー中心の企業文化を日本で根付かせる
PDF
Building Hacker Centric Culture in Japan
PDF
Hacker centric culture @devlove 110423
PDF
100622 学術情報セミナー
PDF
群衆の知恵・集団的知性とWikiコラボレーション
ODP
Sapporo Open Seminar 2
ODP
Sapporo Open Seminar 1
PDF
Oss magic
PPTX
リテラシー研修 Amano 201210_ss
PDF
ライフエンジンを支える検索エンジンの作り方
PDF
図書館総合展ネットアドバンス主催フォーラム 清田talk
PDF
Internet and Opensource at Security and Programming camp 2011
PDF
Designing wisdom through the web
PDF
Code4Lib 2010報告会・発表ダイジェスト
リサーチ・ナビ検索システムの技術
マイニング探検会#04
Opensource and Value creation by community
ハッカー中心の企業文化を日本で根付かせるには。TechLION vol.5 12/14/2011
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日
[18-A-1] ハッカー中心の企業文化を日本で根付かせる
Building Hacker Centric Culture in Japan
Hacker centric culture @devlove 110423
100622 学術情報セミナー
群衆の知恵・集団的知性とWikiコラボレーション
Sapporo Open Seminar 2
Sapporo Open Seminar 1
Oss magic
リテラシー研修 Amano 201210_ss
ライフエンジンを支える検索エンジンの作り方
図書館総合展ネットアドバンス主催フォーラム 清田talk
Internet and Opensource at Security and Programming camp 2011
Designing wisdom through the web
Code4Lib 2010報告会・発表ダイジェスト
Ad

More from kulibrarians (20)

PDF
20191210 ku-librarians勉強会 #232 :【20周年記念】「大学図書館という機能:ストレージからフィールドへ」
PDF
20190419 ku-librarians勉強会 #226 :KURENAI担当者としての日々
PDF
20190419 ku-librarians勉強会 #226 :医学図書館1年目―閲覧と整理と―
PDF
20190308 ku-librarians勉強会 #225 :SQLはじめの一歩
PDF
20171004 ku-librarians勉強会 #216 :蔵書構築と資料提供、その基盤としての資料保存 -和歌山大学図書館の虫害対策実践報告を中心として
PDF
20170915 ku-librarians勉強会 #215 :Linked Dataの学術論文マイニングへの応用とLinked Dataの質の改善への取り組み
PDF
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
PDF
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
PDF
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
PDF
20160708 ku-librarians勉強会 #204 :「読書の自由」成立をめぐって:1950年代アメリカの図書館員と出版者たち
PDF
20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館
PDF
20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館
PDF
20160629 ku-librarians勉強会 #203 :図書館の使いやすさとは? : 奈良教育大学図書館の経験から
PDF
20151127 ku-librarians勉強会 #197 :国立国会図書館出向報告-調査情報係の日常-
PDF
20150903 ku-librarians勉強会#195 :世界の“図書館をめぐる冒険”から考える、ライブラリアンによる教育・研究支援の高度化
PDF
20140220 ku-librarians勉強会#174 :海外研修報告:紅茶とビールと図書館の旅
PDF
20150128 ku-librarians勉強会#187 : 明日から医学図書館員になるために:知っておくと役立つTips
PDF
20140826 ku-librarians勉強会#181 : 石井米雄コレクションにおけるバーチャル図書館機能と閲覧ナビゲーターによる情報探索
PPT
20140731 ku-librarians勉強会#180 : 大学図書館は違う! 何が? - 大学図書館の機能、NACSIS-CAT30年の価値、データ...
PDF
20140131 ku librarians勉強会#173:新人企画「資料管理業務について」(福島)
20191210 ku-librarians勉強会 #232 :【20周年記念】「大学図書館という機能:ストレージからフィールドへ」
20190419 ku-librarians勉強会 #226 :KURENAI担当者としての日々
20190419 ku-librarians勉強会 #226 :医学図書館1年目―閲覧と整理と―
20190308 ku-librarians勉強会 #225 :SQLはじめの一歩
20171004 ku-librarians勉強会 #216 :蔵書構築と資料提供、その基盤としての資料保存 -和歌山大学図書館の虫害対策実践報告を中心として
20170915 ku-librarians勉強会 #215 :Linked Dataの学術論文マイニングへの応用とLinked Dataの質の改善への取り組み
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
20160708 ku-librarians勉強会 #204 :「読書の自由」成立をめぐって:1950年代アメリカの図書館員と出版者たち
20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館
20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館
20160629 ku-librarians勉強会 #203 :図書館の使いやすさとは? : 奈良教育大学図書館の経験から
20151127 ku-librarians勉強会 #197 :国立国会図書館出向報告-調査情報係の日常-
20150903 ku-librarians勉強会#195 :世界の“図書館をめぐる冒険”から考える、ライブラリアンによる教育・研究支援の高度化
20140220 ku-librarians勉強会#174 :海外研修報告:紅茶とビールと図書館の旅
20150128 ku-librarians勉強会#187 : 明日から医学図書館員になるために:知っておくと役立つTips
20140826 ku-librarians勉強会#181 : 石井米雄コレクションにおけるバーチャル図書館機能と閲覧ナビゲーターによる情報探索
20140731 ku-librarians勉強会#180 : 大学図書館は違う! 何が? - 大学図書館の機能、NACSIS-CAT30年の価値、データ...
20140131 ku librarians勉強会#173:新人企画「資料管理業務について」(福島)
Ad

20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見

  • 1. 2009年8月27日 第114回ku‐librarians勉強会@京都大学附属図書館 Wikipediaをいかに使いこなすか? ~知識抽出、情報ナビゲーション、 ~知識抽出 情報ナビゲ ション そしてトピック発見 見 東京大学情報基盤センター 東京大学情報基盤センタ 学術情報研究部門 助教 (兼 株式会社リッテル 上席研究員) 清田 陽司 清
  • 2. 関心分野 • 自然言語処理技術を応用した情報検索システム – 対話的ヘルプシステム「ダイアログナビ」 対話的 ルプシステム ダイア グナビ」 • WindowsやOffice利用者向けの質問応答サービス • 情報検索プロセスの解明 – 対話(聞き返し)による情報探しニーズの明確化 – 情報の組織化 • 聞き返しをするには何らかの知識構造が必要 – 情報検索手段の変遷 • 人に聞く 図書館 データベース サーチエンジン 掲示板 人に聞く、図書館、データベース、サーチエンジン、掲示板… 図書館レファレンスサービスの課題と共通 • レファレンス支援システムの研究 – タクソノミーとフォークソノミーの統合 – 実用システムの研究開発 リッテルナビゲーターとして実用化 2
  • 3. 経緯 • もともと京大メディアセンターのヘルプシステム を手掛かりに博士の研究を始めた ( 年) (2000年) – 京大附属図書館レファレンスシステムもあった – 利用できるデータはNDLSHだけだった • その後 MSとの共同研究でダイアログナビを その後、MSとの共同研究でダイアログナビを 開発し、博士論文を提出 • 「次に何を研究しようか」と考えていたときに東 大総合図書館内の研究室に赴任 (2004年) – 図書館の豊富な情報リソースをうまく使えないか? – Wiki di のコンテンツが本格的に充実してきた Wikipediaのコンテンツが本格的に充実してきた
  • 4. ダイアログナビ(Dialog Navigator) ( g g ) • マイクロソフト株式会社との共同研究 • 2002年4月から運用開始 • いまは稼働していませんが 4
  • 5. 5
  • 6. 6
  • 7. 7
  • 8. 8
  • 9. 9
  • 10. 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 52件のテキストが見つかりました Windowsで • Windows 98を起動したときに、…と エラーが発生した いうエラーが発生する • Wi d XPでアプリケ シ ンを Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー 続 うと たとき と う が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 10
  • 11. 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 52件のテキストが見つかりました Windowsで • Windows 98を起動したときに、…と エラーが発生した いうエラーが発生する • Wi d XPでアプリケ シ ンを Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー 続 うと たとき と う が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 11
  • 12. エキスパートやコールセンター 対話的に具体性のギャップを解消 Windowsで エラーが発生したのはい エラーが発生した つですか? お使いのWindowsは何で すか? どんなエラーメッセージが 出ましたか? 12
  • 13. もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 13
  • 14. もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 14
  • 15. こんなときどうしますか? • Winnyをテーマにしてレポートを書く – 知的財産(著作権)に関する法律の観点から – P2Pソフトウェアの技術について – 匿名掲 板独特 文化 匿名掲示板独特の文化 – 表現の自由との関連 • 「日本のアニメ」を研究したい – アニメ産業のあり方 (製作会社、分業制、…) ア メ産業のあり方 – アニメ製作技術 (セル画、CG、…) – アニメの主題 キャラクターの描き方・・・ユニ アニメの主題、キャラクターの描き方・・・ユニ セックス… – アニメの国際比較 アニメの国際比較… 15
  • 16. こんなときお役にたちます リッテルナビゲ タ リッテルナビゲーター =情報探しのヒント検索システム (1) 「 「切り口」探し 探 (2) 情報の関連づけ 情報そのものの発見、情報の関係との発見 16
  • 17. リッテルナビゲーターとは? リッテルナビゲ タ とは? 「情報探索のヒント」検索システム =パスファインダ 自動生成システム =パスファインダー自動生成システム • さまざまな情報リソースの統合検索 – 件名標目、書架分類、レファレンスブック、 Webサイト、オンライン百科事典、... • 曖昧な質問(キーワード)から具体的な探 し方へのナビゲ ション し方へのナビゲーション – Wikipediaを用いた探索テーマの自動導出 17
  • 18. リッテルナビゲーターの主な機能 リ テルナビゲ タ の主な機能 • テーマグラフの自動生成 – 分野の自動的な導出 • 分野からの情報探し – 日本十進分類法(NDC)による資料検索 →書架の特定、参考図書調べ – インタ ネ ト学術情報インデ クスの利用 インターネット学術情報インデックスの利用 • 関連キーワード探し • 他のサーチエンジンとのリンク – OPAC JapanKnowledge Google Scholarなど OPAC、JapanKnowledge、Google Scholarなど 18
  • 19. 19
  • 20. 20
  • 21. セキュリティへの脅威 (情報漏洩など) 著作権法改正の 議論に与えた影響は 議論に与えた影響は? 被害額は? ソフトウェアの開発モデ ルとしてのフリーウェア ルとしてのフリ ウェア 21
  • 22. P2Pネットワーク P2Pネットワ ク 技術の観点から 特異な存在 ソフトウェア=創作物 匿名性により普及 創作物を公開することで逮捕され 創作物を 開する と 逮捕され 匿名掲示板独自の るのは表現の自由に反する? 文化 22
  • 23. 23
  • 24. 一大産業としての ア アニメ 芸術としてのアニメ アニメ製作技術の もはやサブカル 高度化 チャーではない? 24
  • 25. 25
  • 26. 26
  • 27. •著作権法百年史 •著作権法事典 •著作権法ハンドブック 著作権法 ドブ ク •表現の自由・著作権・名誉毀損 やさしく引ける判例総覧 •著作権法のノウハウ •… 27
  • 32. 利用実績 • 導 導入先 東 東京大学、東京電機大学、同志社大学、東邦大 、東 機 、 、東 学、亜細亜大学、千葉大学、神奈川工科大学 ※2009年5月より国立国会図書館 リサ チ ナビ ※2009年5月より国立国会図書館「リサーチ・ナビ 」にコンポーネントとして導入 • マーケティング用途利用 マ ケティング用途利用 – ベクトル空間モデルによる関連KW抽出とWikipedia カテ リの組み合わせでSEMワ ド候補を導出 カテゴリの組み合わせでSEMワード候補を導出 – 分野別辞書の作成 • テレビ番組、ドラマ、タレント、映画、お菓子、… 32
  • 33. ワ ド抽出例 ワード抽出例 おでん 鍋料理→すき焼き、寄せ鍋、味噌煮込みうどん… 涼宮ハルヒの憂鬱 涼宮 ルヒの憂鬱 角川書店→ハレ晴レユカイ、ザ・スニーカー、月刊 少年エース、ねこマン、… 学園小説 ご愁傷さま ノ宮くん、Missing、フルメ 学園小説→ご愁傷さま二ノ宮くん、Missing、フルメ タル・パニック!、… 独立UHF放送局→らき☆すた NHKにようこそ! 魔 独立UHF放送局→らき☆すた、NHKにようこそ!、魔 法少女リリカルなのはA‘s、ひぐらしのなく頃に、少 年陰陽師、ゼロの使い魔、… 年陰陽師 ゼロの使い魔 33
  • 34. もくじ 1. Littel Navigatorとは? 2. 2 図書館の世界とW bの世界 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす Wiki di を使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 34
  • 35. 情報検索の手段の変遷 • 20世紀以前 – 人に聞く – 相談窓口 (無料: 図書館や公共機関, 有料: コンサルタントなど) – 本屋に行く – 図書館で調べる – Webディレクトリ、個人ブックマーク、商用DB… デ ク 個人ブ ク ク 商 • 21世紀: 上に加えて – GoogleなどのWebサーチエンジンの利用 – 掲示板 人力検索エンジン ソーシャルブック 掲示板、人力検索エンジン、ソ シャルブック マーク… 35
  • 36. 情報探しのニーズ • Web検索で探せる質問=事実を問う質問 – 関東大震災はいつ発生しましたか? – XXXってどんな病気? • 本当に探し手が知りたいこと – 大学の学生「関東大震災についてのレポートを書か 大学の学生「関東大震災についてのレポ トを書か なきゃいけなんだけど、いったいどんな資料から調べ 」 たらいいの?」 – 難病の患者「この病気について最先端の治療を行っ ている病院を探す方法は?」 情報探しのテーマが曖昧な場合が多い →テ マの推薦(レコメンデ ション)が必要! →テーマの推薦(レコメンデーション)が必要! 36
  • 37. テ マ推薦の要件 テーマ推薦の要件 • カバレ ジ カバレッジ – どんなキーワードに対しても何かをお薦めして 欲しい – これができないと結局使ってもらえない • 組織化 – 「これを見た人はこんな情報も見ています」で は不十分! – 分類ごとにお薦めすべき情報資源には定番が 存在 • 信頼性 – 「ネットでググる」だけでは不十分! – 信頼できる情報資源が必要 37 Web情報の組織化の現状は?
  • 38. Web情報の組織化の取り組み • サーチエンジンの性能向上 ジ – PageRank ( eb の民主主義) age a (Web上の民主主義) – 自然言語処理分野の成果の活用 • 多数の 般利用者による情報組織化 多数の一般利用者による情報組織化 – ブログ: トラックバック – 掲示板: スレッド、まとめサイト – ソーシャルブックマーク: 一般利用者によるタグ ソ シャルブックマ ク: 般利用者によるタグ (キーワード)の付与 – Wikipedia: 百科事典の共同編纂 38
  • 39. 情報検索におけるロングテール(?) • 難病の治療法 – 10万人に1人という難病にかかった。かかりつけの医者 はXという治療法を勧めたが、深刻な副作用を伴うらしい。 一方、たまたまニュースで海外で普及しつつある治療法Y 方 たまたまニ スで海外で普及しつつある治療法Y を知ったが、それを実践できる医者を知らない。さてどち らを選択すべきか? • F社の期限切れ原料使用問題の背景 – 過去の同様の事件との共通点は? – では他社の製品は安全なのか? – Web掲示板上での主流意見はあてになるのか? • A市における過去100年間の犯罪発生率 Webの利用で答えられるか? 39
  • 40. Webの情報検索手段としての性質 利点 • とんでもなく広いカバレ ジ とんでもなく広いカバレッジ • 多様性(マスメディアへのアンチテーゼ) ( ) 欠点 • 価値・信頼性の判断基準を提供してくれない – 利用者自身が知識体系をもっている必要がある • フロー情報中心 情報中心 – ストック情報は残りにくい – 注目されすぎた情報は突如姿を消してしまう • ブラウジング指向の組織化 40
  • 41. Web上での組織化の限界 ブラウジング指向に偏りがち ブ ジ グ が • ソーシャルブックマークやランキングを機能さ ソ シャルブックマ クやランキングを機能さ せているフィードバックは、ブラウジングを便 利にしたい情報消費者のものが中心 • 偏った探索になりがち – 検証を経ていない二次情報への頼りすぎ • 人類が積み重ねてきたストック情報とリンクさ れていない(浅い組織化) 41
  • 42. Webの可能性 可能性 • 探索手段としての間口の広さ – どんなキーワードを入力してもとりあえず何かヒット ド も ず – 情報探索の足がかりとしては最適 • 注目されていない情報も存在を許される – マスメディアにはない最大の特色 – どうやって価値を判断するかが問題 • Wikipediaの可能性 – 膨大な項目数(日本語: 30万項目以上) – 明確な目的: 「 確な 的 「Web上に百科事典を構築する」 科事典を構築する – 項目の組織化への取り組み(Wikipediaカテゴリ) 他のWebサイトにはない大きな特色 42
  • 43. テ マ推薦の要件 テーマ推薦の要件 • カバレ ジ カバレッジ – どんなキーワードに対しても何かをお薦めして Web 欲しい – これができないと結局使ってもらえない Wikipedia • 組織化 – 「これを見た人はこんな情報も見ています」で は不十分! – 分類ごとにお薦めすべき情報資源には定番が 図書館 存在 システム • 信頼性 – 「ネットでググる」だけでは不十分! – 信頼できる情報資源が必要 渡 情 Wikipediaを橋渡しとして、信頼できる情報 資源をお薦めできないか? 43
  • 44. もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 44
  • 45. オントロジーとフォークソノミー オントロジー ジ フォークソノミー • トップダウン的な分類 • ボトムアップ的な分類 • ひとつの上位概念 • 複数の上位概念 再生可能 半導体 電気化学 電池 エネルギー 素子 電離層 電池 磁気化学 燃料電池 太陽電池 蓄電池 燃料電池 太陽電池 トランジスタ 図書館的な分類体系 Web的な分類体系 45
  • 46. Wikipedia p 価格 • インターネット上で共 価格(かかく)とは、有形・無形の各種の商品 (サービスを含む)の取引に際して提示される金 同編集されている多 額を言う。基本的には需要と供給のバランスに 言語百科事典 よって決定される。一般には、値段(ねだん)とも 呼ばれる。 • 各記事にはカテゴリ … カテゴリ: [マーケティング][経済学][市場] が付与されている – フォークソノミーの特 フォ クソノミ の特 社会 徴を有する 社会科学 経済 – カテゴリにもカテゴリを 付与できる(ゆるやか 労働 産業 な階層構造) ビジネススキル 商業 – 複数の上位概念を与 えることができる(多重 経営学 流通 継承) マーケティング 経済学 ケティング 市場 46 価格
  • 47. オントロジー 社会 型構造 社会科学 経済 労働 産業 ビジネススキル ビジネ キ 商業 経営学 流通 マーケティング グ 経済学 市場 フォ クソノミ 型 フォークソノミー型 構造 価格 47
  • 48. 提案: Wikipediaと図書館分類体系の 対応づけ 図書館の分類体系をWiki di で拡張してみよう 図書館の分類体系をWikipediaで拡張してみよう! • Wikipedia – Webの汎用的な情報資源としては最も組織化されてい る(Wikipediaカテゴリ) – Web上の他の情報資源との親和性をもつ • 図書館分類体系(書架分類法、件名標目表) ( ) – 人類が営々と積み重ねてきた知識体系 – 価値判断に必要な情報資源への有力なポインタ 両者を組み合わせて利用することによって、キー ワ ドから探索テ ワードから探索テーマ(=件名)を自動導出する ( 件名)を自動導出する → 導出された件名に関連する情報資源を提示 48
  • 49. 社会科学(300) 自然科学(400) 技術(500) 「地震防災の事典」(岡( 「日本被害地震総覧」 経済(330) 田恒男ほか, 2000年) 社会(360) 地球科学(450) 建築学(520) (宇佐美龍夫, 2003年) 経済史(332) 社会福祉(369) 地震学(453) 建築構造(524) 「経済学事典」(日本 経済新聞社, 1996年) 経済史-日本 災害 地震誌(453.2) 地震 (332.1) 経済史-日本 地震災害 地震予知 耐震建築 -平成時代 (332.107) 図書館オ 図書館オントロジー ジ (NDC, BSH) Wikipedia p 経済史 災害 震災がその後の 日本の 災害と防災の 防災対策に 地震 経済史 歴史 与えた影響 平成時代 地震の歴史 震災を引き起こした 地震(1995年兵庫県 震災が日本経済に 南部地震) 49 与えた影響 阪神・淡路大震災
  • 50. 情報探索の スタ ト地点 スタート地点 Web情報資源(サーチエンジン) 情報資 ジ フォークソノミー 図書館 Wikipedia 情 分類体系 報の •NDC 専 対応づけ→ 門 •BSH 性 深い情報探 多様な情報資源 ・ 索へ 信 •入門書 頼 •レファレンスブック レフ レンスブ ク 性 •各種データベース •学術雑誌論文 学術雑誌論文 •過去の文献・資料 50
  • 51. もくじ 1. 1 Littel Navigatorとは? Litt l N i t とは 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 51
  • 52. 最新の状況 • 日本語版が60万項目を超えた (7/8) 本 版が を超 た – XMLでダウンロード可能 (1.1Bytes) ダウン 可能 ( y ) • 英語版は300万項目を超えた (8/17) –9 G 9.4GBytes, bzip2圧縮 b i 2圧縮 52
  • 53. Wikipediaで何ができる?(1) • コーパスとしての利用 パ – 定義文の抽出 → 言い換え 定義文 抽出 → 言 換え • コーパスとは、電子化された自然言語の文章から成る 巨大なテキストデータである。 – 翻訳用例の獲得 (言語間リンク) • 文書集合としての利用 – 単語(Wikipediaエントリ)間の類似度計算 53
  • 54. Wikipediaで何ができる?(2) • 表記揺れ辞書としての利用 – リダイレクト • ソフトウエア工学 → ソフトウェア工学 → ソフトウェア工学 • モンティ パイソンズ → モンティ パイソン • 線形代数学 → 線型代数学 • 国道17号線 → 国道17号 • 業務上過失致傷罪 → 業務上過失致死傷罪 – 括弧表現 • アカンタリア(Acantharea、棘針綱・棘針類とも)は原生生物である 放散虫の一群である。 • 東日本電信電話株式会社(ひがしにっぽんでんしんでんわ、通 称:NTT東日本、英称:NIPPON TELEGRAPH AND TELEPHONE EAST  CORPORATION)は、日本最大手の電気通信事業者である。 54
  • 55. Wikipediaで何ができる?(3) • シソーラスとしての利用 – Wikipediaカテゴリ p カテ リ • 固有表現辞書としての利用 – 地名 人名 組織名 地名、人名、組織名 – 商品名 • 菓子: アーモンドグリコ、M&M’s、かっぱえびせん、ポッ キー、チョコエッグ、… • 自動車: カローラ、エスティマ、マーチ、ベンツ、… • テレビドラマ: ごくせん、斉藤さん、7人の女弁護士、… 55
  • 56. Wikipediaの特徴 • 多数の参加者による編集 多数 参加者 る編集 • 半定型デ タ 半定型データ • 外部情報リソースとの連携 • 項目の組織化 56
  • 57. (1)多数の参加者による編集 • 基本方針 「誰 も編集 きる 基本方針は「誰でも編集できる」 • 秩序維持の仕組みが存在する – ガイドライン (5つの原則) – ペ ジ毎のノ ト (議論 合意形成の場) ページ毎のノート (議論、合意形成の場) – 管理者によるコントロール • 保護 (編集合戦への対応) • 削除 • 投稿ブロック • 管理者の選任・解任 57
  • 58. (2)半定型データ • ウ キプ ジ ク ウィキプロジェクト • 大学、スポーツチーム、芸能人、… • テンプレート • 大学、サッカー選手、映画、 58
  • 59. (3)外部情報リソースとの連携 • 外部 外部Webサイトへのリンク – 緯度・経度 (Google Mapsなどへのリンク) 緯度 経度 ( g pな リンク) • 参考文献 – ISBN (Amazon, OPACなどへのリンク) S ( O Cなど のリンク) 59
  • 60. (4)項目の組織化 価格 価格(かかく)とは、有形・無形の各種の商品 • カテゴリシステム ゴ (サービスを含む)の取引に際して提示される金 額を言う。基本的には需要と供給のバランスに – フォークソノミーの よって決定される。一般には、値段(ねだん)とも 呼ばれる。 呼ばれる 特徴を有する … – カテゴリにもカテゴ カテゴリ: [マーケティング][経済学][市場] リを付与できる(ゆ 社会 るやかな階層構造) 社会科学 経済 – 複数の上位概念を 複数の 位概念を 与えることができる 労働 産業 (多重継承) ビジネススキル 商業 経営学 流通 マ ケティング マーケティング 経済学 市場 60 価格
  • 61. 既存の情報リソースとの比較 タクソノミーとフォークソノミーの中間的性格 タクソノミ とフ クソノミ の中間的性格 • 構造 – 下位層はフォークソノミー的 (複数の上位概念) – 上位層はタクソノミー的(単一の上位概念) • 信頼性 – 既存のシソーラスよりはいい加減 既存のシソ ラスよりはいい加減 – フォークソノミーよりは信頼できる? • カバレッジ – フォークソノミーほどではないが、多様な概念をカ バ している バーしている 61
  • 62. 情報の価値評価 信頼性 あるカテゴリ の重要な語彙を網羅性良く含む あるカテゴリーの重要な語彙を網羅性良く含む 意外性 複数のカテゴリ の語彙を併せ 含むか 複数のカテゴリーの語彙を併せて含むか 意外性の程度 複数のカテゴリーの距離がどのくらい離れてい 意 性 程度 複数 ゴ 離がど く 離れ るか 従来は遠いと思われていた概念たちの架け橋 有用性 個人の目的によ て異なる 個々人の過去の興味を示 個人の目的によって異なる。個々人の過去の興味を示 す用語リストに適度に関連することが大切:機械学習による適応 62
  • 63. 意外性の少ない情報 Wikipediaのカテゴリー階層構造の場合の例 あるカテゴリとその直系の子孫の間では新規性、意 外性はない。 イギリスの企業 イギリスの鉄道事業 ユーロトンネル株 式会社 63
  • 64. カテゴリ関係から得られた結果が 多くの人々にとって既知の例 多くの人々にと て既知の例 共通項目 カテゴリ1 階層 カテゴリ2 階層 子孫関係 項目 数 ユーロト category:イギリ category:イギリス 5 6 あり ンネル会 ネ 会 1 スの企業 の鉄道事業者 社 g y 伝統医 category:伝統医 漢方医 医療 category:医療 t 2 3 あり 1 学 学 category:アメリ 卒業 category:恋愛映 g y カ合衆国の映 6 4 なし (1967年 55 画 画作品 の映画) Category:アメリカ category:アメリ ビーナ ビ ナ 合衆国のオリン カ合衆国のオ 6 7 なし ス・ウィリ 55 ピック金メダリス リンピック選手 アムズ ト category:日本 category:東京都 木村拓 6 5 なし 2088 64 の俳優 出身の人物 哉
  • 65. 意外性のある知識情報 Wikipediaのカテゴリー階層構造の場合の例 離れたカテゴリー間の面白い架け橋は、情報アクセス グラフ間の構造を利用して評価、選別できる。 カ ボンナノチュ ブ カーボンナノチューブ 宇宙 軌道エレベータ 65
  • 66. 意外性のあるカテゴリ関係をもつ項目の例 共通項目 カテゴリ1 階層 カテゴリ2 階層 子孫関係 項目 数 category:オリンピック category:日本の内 5 射撃競技日本代表選 8 なし 麻生太郎 1 閣総理大臣 手 category:弁当 4 category:キャラクター 5 なし キャラ弁 1 category:アメリカ合衆 テカムセ category:呪術 4 6 なし 1 国の大統領 の呪い category:オリンピック category:日本の経 5 サッカー日本代表選 8 なし 堀江忠男 1 済学者 手 category:コンピュー 福田ウイ 5 category:福田康夫 4 なし 1 タウイルス ルス カナビス・ category:祭 3 category:大麻 3 なし 1 カップ category:イリノイ州 category:グラミー賞 バラク・オ 選出のアメリカ合衆 7 4 なし 1 受賞者 バマ 66 国上院議員
  • 67. 新規性、有用性のある知識はどこにいるか iki di の構造を機械学習 Wikipediaの構造を機械学習 下図「軌道エレベータ」のような新規性などのある情報が現れる確率が高い Wikipediaの語彙、グラフ構造を、新規性、有用性のある記事の例から 教師あり機械学習し、情報の評価、選別、発見、推奨に活用 カーボンナノチューブ このカテゴリーの 記事に現れる語 宇宙 彙 このカテゴリーの 記事に現れる語 彙 軌道エレベータ 67
  • 68. 用語の対訳取得 Wikipediaの対訳の利用(システム開発中) Web上の多言語資源などから専門用語対訳 辞書抽出 現在も進めており、日中、日英での成果あり 現在も進めており 日中 日英での成果あり 多言語化により言語コミュニティのごとのモノ の見方の相違を調べることができる 言語依存性の少ないシステム 言語依存性の高いソフトの使用は最小限にし、多くの 言語への拡張性を狙う。 言語への拡張性を狙う 68
  • 69. Wikipediaの言語間格差の解消 参考文献が充実 数学関係が充実 英語のWikipedia 280万項目 英語 p 項目 日本語のWikipedia 50万項目 ローカルな文 化などで必ず ローカルな文 ロ カルな文 Wikipe しも対訳され 対訳の 化などで必ず diaを補 る必要はない ある項目 しも対訳され 完する 項目 技術用語な る必要はない ど対訳される 項目 べき項目 選別 用語を翻訳し、 用語を翻訳し 対応する日本 Web 語Webページ ページ この境界線を見つける機械学習手法 を検索 自然言語処理(固有名、地域名などの処 理を利用) 69
  • 70. Wikipediaのデータを活用するには • 全デ タ 全データはXMLでダウンロード可能 ダウ ド 能 • ただし取り扱いは意外と面倒 – データが巨大 – Wiki記法のparsing iki記法の i – リンク切れの扱い Wikipediaの軽量解析ツ ルを開発しています Wikipediaの軽量解析ツールを開発しています Wik‐IE: http://wik‐ie.sourceforge.jp/ 70
  • 71. Hadoopとは何か? A large‐scale distributed batch processing  infrastracture • Large‐scale = Web規模のデータを扱える • 1TB t (1兆バイト) 1PB t (1000兆バイト) 1TBytes(1兆バイト)~1PBytes(1000兆バイト) • Distributed = 分散型システム • Batch = バッチ処理専用 (高速な処理) • I f t t インフラとしてのシステム Infrastructure = インフラとしてのシステム • つまり意識せずに使える
  • 72. Hadoopのアプローチ • 並列処理をするためにたくさんのコンピュータ をつないで、大量の情報を効率的に処理 • コストの安いコンピュータをたくさん結びつけ てひとつのクラスタを構成する • 1000個のCPUを積んだ1台のマシン(現実には存 在しないが)のコストは、1個のCPUを積んだ1000 在しな が トは 個 を積んだ 台のマシンより高くつく
  • 73. スケールアップとスケールアウト 1台の計算機 の性能 性能を上げようとすると コストが飛躍的に 増大してしまう この領域をうまく 使いたい コスト
  • 74. 既存技術との比較 • H d Hadoop • 単純化されたプログラミングモデル • ユーザは簡単に分散システムの実装とテストが可能 • 与えられたデータとタスクを各マシンに効率的・自動 的に分散 • 各マシンのCPUコアをフルに活用できる • 既存技術の例: Condor  • データの分散機能がない • 高価なストレージ(SAN)が必要 • 各マシン間での同期システム( 各マシン間での同期システム(MPIなど)を実装する必 など)を実装する必 要
  • 75. データ分散 •h d のクラスタ hadoopのクラスタ • データを全ノードに分散 • Hadoop分散ファイルシステム(HDFS) • 大きなデータファイルは 管理された複数ノー 大きなデ タファイルは、管理された複数ノ ドに分散 • 分散したファイルは、複数マシン間で複製 • マシン故障でもデータ損失がない • 故障に応じて データを再複製 故障に応じて、デ タを再複製 • 一つの名前空間で管理し、アクセス可能
  • 76. MapReduce: 各プロセスの自立性を高める • 各プ 各プロセスの個別化で信頼性向上 個 信頼性向 • 「MapReduce」プログラムモデルで記述 • MapReduce • Mappers:分割するタスク • Reducers:集約するタスク • ノード間通信の制限で、データ転送を管理 • 分散システムの信頼性を向上
  • 77. k1 v1 k2 v2 k3 v3 k4 v4 k5 v5 k6 v6 map map map map a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 Shuffle and Sort: aggregate values by keys a 1 5 b 2 7 c 2 3 6 8 reduce reduce reduce r1 s1 r2 s2 r3 s3
  • 78. k1 v1 k2 v2 k3 v3 k4 v4 k5 v5 k6 v6 map map map map a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 combine combine combine combine a 1 b 2 c 9 a 5 c 2 b 7 c 8 partitioner partitioner partitioner partitioner Shuffle and Sort: aggregate values by keys a 1 5 b 2 7 c 2 9 8 reduc reduc reduc e e e r1 s1 r2 s2 r3 s3
  • 79. MapReduceの応用タスク • 検索 検索インデックスの作成 デ 作成 • キーワードのカウント キ ワ ドのカウント • ログの時系列解析 – 例) あるキーワードで探した人がどんな資料にあ たっているのか? • レコメンデーション(いわゆる協調フィルタリン グ) • グラフ探索 • 機械学習 79
  • 80. スケーラビリティ • Hadoopの利点の1つは、単調なスケーラビリティ d の利点の は 単調なスケ ラビリテ カーブ • Hadoopプログラム プ グ • 小規模データは不向き→他の分散システムで実行さ せた方が良い場合がある た方が良 場合がある • 他の分散システム • 大規模(10~1000台のマシンで実行)データでは、書 き換えが必要 • 非常にフラットなスケーラビリティカーブ • マシン数と比例したパフォーマンス増加
  • 81. もくじ 1. 1 Littel Navigatorとは? Litt l N i t とは 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 81
  • 82. 今後 展開 今後の展開 他言語版の開発 • 英語版 開発中 LCSHが検索可能 英語版の開発中: が検索 能 分野別シソ ラスの活用 分野別シソーラスの活用 • 医学分野: MeSHなどとの連携 情報リテラシー教育の題材として • 大学の教育現場 – シラバスとの連携 • 企業研修、生涯学習など 業 修 学 など – 検索の多様な側面を体験的に学べる 検索の多様な側面を体験的に学 る 82
  • 83. おわりに • Wikipediaと図書館分類体系の統合利用によって、 パスファインダ に近い「情報探索のヒント提示」を パスファインダーに近い「情報探索のヒント提示」を 可能とした – 情報探索の多様な「切り口」の提示 – 信頼性のある情報資源への誘導 • 「 書館 「図書館かWebか」という二項対立ではなく、両者 な 者 の役割を踏まえた見方が大事 – 図書館: 信頼性、組織化 – Web: どんなキーワードからでも探せる どんなキ ワ ドからでも探せる 83