学術論文には何が書かれているか?-論文を構成する意味の分析と検索への応用-

学術論文には何が書かれているか? -論文を構成する意味の分析と検索への応用-

  

日時:2012年11月22日13:00~14:30
場所:図書館総合展第1会場
主催:国立情報学研究所
講師:
 相澤彰子さん(国立情報学研究所知識コンテンツ科学研究センター長/コンテンツ科学研究系教授)
 宮尾祐介さん(国立情報学研究所コンテンツ科学研究系准教授)
 内山清子さん(国立情報学研究所学術コンテンツ課コンテンツシステム開発室特任准教授)
 阿辺川武さん(国立情報学研究所連想情報学研究開発センター特任准教授)

概要:専門用語とその関係や数式など、論文を構成する意味の単位をめぐる研究の話題と、論文閲覧システムなど論文検索への応用について紹介します。
フォーラム詳細:http://2012.libraryfair.jp/node/885

  

  

構成

  • 「論文を構成する意味の分析~言語処理からのアプローチと数式検索への適用例:数式の検索と理解支援」相澤彰子さん(国立情報学研究所知識コンテンツ科学研究センター長/コンテンツ科学研究系教授)
  • 「学術論文の高度な検索へ向けて~論文の意味内容を解析する試み」宮尾祐介さん(国立情報学研究所コンテンツ科学研究系准教授)
  • 「論文を構成する語彙の分析~専門用語の成り立ちと検索への応用」内山清子さん(国立情報学研究所学術コンテンツ課コンテンツシステム開発室特任准教授)
  • 「論文閲覧システムの開発」阿辺川武さん(国立情報学研究所連想情報学研究開発センター特任准教授)
      

その他の記録

全体概要説明 相澤彰子さん(国立情報学研究所知識コンテンツ科学研究センター長/コンテンツ科学研究系教授)

  • 我々は一日の多くを情報探索に費やしている
    • 研究者の場合は論文探索
  • 図書館が研究者と論文をつなぐ、というのは古代から変わっていない構図
  • 膨大な数の論文からどうやって必要な情報を探すのか?
  • 研究者が論文を読む、という時に本当は何をしているのか?
    • 論文というのは中々読みにくい部分もあり、すんなりとはいかない事が多い
    • 今まで論文を捜す支援はたくさんしてきたが、これからは、読む、という行為に焦点をあてて支援をしなければならない
        

「読む」とは何か?

  • 「論文を読む」とは、論文を意味の単位に分解して相互にリンクをつけること
    • こういったことを、計算機を使って支援していこうという考え
  • 計算機にとって論文を読む、というのは人間より難しいこと
      

知識コンテンツへの科学的アプローチ

  • 論文に注目すると、研究者は二種類に分割できる
    • 論文を読む研究者
    • 論文を研究の対象とする研究者
  • 論文を対象とした研究
    • 科学計量学
    • 情報推薦システム
    • バイオインフォマティックス
    • 論文構造・内容解析
        

論文を読む支援とはどういうことか?

  • 論文を読んでいる状況の中で、文脈が伝わるように支援をするという事
  • 次からは具体的な話に入っていく
      
      

「論文を構成する意味の分析~言語処理からのアプローチと数式検索への適用例:数式の検索と理解支援」相澤彰子さん(国立情報学研究所知識コンテンツ科学研究センター長/コンテンツ科学研究系教授)

  

数式とは何か?

  • 科学・教育の様々な場面で使われる数学の記述法、しかし…
    • 現在の検索システムでは極めて限定的な扱いしかできない
        

あなたと数学のかかわりは?

  • 文科省報告「忘れられた科学:数学」
  • Q.あなたと数学とのかかわりは?
    • 回答者の77%が「ある」「すこしある」と回答
         

論文中の数式

  • 数学に密接にかかわる分野では、論文タイトルに数式が出ることも珍しくない
  • 電子図書館システムにとっても数式は大事な問題
      

数式の電子化

  • 数式の表現法
    • 埋め込み画像
    • 文字列(latexなど)
    • Webで閲覧可能なMathML
    • 意味構造を表すMathML
  • 電子化された数式資源
  • 数学知識ベース・オントロジー
    • OpenMath
    • Wikipedia
        

数式検索の要素技術

  • 数式の標準的なフォーマットを決める
  • 数式を標準フォーマットに変換する
  • 数式を検索するシステムを設計・実装する
  • 検索コマンドの入力・結果の提示方法を工夫する
  • しかし現状はシステムの設計に限界がある
    • 数式は記号ではなく意味をもつものであるから、それをシステムが理解出来なければならない
        

数式の「解釈」

  • 「完璧なパンケーキの公式」
  • 言語なくして数式は解釈できない
      

数式の「意味」

  • 数式も言語であって、曖昧性が存在する
  • f(a+b)
    • f=変数?
    • f=関数?
        

チャレンジ設定

  • コンピュータによる数式理解
      

Mathcatプロジェクト

  • 論文中に登場するすべての数式に識別子を付与する計画
  • 人手により、論文中に登場する数式を解析
  • 機械学習を用いて同様の解析を計算機に行わせる
      

数式検索の応用

  • 数学系ジャーナル電子化
  • 数式ライブラリ検索
  • 研究基盤
  • 教育応用
      

数式検索システムの評価

  • 情報検索の評価型ワークショップNTCIR
    • 数式検索のパイロットタスク
    • 世界中から14チームが参加
        

コンピュータによる数式理解

  • 数式に注目すると研究者は2種類に分類できる
    • 数式を研究対象にしている研究者
    • 数式を道具として使っている研究者
  • 2種類でシステムに対する要求は驚くほど異なる
  • これからも開発を続けていかなければならない
      
      

「学術論文の高度な検索へ向けて~論文の意味内容を解析する試み」宮尾祐介さん(国立情報学研究所コンテンツ科学研究系准教授)

  

なぜ論文検索?

  • 世界中の研究者が日々論文を書いている
  • 論文=新しい発見やアイディアを発表する
    • 新しくなければ論文としての価値はない
    • 関連する研究(既存研究)を知る必要がある
  • 研究者は多くの時間を既存研究の調査に使っている
    • 調査の効率は研究の効率に直結
  • 一般の人々も無関係ではない
    • あふれる情報に振り回されている状況は同じ
        

現在の検索システム

  • 主にキーワード検索
    • CiNii
    • Microsoft Academic Search
    • Google Scholar
  • 論文、研究者、研究分野がそれぞれ紐づけられている
    • 注目しているキーワードに対して、それぞれがどう関係しているのかを見せてくれている
  • 非常に便利だが、さらに一歩先に行くには?
      

論文の意味内容

  • 知りたいのは論文、研究者、研究分野の関係だけではない
  • 論文に何が書いてあるのかを知りたい
    • 現状では研究者が読むしかない
    • 論文に書いてあること=意味内容
  • 実現することによって、研究者の研究効率向上が期待される

論文内容解析が目指すもの

  • 論文には何が書いてある?
  • キーワードの有無だけでなく
    • 概念が果たす役割を知りたい
    • 概念の間の関係を知りたい
  • ex:)iPS細胞
    • -を利用して病気を治す研究
    • -の作成を効率化する研究
    • -がガン化するのを防ぐ研究
    • -とES細胞の違いを分析する研究
  • お互いがどういう関係になっているのかを計算機で解析する
    • それを検索できるようにしましょう、という話
        

論文意味内容解析のイメージ

  • ex:)キーワード=機械学習
    • 機械学習を用いて…
    • 機械学習のための…
  • 上記のような内容がボタン一つで分析できる
  • さらに関連する概念と併せた分析も可能になる
      

チャレンジ

  • 概念間の関係をコンピュータが自動認識することは、簡単そうに見えて意外と難しい
  • いろいろな表現で同じことをいう
  • 同じ表現でいろいろなことをいう
  • 言葉の理解が必要=自然言語処理
      

論文の意味解析

  • 文章をコンピュータがわかる形に構造化する=論文に書かれている概念間関係を明示化
  • 論文を読むときに大事な「関係」
    • 目的
    • 結果
    • 評価
    • 属性
    • 入力、出力
        

現在の研究

  • 情報処理学会の論文を分析し、概念とその関係を構造化したデータを作る
    • どういう関係を構造化すべきか?
    • 関係をどのように表すべきか?
  • 自然言語処理・機械学習を利用した認識技術の開発
      

おわりに

  • 論文に書かれている意味内容を解析し、高度な検索を目指す試み
  • 鍵となるアイディア:概念間の関係を自動認識し、構造化する
  • 論文検索以外にも応用可能な技術
    • キーワードによる検索だけでなく、その関係に着目した検索
        
        

「論文を構成する語彙の分析~専門用語の成り立ちと検索への応用」内山清子さん(国立情報学研究所学術コンテンツ課コンテンツシステム開発室特任准教授)

  

論文検索におけるキーワード

  • CiNiiにおける検索クエリ上位200語
    • 150語 単独クエリ
    • 50語 複数クエリ
    • 一般語35%
    • 人名27%
    • 用語25%
  • 研究者はあまり一般語を使わないはず
    • 研究者でない人にも専門的な情報へのニーズがあるのでは?
        

論文推薦システムOSUSUME

  • 検索クエリにキーワードをいれると関連タイトルが一覧表示される
  • 一つ選択すると、抄録に基づいてほかの論文を推薦する
  • 推薦尺度はいろいろ考えられる
    • 類似度
    • 人気度(被引用数)
    • 異分野性
    • 入門性(用語による判別)
  • 私の研究は入門性がベース
    • 初心者におすすめできる論文とはどういうものか
        

論文を構成する語彙

  • 一般語
    • 新聞など一般的な文書にも使われる語
    • 論文の談話を構成する語
  • 論文特有の語
    • 専門用語
    • 複合語
    • 臨時一語
        

そもそも専門用語とは?

  • 専門用語の定義
    • ある特定の学術分野内で共通で用いられ、分野の研究内容を説明する為に不可欠である語
  • 専門用語の成り立ち、語彙化
    • ex:)「灰上げ機」
    • 定義:船のボイラ室から灰を上甲板まで持ち上げ、灰捨て管に捨てる機械
    • 辞書登録しなければ扱えない
        

複合語、専門用語の成り立ち

  • 文→句→複合語→用語→専門用語
    • 用例を参考にした機械翻訳システム→用例ベースの機械翻訳システム→用例ベース機械翻訳システム
        

用語抽出のむずかしさ

  • 臨時一語、用語、専門用尾の区別が困難
  • 語彙化された専門用語は辞書に登録
  • 構成要素による区別
      

論文理解における用語に関する研究

  • 分野基礎用語
    • 分野において重要かつ必須である専門用語
  • 分野基礎用語の選定
    • 多くの専門家が共通して選んだ専門用語
    • 専門家によって執筆、編集されたリソースが信頼性が高い
    • 書籍(目次)
    • 論文(タイトル、著者キーワード)
    • 事典(目次)
        

論文における用語の用いられ方

  • 分野基礎用語を複数含む分は分野の背景を説明していることが多い
  • 初心者に対して分野の背景知識を提示し、論文理解の支援を目指す
      

まとめと今後の課題

  • 論文に含まれる語彙の中から専門用語に注目して成り立ちについて紹介
  • 専門用語に抽出における問題点
  • 専門用語に関する研究紹介
  • 上記の研究に基づいて高度な論文検索システムを実現する
      
      

「論文閲覧システムの開発」阿辺川武さん(国立情報学研究所連想情報学研究開発センター特任准教授)

  

論文関連システム

  • CiNii, GoogleScholar
  • EndNote, Mendeley
  • 閲覧を便利にするシステムは普及していない
    • 紙やPDFが主流
    • WWWは当初、論文閲覧を目的として開発された
        

論文の読み方

  • 先日の日本図書館情報学会で発表された小山先生らの研究によれば
    • 全体の8割が紙で論文を読んでいる(電子媒体の印刷も含む)
    • 和雑誌は紙媒体のまま、洋雑誌は電子媒体を印刷してという差はある
    • 入手難度の差はある
        

どうして画面で読まないのか?

  • 画面だと目が疲れる
  • 画面が狭い
  • ページ遷移が多い
  • 書き込みができない
  • 自宅・移動中など好きな場所で読めない
  • 集中できない
  • 印刷できてしまうから
      

どうして電子ファイルで読むのか?

  • 入手時点で電子ファイルだから
    • 印刷する手間がいらない
    • 管理が容易
  • タブレット端末で読める
  • 拡大が出来る
    • 紙媒体では字が小さすぎる
  • メモが後で活用できる
  • ななめ読みだから
      

どのような機能があればよいのか?

  • 論文を読みやすく
    • 図表、数式の説明と本文が同時に見られるように
  • 関連情報の取得を容易に
    • 参考文献、専門用語の説明
  • ソーシャル機能
    • 同一分野の研究者、友人、知人でコメントを共有
  • 紙より便利になれば使われるようになるはず
      

インターフェースの設計

  • 現状はパソコンでの閲覧を想定
    • タブレットなどへの対応は今後
  • ページ単位で表示
    • 電子ジャーナルはPDFフォーマットが主流
    • 紙で発行された論文はページをスキャンした画像
    • 将来的にはリフローが可能な、epubなどのフォーマットへ
        

サイドノート部

  • 論文閲覧時に補足となる情報を自動的に表示
  • 論文内情報
  • ソーシャル機能や自分の書き込み
      

関連情報の提示

  • “pull“は自分で知りたいと思うものを取り寄せる
  • “push“はシステムが自動的に情報を提示する
      

現状のシステム

  • サイドノート部に情報を提示
    • 論文本文中から用語を提示
    • 用語の情報は百科事典やWikipediaなどから抽出
    • 写真情報も抽出して表示可能
  • 英語論文の場合、英文と、言語間リンクを通じて日本語版のWikipediaのページをサイドノートに表示
  • さらに類似文献の提示も可能
  • 論文閲覧システムを書籍にも応用することが可能
  • 古書籍に関してもOCRをかけることで、百科事典やWikipediaから関連情報を表示することが可能になる
    • ただしOCRが成功した部分のみ
        

まとめ

  • 論文が電子的に流通しているにもかかわらず紙に印刷して閲覧している状況
  • 画面で閲覧する為にどのような機能が必要か
  • 構成要素を充たすインターフェースの設計
  • 現在開発している閲覧システム
  • 今後は基本機能の充実、一般公開
      
      

質疑応答

  • Q/相澤先生に。話の中で、PDFというのは、論文の電子媒体としてはあまり適さないというようなニュアンスがあったかと思うが
      
  • A/いろいろな立場があるとは思うが、PDFというのは印刷用の媒体なので、例えば図のキャプションと本文の区別をつけるなど、膨大な前処理を行わなければならないので、この分野の研究者泣かせではある。是非PDFでもない形でというのが正直なところ。
      
  • Q/阿辺川先生に。システムは現在PDFベースなのか
      
  • A/現状はやはりそう。ただ将来的には、相澤先生が仰ったように、PDFではなく、テキストデータを利用したシステムに出来ればとは思っている。
      
  • Q/宮尾先生に。意味内容の解析をしているという事だったが、単位としては文の中での関係に着目して行っているという事で構わないのか。
      
  • A/基本的には文。
      
  • Q/今後はパラグラフ間の関係などに発展する?
      
  • A/まずは文の中で。次は文章と文章の間。さらにはパラグラフ間、というような形へ進めたい。
      
  • Q/阿辺川先生に。サイドノートにWikipediaを表示すると、明治時代の文献などを現代のWikipediaで解説しようとするのは時代錯誤では。
      
  • A/そういう立場もあると思うが、現代のWikipediaでわかりやすく解説するべきという立場もある。
      
  • Q/なおさら当時の解説を添付するべきで、現代の感覚でそういった解説をつけるべきではない。
      
  • A/今後の検討課題とする。
      
      
      
      
      

(執筆:松野渉)