2010年度春学期金曜日5限 清木研究会(1) シラバス(リサーチ・プロジェクト 形態B)

マルチメディアデータベースシステムとデータマイニングの研究
担当:清木康

背景と目的

近年、WWWの目覚ましい発展に伴い、広域ネットワーク上に多種多様なメディアデータ(画像、音楽、テキストなど)が提供されるようになってきている。そうした状況においてマルチメディアデータベースシステムの分野では、情報検索者が広域ネットワーク上に散在する膨大なメディアデータから適切なデータを検索する方法の実現が重要な課題となっている。

本研究会では、検索者の持つ印象あるいは文脈の指定にもとづいてメディアデータの意味的・感性的検索を行うというアプローチから、マルチデータベースシステムに関する研究を行う。本研究では、高精度なマルチメディアデータの感性情報検索システムの構築を目指す。

データベースシステムに関する研究プロジェクトを推進し、そこで得られた研究成果をデータベースシステム、マルチメディアシステムに関する国際学会および国際学術雑誌などにおいて発表し、また、関連する研究テーマのいくつかについては、総務省系情報通信研究機構(NICT)、宇宙航空研究開発機構(JAXA)、慶應医学部、JR東日本、大日本印刷などとの共同研究プロジェクトとして行っている。

研究紹介

意味の数学モデル(MMM: The Mathematical Model of Meaning)

本研究では、言葉の意味解釈、感性の解釈といった人間の有する高度な記憶機能に近い新しい機能を扱うマルチメディア・データベースシステム(画像、音楽、音声、文書などを意味的、感性的に扱うデータベースシステム)として、 “意味の数学モデル(MMM: The Mathematical Model ofMeaning)” というデータベースシステムのモデルを提案し、このMMMを応用した多くのマルチメディア・データベースを構築しています。

これからの新しい情報環境として、画像や音楽、動画などのマルチメディアデータを検索する場合、文字列や数値の検索とは異なり、印象や連想される言葉などからユーザーが求めるデータを見つけ出すことが期待されています。このMMMによるシステムは、ユーザーが「悲しい」「明るい」「荘厳な」などの感性を表わすキーワードを発行すると、その意味を解釈して、それらと意味的、感性的に関連の強いメディアデータを動的に抽出するというものです。ユーザーは、データベース内でのデータ表現を意識することなく、自分の好きなキーワードで検索することが可能となり、とてもユーザーフレンドリなデータベースアクセス環境を実現することができます。本システムの最大の特徴は、言葉の意味を特定するための文脈を理解する機構「意味的連想検索」を実現している点にあります。言葉の意味を特定するには、文脈や状況を特定する必要があります。例えば、単に「ブルー」という単語だけでは、それが意味する範囲が広すぎて、何を検索したいのかが分かりません。これに文脈を説明する単語、例えば、 “自然” という文脈では、“空” や “海” という意味が現れてきます。また、「クリスマス」という文脈と結合すれば「ブルークリスマス」「憂鬱で寂しい」という感情が出てきます。あるいは、 “交差点” という文脈では、「赤色」とか「黄色」と伴って、「信号」という意味が現れます。人間には、1つの情報が入ると、その文脈に応じた意味の近い情報を瞬時に引き出す、すなわち、 “文脈に応じて記憶想起する” という優れた能力があります。

“意味の数学モデル” は、そのような文脈に応じた意味的、感性的検索を実現することを目指したものです。この研究では、データ間の意味的、感性的な同一性、差異性は、静的な関係によって決定されるのではなく、文脈や状況に応じて動的に変化するものと考え、データ間の意味的、感性的な等価性、類似性、関連性を文脈に応じて動的に計算する計量モデルとして、この「意味の数学モデル(MMM)」を提案しています。2つの概念の間にはほぼ無限の関係があり、その2つの関係が決まるのは文脈が与えられた時だけであるという発想から、文脈を計算して2つの概念(オブジェクト間)の関係を多次元ベクトル空間(現在、約2000次元のベクトル空間を構築)上の距離として計算する仕組みを作りました。

[Overview 1]
[Overview 2]

JR東日本寄付講座: 交通運輸プロジェクト (SFC-JR 東日本交通運輸システム研究)

モバイル情報端末,無線コンピュータネットワーク,GPSをはじめとする位置検知技術などの新しい計算機システム環境の出現によって,我々の社会における情報供給・情報獲得の可能性が拡大している.
このプロジェクトでは,ユビキタス知識ベース統合システムによる応用システムとして、鉄道利用環境における時空間状況可視化を目的とした鉄道情報空間生成システムを開発する。本システムは、鉄道実空間において発生する事象、現象としての旅客流動に自動的に反応し、鉄道における旅客流動に関する情報に合致する運行情報・広告情報を抽出、合成し、自動配信する、新しい鉄道実空間と鉄道情報空間の間を連動する鉄道情報環境を実現する。ここで構築する“動的鉄道ビジュアル・マイニングシステム”は、鉄道実空間環境におけるセンシング・データに内在する状況・環境変化の抽出、認識を行い、鉄道情報空間上において既存・異種のDB群を動的に統合、分析(マルチデータベース対象のマイニング)し、実空間に発生している状況を可視化し、実空間上の利用者を対象とした可視化情報配信を実現する。

国際関係計量データベース

本研究では,意味の数学モデルによる意味的連想検索を用いた,国際関係分野のデータの獲得を行うためのデータベースシステムの構築を行っている.国際関係分野の専門辞書と一般的な辞書から統合的な意味的連想検索空間を構築しており,この意味空間を用いることにより,ユーザは,一般的な語彙をキーワードとして専門的な語彙で記述された情報源へ,また,専門語をキーワードとして一般的な語彙で記述されたニュース記事などの情報源へアクセスが可能となる.この空間統合方式は,専門的研究分野の知識を持たない利用者が,その研究分野の情報源へのアクセスを要求する場合において,情報源へのアクセス可能性の向上に貢献するものと考えられる.

医学(肺呼吸器、感染症)データベース

本プロジェクトでは意味の数学モデルによる意味的連想検索を用いた,専門分野のデータの獲得を行うためのデータベースシステムに関する研究を行っている.専門的な情報源を対象として,情報を検索する場合には,専門分野の知識を反映した知識データベースの構築が重要である.本プロジェクトでは,慶応大学医学部と連携し,医学の教科書を用いて専門家の知識を形式的なデータとして表現し,専門知識ベースとして扱うための研究を行っている.現在までに「肺・呼吸器分野」および「細菌感染症分野」において,``CecilTextbookof Medicine''を用いた意味的な検索を行うための検索空間を実現している.

遺伝子情報と病気の関連性を導くデータマイニング

対象とする課題:従来,医学分野において,特に遺伝子データを対象とした分析については,統計的解析方法を分析の問題ごとの適応を繰り返すことにより,専門家が分析を行っていた.

本技術によれば,特に,SNPデータベースおよび臨床データベースを対象として,網羅的に頻度分析を行い,SNPとその表現型の関連を抽出する.具体的には,頻度分析として,臨床データベース中の各値を一括し偏りを数値化することにより,その偏りの大きい部分を優先的に抽出可能とする.さらに,臨床データベース中の連続値を対象とし,正常値・異常値(正常値より高・低)自動判別することにより,頻度分析を効率化する.

本技術は,遺伝子データと臨床データの関連を頻度分析により発見する方法について述べているが,当然ながら,医学分野における一般的データを対象とした方法としても適用可能である.

時代・文化対応型画像メタデータ自動抽出システム

言葉によって表現された印象に基づくメディア検索方式として,データ間の意味的な関係を動的に計量する意味の数学モデルを拡張した意味的画像検索方式が提案されている.本研究では,この意味的画像検索方式のための静止画像メタデータ生成システム,およびその応用として時代・文化対応型画像メタデータ自動抽出システムを設計・構築している.基本方式は,色彩情報,および,色と印象語間の関係に関する心理学分野の統計データを用いて,静止画像の色彩情報から印象語を自動抽出する.基本方式によって生成されるメタデータは,静止画像に用いられている色彩に応じて,印象語とその重みにより表現される.色と印象語間の関係は,対象となるメディア・データが作成された時代や文化によって異なることが考えられる.したがって,基本方式の応用として,色と印象語間の関係に関する時代・文化別の色-印象マトリクス,および,時代・文化別の特徴色・重要色・背景色の影響を増減するフィルター群を用いた時代・文化対応型画像メタデータ自動抽出システムを実現可能としている.


概念間の因果関係を計算する意味的連想検索方式と精神医学分野への適用

現代社会においてこころの病いは身近な問題であり,日常生活において,さらには精神医学分野における診断・治療のプロセスにおいて,適切な情報を入手することが重要となっている. しかし,ネットワーク上には精神医学分野に関連した情報が大量に入手可能であるが,さまざまな事象の概念間の関係性を含んだ文書が混在しているため,検索者の検索意図に合致した文書を獲得するのは困難である. そこで,事象間の因果関係が計量可能な方式を精神医学分野に適用した.これにより,精神医学分野において「原因検索」「結果検索」といった検索者の検索意図に応じた検索が可能となり,必要な情報をより的確に入手可能となる.


画像、音楽を対象としたマルチメディア・データベース研究

近年,インターネット上におけるさまざまな音楽聴取スタイルにより,ユーザは豊富な楽曲とその情報に恵まれている一方,日々増加するこれら大量楽曲の中から,ユーザの目的に合わせて,適切な楽曲を選択し,聴取することが大変難しい状況になってきている.楽曲検索の分野では,楽曲を分析し,内容や特徴に関するメタデータを抽出することにより,一曲一曲の個性に踏み込んだ検索に関するチャレンジが行われてきている.

本研究は,楽曲の推移を表現する感性メタデータを生成することにより,一曲の印象推移が作り出す「印象深い部分の発見」や,「印象推移と印象深さを対象とした検索の実現」を目的とする.本方式は,楽曲の推移が感性に与える意味を扱うために,推移前と推移後の特徴が持つ意味的差分を計量するためのImpression GapCalculationアルゴリズムを中核とし,さらに,推移を作り出すさまざまな視点に対応すべく,時間的粒度を扱うためのTree Structured Impression Metadataを生成する.スライドにおいては,本研究の基本技術である,楽曲から印象を抽出するための方式「Automatic Metadata Creation Method」を示している.

未来を創るディスプレイ表現モデル・プロジェクト(大日本印刷共同研究:感性フォント・デザイン・プロジェクト)

本研究では,未来を創る新しいディスプレイ表現モデル,特に,状況,目的,文書内容に適応する動的な表現方式を設計・実現し,このディスプレイ表現モデルを用いた新しい感性創発環境を構築する.

今日のディスプレイ表現においては,豊かな表現技術や読みやすさが配慮された紙媒体上での表現のような表現技術が活かされておらず,さらに,電子媒体の特性や先端技術は効果的に活用されているとは言えない.また,ディスプレイにおける文字表現のダイナミズムは,効果的に活用されていない.

本研究では,蓄積されてきた紙媒体上での表現技術を活用し,さらに,ディスプレイにおける文字表現のダイナミズムを活かす文字表現(書体,色)方式の設計,実現を目指し,この新しいディスプレイ表現モデルをベースとした文字,文字表現を対象とした感性的創発環境を構築する.

ダイナミックなアイコン装飾による一覧性向上システム

WEB上コンテンツ増加を背景に利用者は目的のコンテンツに辿り着くことが困難になってる。本システムは文書に対応するアイコンを自動抽出する機能により、この課題の解決を目指す。

本研究では、任意の文書の内容と合致するアイコンを自動的に選択し、文書リストに付与して出力することにより、対象文書群の特徴を一覧可能とするシステムを構築する。これにより、上記の課題の解決とともに、文書の作成時において、このシステムの存在により自動的にアイコンが抽出されるので、文書内にメタデータを記述する負荷を軽減することが可能になる。

味覚感性データベース

ネットワーク上の料理・飲料検索エンジンにより,料理データが増加し,「未知の料理データ 」が散在している。これらの料理データの検索支援には,多様な対象データを統合的に取り扱う印象検索方式の実現が有効である。料理データを対象にした印象検索においては,そのジャンル・テーマなどにおいて,味覚印象語の意味が大きく異なる。

料理データを対象にした印象検索においては,そのジャンル・テーマなど(以下味覚ドメイン)における味覚印象語の意味を,独立して定義する必要がある。本研究では,味覚ドメインによる味覚印象語の多面性を対象としたメタデータ生成方式を示す。

本研究では,任意の味覚データを対象として印象表現の多義性に応じたメタデータ生成,および,問い合わせ処理方式を示す。これにより,料理データが有する極めて多様な味覚印象を,統合的に検索対象とすることが可能となる。

図書街(本の街)データベース

図書街プロジェクトの目的は,ネットワーク上のオープンな「知の編集空間」を構築し,人の知的活動・創造活動・コミュニケーション活動をより豊かにすることである.

このプロジェクトでは,有史以来のコンテンツを表現しつづけてきた「書物」をあらゆる情報の基本単位としてとらえることとする.それらを格納するクラスターとしての「本棚」が「道」「界隈」「広場」などの中に配置された三次元の「図書の街」として「知の編集空間」を実現する.

現在は,図書街における情報検索方式や,アクティブデータベースによる能動的な情報提供方式について研究開発を進めている.

画像の感性データベース、画像処理による花図鑑データベース

ユーザが共同で花画像情報を登録し共有できるコミュニティの構築
人間の知的活動の活性化
コミュニティに蓄積された画像による知識情報、共有資源を利用して記憶の想起を行う.

履修の条件

音楽、画像、映像などのマルチメディアデータベースを対象とした知識体系の設計、構築に興味を有すること。

ゼミは金曜日の5限に行なわれるので、それに出席できることが前提である。特に履修人数の制限はないが、人数によっては選考を行う可能性もある。

求める学生像

どうすれば斬新なアイデアからオリジナリティの高い研究へと導くことができるのかを考える素養を高めることが、本研究会の目的の一つである。研究会に入るために前提知識は特に必要としないが、具体的には以下のような学生が向いている。

研究生の多くはデータベース研究、システム研究に興味を持ち、本研究会に入った学生である。1、2年生の聴講も歓迎する。

現在の研究室メンバー構成(聴講生も含む)

博士課程5名、修士課程5名、4年6名、3年3名、2年2名

これまでのサブゼミで行った内容

これまでの輪講で使用している図書

参考図書

質問・相談受付用のメールアドレス