こちらに共通ヘッダが追加されます。

教員紹介

データサイエンス研究室
金 明哲教授

金 明哲 教授

プロフィール

中国・東北生まれ。10年間中国の大学の教壇に立った後、1988年に来日。総合研究大学院大学数物研究科統計科学専攻博士後期課程修了。「自然言語におけるパターンに関する計量的研究」で博士(学術)を取る。国立国語研究所の特別研究員、札幌学院大学の教授を経て、2005年より現職。コンピュータや統計科学の応用研究を模索する中で、今後ますます進展する情報化社会において役立つ研究がしたいと考えた結果、選んだのが今日のテーマだった。

膨大なテキストデータから情報と知識を掘り起こす

何気なく発信された文章から
さまざまな情報を抽出

私たちが情報を記録するために最も多く用いるメディアは「文章」です。新聞、メール、ブログ、教科書、小説、歌詞など、日常に存在する文章は数え切れません。昨今、これらの膨大なテキスト型データは、いわゆるビッグデータとして情報システムに蓄積されています。

私が取り組んでいるのは、テキスト型データをコンピュータで統計処理し、研究の目的に沿って共通性や特徴などを抽出する「テキストマイニング」の研究です。文章の中には、至るところに書き手の特徴や内容の情報が織り込まれています。例えば同じ作家が意識的に文体を変えた作品を書いても、作家自身が気付かないところで特徴が表れるのです。

悪質ないたずらや犯罪にメスを入れることも

テキストマイニングは、従来の方法で解決できない問題の切り口になる可能性を秘めています。代表的な例が警察の犯人捜査。犯罪に関わる匿名の脅迫文などをもとに容疑者を同定し、逮捕につなげます。心理学的鑑定では決定的証拠に至らず限界があった分野で、この新しい手法に期待が寄せられています。

また、なりすましメールやスパムメールの書き手の特徴を割り出してブロックしたり、クチコミの自由回答文を評価の良し悪しによって分類することもできます。金融関連の新聞におけるテキストデータから、金融市場の動向を予測する有効性も実証されています。テキストマイニングは歴史が浅く発展途中の研究テーマですが、日常生活からビジネス、言語学、法科学などさまざまな分野に活用できるポテンシャルを秘めているのです。

ポップソングからSNSまで。研究の幅は広く多彩

ゼミの学生たちが取り上げるテーマは多岐にわたります。ポップソング、ゲーム用語やマンガのフレーズ、SNSやブログなど、世間にあふれている文章を題材に、データの抽出・収集、加工、解析を行っています。現代の学生は、早々に結果を求めようとする傾向があるようですが、研究とはコツコツと知識を蓄積していくもの。「ローマは一日にしてならず」を肝に銘じ、着実に知識とスキルを養って、激しく変化する情報化社会で活躍する力を身につけてほしいですね。

教員一覧へ戻る

ページトップへ