日本経済新聞社は、大学共同利用機関法人人間文化研究機構国立国語研究所(国語研)と共同で、「日本経済新聞記事オープンコーパス」を開発し、公開しました。
「日本経済新聞記事オープンコーパス」は、2013年1~2月の日本経済新聞 朝夕刊から約100本の記事を選択し、それを元にした日本語の書き言葉コーパスです。日本経済新聞社が記事データを提供し、国語に関する総合的研究機関である国語研がコーパスを開発しました。
コーパスとは、文章をセンテンスごと(一文)に分けたものを構造化し、言語情報(品詞など)を付与した言語資源です。人工知能(AI)が日本語を理解するための学習データに使われるなどしています。
「日本経済新聞記事オープンコーパス」は、コーパスデータとその元となる記事データをセットで公開。研究用途に限り無償で利用することができます。なお、ダウンロードは、日本経済新聞記事オープンコーパスダウンロードサイトからすることができます。