株式会社朝日新聞社は、自然言語処理研究の成果の一つである「長文要約生成」の機能を体験できるAPIを公開しました。
朝日新聞社は2021年4月、メディアラボ・研究チームと情報技術本部・研究開発チーム「ICTRAD」を統合した「メディア研究開発センター」を発足。人工知能などの先端メディア技術と新聞社ならではの豊富なテキストや写真、音声などの資源を活用し、自然言語処理や画像処理などの先端技術の研究・開発を進めています。
今回開発したAPIは、長い文章を入力すると要約された文章を返すもので、文字数や割合の指定して、用途に応じた文章生成ができます。過去30年分の朝日新聞記事のデータや記事を生み出すフローで生み出される内部データを活用し、学習データとしての処理効率を上げるためのフィルタリングなどによるディープラーニング(深層学習)で可能になった技術です。
同社がすでにリリースしている、自動で見出しや要約を生成する「自動要約生成API TSUNA」からさらに研究を進め、文章を圧縮する技術を開発。今回は評価用途に限って無償で利用可能なAPIを公開しました。
今回のAPIでは、入力された文章を、「指定した長さごとに区切ってTSUNAで要約」「文ごとの長さが揃うように圧縮」「文ごとに指定した割合まで圧縮」「重要な文の抽出」「抽出した重要文を圧縮し、文書全体を指定した長さにする」の5つの機能があり、単独での使用も、組み合わせての使用でも、長文の内容を把握しやすく要約が可能です。ウェブ上の文章やビジネス文章、議事録、エントリーシートの内容など、素早く内容を判別したい、速読したいなどの用途で活用可能で、TSUNAとの組み合わせで大量の文章に自動で見出しと要約を付与し、一覧にすることも可能です。