日本IBM、国会図書館の全文テキスト化システムのプロトタイプを開発
日本IBMは1日、国立国会図書館が蔵書の大規模デジタル化作業の一環として実施した
全文テキスト化システムプロトタイプ構築事業において、プロトタイプを開発したと発表した。
欧米では、文化財保存を目的とした書籍のデジタル化が活発に展開されている。
一方で日本では、ひらがな・カタカナに加え、多数の漢字(常用漢字2136文字、旧字・異体字など含めて約1万文字)
を用いて表記されるほか、ルビや縦横書きの混在など、表現の多様性が全文テキスト化の実現を困難なものとしている。
今回のプロトタイプは、このような日本語特有の問題を解消し、明治以降の各年代における
日本語書籍の全文テキスト化の効率化、印刷物の読書が困難な状況にある人に配慮したアクセシビリティの実現、
ならびに効果的な全文テキストデータ検索・表示の実現を目指して開発された。
機能面では「共同校正機能」や「共同構造化機能」を備える。共同校正機能は、Webブラウザ経由で
多数の文字校正者が同時に作業できる環境と、光学式文字認識(OCR)の精度向上を実現する。
インターフェイスには、OCRで認識された文字群を一覧表示され、作業者が一括して校正できる。
共同仕上げ校正の際には、紙の原本やスキャン画像と文字を見比べながら1つずつレビューするというアプローチではなく、
共同文字校正であらかじめ校正された結果を原本の画像上に表示・対比させることで、一目で確認・修正できるという。作業結果をOCRの再学習に用いることで少しずつ精度を上げていく仕組みも備える。
一方の共同構造化機能では、視覚障がい者などが読み上げソフトを使って書籍を読む際に重要な「構造化」を行うため、
「構造情報付加機能」と「読み上げ順序修正機能」の2つを提供。IBM東京基礎研究所で開発された、
読み上げ順序を一筆書きで表現しドラッグ&ドロップのみで修正できる技術を採用するとともに、
全文テキスト化された書籍の構造の種類に応じた最適な構造化インターフェイスを用意することで、
HTMLやXMLなどの記述言語の知識がなくとも構造化できるという。
また、読み上げ順序、見出し、目次、図、表、注釈、ページ番号といった構造情報を自動推論し、
構造化担当者にガイドを提示する機能なども提供する。
同プロトタイプには、2008年にIBM東京基礎研究所が開発した、Webページのアクセシビリティを向上させる
「Social Accessibility」のコンセプトが応用され、多数かつ多様な作業者がWebブラウザで同時に協働作業できるよう工夫された。
また、IBMハイファ研究所がEUと進めている歴史的資料のデジタル化プロジェクト「IMPACT(IMProving ACess to Text)」の一環として開発された、
シンプルな操作を繰り返して行う協調型文字校正技術も採用。OCRエンジンが文字認識エラーの校正を自動で学習し、少しずつ精度を向上していく機能も含まれており、
作業の効率化に貢献するという。
プロトタイプのシステム概要
共同校正機能
共同構造化機能