凸版印刷のOCR技術がスゴイ！江戸期以前のくずし字をOCR化

7月3日、凸版印刷は江戸以前のくずし字で書かれた古典籍の文字を判別、

テキストデータに置き換えることが出来るOCR技術を開発したと発表しました！

OCRとは？

光学式文字読み取り装置のことで、

手書き文字や印刷文字を工学的に読み取り、

前もって記憶されたパターンとの照合により文字を特定し、文字データを入力する装置です。

字画を省いて、連続的にやわらかく書いた文字のこと。

この技術を開発した意図としては、

江戸以前のくずし字で記された古典籍は有に100万点以上ともいわれており、

専門家による判読が必要なテキストデータ化が遅れていました。

近年昔の文字を解読する専門家の減少や、

資料の劣化という問題に加え、今後大規模災害や人為的によって貴重な歴史資料が失われる可能性もないとはいいきれないとのことで、現在歴史資料のデジタル化が高まっているとのことです。

凸版印刷の開発した技術は、

書物の崩し字を自動で判別し、テキストのデータ化を可能とするものです。

2014年に実施した検証実験では、くずし字で書かれた古典籍を80％以上の高精度でOCR処理が出来たとのことです。

OCRで判読した文字は、専門家によって確認、訂正されてフィードバックされます。

これにより、専門家による判読に頼っていたテキストデータ化に比べ、

大幅なコスト削減と大量処理が可能になる予定です。

今後は、幅広い年代やジャンルの資料に対するOCRだけでなく、多言語翻訳、異分野との研究融合など広い視野を持った技術へと発展していく意向をみせています。

たしかに、歴史に残された史実を知るにはその当時の言語を解読しなければいけません。

江戸期以前から作成された書物が100冊以上もあることから、

まだまだ私たちの知らない史実がたくさん記されているのかもしれません。

年々、新たな発見から私たちが学校の授業で習ってきた歴史に修正がされており、

現在ではまったく違う風に習っている世代がいるのでしょう。

新しい技術はこうした誤った見解を当時の記録が正してくれるのかもしれません。

コメントは利用できません。