-
DocDigital.jp(ドック・デジタル)は、1960年代以降の出版物、ビジネス文書について、OCR(光学的文字認識)とAI(深層学習)を併用し、精度99.8%のテキストを制作します。
-
同時に、タイトル/著者名/本文/図版など構造化も行いXML、マークダウンなどで提供します。
-
縦組み、横組み共に二段組や論文形式に対応しています。
-
発注単位は30点以上、個別に見積ります。
-
裁断可能な書籍または、300dpi以上の画像PDFをご提供ください。
-
※帳票類や手描き文字認識は行いません。活字文書に特化したサービスです。
-
1960年代以前の出版物については、認識率が低下しますが処理可能です。戦前の古い書物も個別に見積ります。
-
表内の数値認識、図版認識、脚注と本文のリンクなども対応できます。
-
ルビなしのテキストを作成します。
-
レイアウトが複雑な雑誌、新聞なども個別見積となります。
-
99.8%(1000に2文字)はAI用データやテキストマイニング(自然言語処理)、目の不自由な方に提供できるレベルです。目視確認による99.9%、100%認識も対応可能です。
-
権利処理が必要な場合、「電子復刻」での豊富な実績で、版元や著者との交渉も担当します。
用途
-
紙文書のアクセシビリティ(a11y)向上(テキスト化と読み上げ)
-
デジタル・ヒューマニティ―ズなどテキストマイニング用データの制作
-
Maruzen eBook Library(出版物7万点)との連携
-
-
学術論文の構造化されたテキストへの変換
-
紙で残っている企業内ビジネス文書のAI(深層学習)への投入
-
AIデータ活用コンソーシアム「紙文書活用SWG」との連携
-
関連事業