• DocDigital.jp(ドック・デジタル)は、1960年代以降の出版物、ビジネス文書について、OCR(光学的文字認識)とAI(深層学習)を併用し、精度99.8%のテキストを制作します。

  • 同時に、タイトル/著者名/本文/図版など構造化も行いXML、マークダウンなどで提供します。

  • 縦組み、横組み共に二段組や論文形式に対応しています。

  • 発注単位は30点以上、個別に見積ります。

  • 裁断可能な書籍または、300dpi以上の画像PDFをご提供ください。

  • ​※帳票類や手描き文字認識は行いません。活字文書に特化したサービスです。

 

  • 1960年代以前の出版物については、認識率が低下しますが処理可能です。戦前の古い書物も個別に見積ります。

  • 表内の数値認識、図版認識、脚注と本文のリンクなども対応できます。

  • ルビなしのテキストを作成します。

  • レイアウトが複雑な雑誌、新聞なども個別見積となります。

  • 99.8%(1000に2文字)はAI用データやテキストマイニング(自然言語処理)、目の不自由な方に提供できるレベルです。目視確認による99.9%、100%認識も対応可能です。

  • 権利処理が必要な場合、「電子復刻」での豊富な実績で、版元や著者との交渉も担当します。

用途

  1. 紙文書のアクセシビリティ(a11y)向上(テキスト化と読み上げ)

  2. デジタル・ヒューマニティ―ズなどテキストマイニング用データの制作

    1. Maruzen eBook Library(出版物7万点)との連携

  3. ​学術論文の構造化されたテキストへの変換

  4. ​紙で残っている企業内ビジネス文書のAI(深層学習)への投入

    1. ​​AIデータ活用コンソーシアム紙文書活用SWG」との連携​

関連事業

  • EPUBpack:テキストPDFからの構造化されたテキスト抽出

  • 電子復刻:2000年以前の「良書を絶版がない世界へ」画像PDF制作