'Layout Analyzer' を紹介します。
2023/12/14 | 3分
Layout Analyzer の情報メールの受信を希望される場合は、更新通知を受け取ります!
私たちが文書を読むときは、どの部分がタイトルなのか、表はどう読むべきか、画像の下に小さく入った文字はキャプションだと理解するなど、多くの部分について努力しなくても自然に認識することができます。 しかし、従来のOCR技術は単に文字だけを認識するだけで、文書について自動的に理解し、各文字がどのような文脈で配置されているかは全く読み取れませんでした。
単純な文字認識を超えて、文書構造を自動的に理解し、簡単に抽出するように設計された強力なAPIであるUpstage Layout Analyzerの機能を紹介します。Layout Analyzerは、段落、表、図、注釈、式、ヘッダー、フッターなどの要素を抽出して文書の構造を把握し、文脈の順序に合わせて要素を配列して文書をHTML形式に最終変換します。文書の構造を把握するDocument AI技術がどのようにお客様の業務に役立つのか、従来のOCRと比較しながら説明します。
Layout Analyzerの強みを大きく3つに整理すると、文書の要素検出、文書の文脈に合った順序の読み取り、段落間の関係認識(画像-キャプション/表-キャプション)ができることです。
文書の要素を検出する(Element detection)
Header(文書で繰り返される上部文字)、Footer(文書で繰り返される下部文字)、Paragraph、Caption(画像、テーブルなどのキャプション)、Table(表認識)、Image(画像、グラフ)などを認識し、別々に保存することも可能です。 それぞれの要素を知り、テキストを検出することができるため、データをきれいに抽出できるのが特徴です。 特に、表、チャートが多段に存在する場合、これを1行で認識し、きちんとしたデータを抽出することは難しいですが、Layout Analyzerを活用すれば、抽出がさらに簡単になります。
また、文書構造を認識した結果をHTMLコードとしてダウンロードすることができます。どんな文書でもLayout Analyzerを通せば、HTMLコードに変換することができます。要素単位でHTMLコードを返すことができるので、単位ごとに修正することもできます。さらに、文字サイズも異なって認識することができるので、そのサイズの要素にタグを付けて一括で修正することもできます。
文字サイズもfont-size要素で区別が可能なので、文書から大文字と小文字を区別してDB化することができるだけでなく、文字サイズも数字で保存可能です。あなたの文書を単純なテキスト抽出をしたデータベースではなく、視覚的な階層を含むデータベースにしてみてください。
コンテキストベースの並び替え (Context-aware serialization)
Upstage Layout Analyzerは、まるで人が文書を認識するように、文脈に合わせて文字を読む順にデータを抽出することができます。従来のOCRは、文書の構造に関係なくテキストだけを認識し、情報単位上、一行で読むべきでない文章も一行で読んでいましたが、文書構造を分析し、情報の塊を認識するLayout Analyzer機能は、テキスト抽出後に適用しなければならなかった複雑なデータ前処理作業を省略することができます。
要素間関係抽出 (Relation extraction)
Layout Analyzerは要素間の関係を抽出し、特に表とキャプション、そして図とキャプションの関係を検出します。関係を検出するということは、表や図のキャプションが相互参照され、表を認識すると、その表に対する説明がキャプションとしてラベル付けされ、キャプションを指定すると、その表がすぐにレンダリングされて表示されることを意味します。このような利点のおかげで、テキストだけを抽出しても文書全体の文脈を理解しやすくなります。
Layout Analyzerの活用方法
OCRの限界を超え、より便利にこの技術を活用するためのいくつかの方法も紹介します。
企業向けLLM開発に活用
企業用LLM(Large Language Model)を構築する際には、自社が保有しているデータを学習して知識のベースを作ることも重要です。LLMに入れるデータにはテキストだけでなく、これまで会社内部に蓄積された様々な形式の報告書、表、電子メールなど形式が多様な文書が80%以上を占めています。 この多様な形式の文書をデジタル資産化する際、Layout Analyzerを活用すれば、より豊富な情報のデータを得ることができます。LLM開発及び活用のためのデジタル資産化は、文書構造分析→マークダウン化→ベクトル化→クエリ埋め込み及びLLM推論の過程を経ることになります。LLM開発および活用のためのデジタル資産化プロセスについては、こちらをご覧ください。
生成型AIと組み合わせて活用
生成型AIが話題になった2023年、誰もがどうすればこれをより効率的に活用できるかを考え、努力していることでしょう。 生成型AIは、質問に対する答えをかなり体系的かつ創造的に与えてくれます。しかし、生成型AIにテキストで質問するのではなく、あなたが持っている表、グラフ、段落の依存関係など、複雑な視覚情報が含まれている文書に対する答えは正しく聞くことができません。OCRと生成型AIを組み合わせて使っても、手動で作業しなければならない部分や、文書を正しく理解できず、適切な回答が得られなかった経験を、Layout Analyzerが変えます。 文書の要約、再構成、レポート作成、より複雑なデータに対する質問への回答など、Layout Analyzerの機能と一緒に、あなたの文書を別の知識で簡単に再現してみましょう。
業務自動化
Layout Analyzerを通じて文書の要素を自動的に認識することで、数多くの繰り返し作業を軽減することができます。様々な形式のインボイスから受信者アドレスだけを一度に抽出することもできますし、様々な形式の文書の大テーマや小テーマを一度に自動的に抽出して簡単に整理することもできます。毎日新聞に掲載される重要な経済ニュースもクロール後、より簡単かつ簡単にデータ化してレポートにすることも可能です。
更新のお知らせを申し込んでみてください
自社独自のナレッジベースを作成し、業務を効率化し、ビジネス価値を高める方法を知りたい方は、Layout Analyzerの更新通知を申請してください。 新しい技術を活用して、お客様の製品、サービスを革新的に改善できる様々なユースケースをご紹介します。
📑 レイアウトアナライザー
Layout Analyzerの更新通知を申請する
既存のOCRの限界を超え、文書の構造を自動的に理解するLayout Analyzerの最新情報をいち早くお届けします。