メインコンテンツへスキップ
Nebula · 品質と検証

ドキュメントインテリジェンスの品質をどう評価するか。

Nebulaでは、出力が実際のLLM・RAGワークフローで使えるかを重視して評価します。質問への回答、表の読み取り、グラフの解釈、日本語・英語のビジネス文書における階層構造の保持まで、下流のAI活用に必要な品質を確認します。

評価の原則

企業が実務で求める品質を測る。

私たちの評価ルーブリックは、企業チームがドキュメントインテリジェンスに求める品質を軸に設計しています。実務で使える出力、実文書への対応範囲、日本語文書での強さを重視します。

整えられたベンチマークではなく、実務の文書で

IRリリース、役員会資料、明細、行政帳票など、企業が実際に扱う文書で評価します。きれいに作られたテストセットだけを対象にはしません。

日本語を中核ワークロードとして扱う

日本語のビジネス文書や法務文書は、数ページだけ確認する補足項目ではありません。中核評価セットの一部として扱います。

表面的な文字起こしではなく、使える出力を評価する

文字精度は最低限の基準です。変換後の出力が、LLMやRAGにとって実際に使える形になっているかを評価します。

公開前に代表的な文書で確認する

このページで検証済みと示す機能は、単一の例だけではなく、代表的な顧客向け文書で確認したものです。

方法論

Nebulaの評価で確認する5つの観点

以下の基準を、実際の顧客文書に近い文書群に適用します。期待する品質に届かない箇所は記録し、プロダクト改善に反映します。

下流LLMのanswerability

変換後のMarkdownと構造化JSONを使って、元のPDFに戻らずに実際の業務質問へ答えられるか。

Markdownの使いやすさ

見出し、読取順序、リスト、脚注、文書階層が端から端まで保持されているか。

表・グラフの推論

変換後も、表やグラフ系列が数値・比較の推論を支えられるか。

日本語ビジネス文書

日英混在ページを含め、日本語の法務・財務・IR資料を扱えるか。

企業文書の構造

スライド、レポート、明細、帳票、業務ファイルが、変換後も有用なまま保たれるか。

リーダーボード

本番運用のNebula、ローカルファインチューニング済みのNebula、レビュー済みベースライン。

スコアは、代表的な顧客文書に対してレビューが完了して初めて公開します。ドラフトや仮の数値は掲載しません。詳細レポートが出るまでは、評価対象のシステムと、報告する指標を示します。

Nebula(本番運用)レポート近日公開

フロンティアとファインチューニング済みVLMにまたがる本番ルーティング。

Answerabilityレポート近日公開
構造の保持レポート近日公開
日本語文書レポート近日公開
Nebula(ローカルファインチューニング済み)レポート近日公開

顧客ドメインの文書でファインチューニングし、プライベートにデプロイ。

Answerabilityレポート近日公開
構造の保持レポート近日公開
日本語文書レポート近日公開
レビュー済みベースラインレポート近日公開

主要なOCR・ドキュメントAIを、同じルーブリックで評価。

Answerabilityレポート近日公開
構造の保持レポート近日公開
日本語文書レポート近日公開

詳細な方法論レポートは近日公開予定です。

スコア、データセット、方法論をまとめたレビュー済みレポートを最終調整中です。先行アクセスのご希望や、ご自身の文書を含めたいご要望はありますか。

検証済みの能力

Nebulaが検証済みの領域と、これから広げる領域。

代表的な顧客文書に対して能力を測定済みの場合は、そう明記します。評価セットがまだ小さい場合も、そう述べます。

検証済み · IPCC、METI、財務報告

グラフ

棒・折れ線・円・多パネルの科学図を、構造化されたグラフデータとして返します。

検証済み · BLS A-1、MUFGセグメントデータ

多階層のグループ化ヘッダー、階層的な行ラベル、結合セル、数値の忠実性。

検証済み · リンカーン、漱石の原稿

手書き文書

英語の筆記体原稿と、縦書きの日本語自筆原稿を逐語的に書き起こします。

検証済み · IRS Form 1040、国税庁 別表四

帳票

チェックボックス、行番号、扶養家族欄を保持した多セクションの帳票。

検証済み · コーパス拡張中

日本語の財務文書

決算資料、IRリリース、ガバナンス資料を、日本語のビジネス語彙とともに。

検証済み · コーパス拡張中

法務・規制対応PDF

長文の日本語法務テキストでも、脚注・引用・入れ子の見出しを読取順序のまま保持。

FAQ

評価に関するよくある質問。

Nebulaは文書品質をどう評価しますか?

変換後の文書が、実際の下流AI業務を支えられるかで評価します。質問への回答、表の推論、グラフの解釈、文書階層の保持などを確認します。表面的な文字一致は基準であって、目的ではありません。

どの文書タイプを検証済みですか?

グラフ、表、手書き文書、帳票、日本語の財務資料、法務・規制対応PDFが検証済みセットに含まれ、代表的な例はNebula本体ページで示しています。新しいパートナーのオンボーディングに合わせて、顧客を代表するコーパスを継続的に拡張しています。

日本語文書はどう扱いますか?

日本語のビジネス・法務文書は、評価ルーブリックの中核です。日英混在レイアウト、二言語の表、IR資料、長文の規制対応PDFを検証します。日本語は翻訳の後付けではなく、第一級のワークロードです。

評価のために文書を送れますか?

はい。最も早いのは、nebula.ur-ai.net で直接Nebulaを試すことです。サインインして、ご自身の文書を通してみてください。役員会資料、決算資料、規制対応の提出書類、明細、経費ファイル、日本語の企業文書へのフィードバックを特に歓迎します。

お手元の文書で試す

自社の文書でNebulaを評価する。

Nebulaを評価する最も早い方法は、実際の文書で試すことです。サインインして、役員会資料、決算資料、規制対応書類、明細、その他の日本語企業文書をアップロードし、出力をご確認ください。