AI-OCRは何を読み取れる? ― 車検証・請求書・納品書・出面の実例集
「AI-OCRって、結局うちの書類のどこを読めるの?」――導入前にいちばん知りたいのはこれです。 このページでは、実際に動いているエンジンが4種類の書類から「何を・どう読み取るか」を項目単位で公開します。 精度を数字で断言はしません。代わりに、抽出項目と「間違いを見つける仕組み」までを正直に見せます。 そのまま同じエンジンを、あなたの書類でその場でお試しできます(画像は処理後すぐ消えます)。
① 車検証 ― QRが読めた項目は最優先、足りないぶんを文字認識で補う
新様式の車検証には二次元コード(QR)が印字されています。エンジンはまずこのQRから読めた項目を最優先で採用し、QRに無い・読めない項目だけを、画像の文字認識(OCR)で補います。実装のコメントでは、QR由来=信頼度100%、OCRの座標ベース=90%、OCRのテキストベース=70〜85%として、確からしい順にマージしています(parseWithQrPriority)。
書類タイプは自動判別で11種類(自動車検査証/記録事項〈新様式〉/返納証明書/予備検査証/登録識別情報等通知書/各種オークション票 ほか)に振り分けます。
- 入力:車検証を1枚撮影・アップロード。
- 抽出項目(例):車台番号/型式/車名/初度登録/燃料の種類/総排気量/車両重量/車両総重量/長さ・幅・高さ/定員/用途/自家用・事業用 など。項目ごとに「どの経路で読めたか」の確からしさ(信頼度)を内部に持ちます。
| 項目の出どころ | 実装での扱い | 意味 |
|---|---|---|
| QRコード | まず採用(最優先) | 印字データを機械的に読むので取り違えにくい |
| OCR(座標) | QRに無い項目を補完 | レイアウト位置から推定 |
| OCR(テキスト) | さらに補完 | ラベルの次行の値を拾う等 |
正直な注記:QRが破損・未印字の旧様式では、QR経路は使えずOCRのみになります。読み取り結果は必ず人が確認する前提の"下書き"です。
② 請求書 ― 日付・取引先・税抜/税込/消費税・登録番号(T番号)
会計向けの抽出器(VoucherExtractor)は、請求書の生テキストから日付・取引先名・税抜(net)・税込(gross)・消費税(tax)・税率区分・登録番号(T+13桁)を拾います。金額のラベル(合計/小計/消費税 など)は、OCRの改行揺れで値が次の行に落ちることがあるため、ラベル行に金額が無ければ直後の行も見る設計です。
- 入力:請求書・領収書・レシートを1枚。
- 抽出項目:日付/取引先名/税抜/税込/消費税額/税率区分(10%か軽減8%か)/登録番号/適格候補かどうか。
| 仕組み | 実装での挙動 |
|---|---|
| 金額の相互補完 | 税込+税率が分かれば消費税を計算、税抜=税込−税額 など欠けたぶんを埋める |
| 破綻の棄却 | 消費税額が税込以上、または税込の50%超のときは「OCR誤認」とみなして消費税を空にする |
| 登録番号(T番号) | 「T+13桁」の形(区切りや空白が混じっても)を抽出し、チェックデジットまで照合する(TaxEngine::checkRegNo)。形式(^T+13桁)の合否に加え、下13桁を法人番号とみなした検査数字の一致を確認し、抽出結果に「形式✓・CD一致/不一致」を表示。個人事業主の番号は検査数字を弾く根拠にせず加点扱い(国税庁仕様準拠) |
| 信頼度 | 日付・取引先・税込・登録番号のうち何項目取れたかで high / mid / low を付ける |
正直な注記:登録番号は「T+13桁の形式」と「チェックデジット(下13桁の検査数字)」まで照合しますが、公表サイトでの実在確認や適格/非適格の最終判断は行いません。適格かどうか・仕訳の最終確定は税理士の確認前提です。
③ 納品書 ― 明細1行ずつ+「数量×単価≒金額」の検算
飲食の仕入向け抽出器(DeliveryNoteExtractor)は、納品書を明細行(品名/数量/単位/単価/金額)として最大5行まで構造化します。1行に「品名 数量 単位 単価 金額」が並ぶ横型の表に加え、AI-OCRが表を列ごとに縦読みしてセルがバラバラの行になるケース(縦型)にもフォールバックで対応します。
- 入力:仕入先からの納品書を1枚。
- 抽出項目:仕入先名/納品日/明細(品名・数量・単位・単価・金額・税率区分・カテゴリ)/明細合計/記載の合計。
| 仕組み | 実装での挙動 |
|---|---|
| 行の検算 | 縦型の解釈では「数量×単価≒金額(誤差±1円)」を満たす3数値の並びを1明細として確定。合わなければ「単価・金額」の2数値で解釈し数量を逆算 |
| 合計の突合 | 明細合計(税抜想定)に対し、記載合計(税込想定)が0.97〜1.13倍の範囲を外れたら warn。合計が読めないときも warn |
| カテゴリ推定 | 品名から鮮魚/青果/精肉/酒類/調味/消耗品を推定。酒類は軽減対象外(10%)、それ以外は8%を既定 |
| 信頼度 | 仕入先・納品日・明細有無・合計有無の項目数で high / mid / low |
正直な注記:warn は「合計が合わない=人が見てね」の合図です。読み取りは下書きで、確定入力の前に人が確認する前提です。
④ 手書き出面(でづら)― 職人名・人工・区分を1行ずつ
建築の出面向け抽出器(TsuraExtractor)は、手書き/表形式の出面表から現場名・日付・各行(職人名/人工/区分/職種)を拾います。AI-OCRは表のセルを縦にバラして返すことが多いため、「氏名を見つけた行」を起点に、続く数行から人工と区分を紐付ける作りです。
- 入力:手書きの出面表を1枚。
- 抽出項目:現場名/作業日/各行(職人名・人工・区分〈常用/請負〉・職種)。
| 仕組み | 実装での挙動 |
|---|---|
| 人工の揺れ吸収 | 「1 / 1.0 / 0.5 / 半 / 全 / 1人」などを解釈し、0.25刻みで0〜2.0に丸める |
| 既知職人の優先照合 | 登録済みの職人名があれば優先的に突き合わせ、手書きの読み違いを減らす |
| 区分 | 「常用/請負・一括・出来高」を判定(既定は常用) |
| 信頼度 | 取れた行数で high / mid / low |
正直な注記:手書きは書き手の癖で誤読が起きやすい領域です。だからこそ既知の職人名との照合を効かせ、読めない行は手入力にフォールバックします。現場監督が下書きを確認→修正→確定する運用が前提です。
⑤ 「AIは間違える」前提でつくる ― これが差別化
AI-OCRの記事の多くは「精度◯%」を掲げます。私たちはその数字を単独では出しません。実運用では"間違いをどう見つけて、どう人に渡すか"のほうが効くからです。上の4つの抽出器には、その思想が同じ形で入っています。
- 検算する:納品書は「数量×単価≒金額」、請求書は「税込・税抜・消費税のつじつま」を確かめ、合わない値は捨てるか
warnを出す。読めた値をそのまま信じない。 - 確からしさを持つ:項目ごと・書類ごとに信頼度(high/mid/low、車検証はQR優先の三段)を内部に持ち、人が「どこを重点的に見ればいいか」を判断できるようにする。
- 人の確認を挟む(下書き思想):抽出結果は完成データではなく"下書き(draft)"。人が確認→修正→確定する前提。読めない行は無理に埋めず手入力へ回す。
- PIIを残さない:無料デモは書類を保存せず、OCR処理の直後にアップロード画像を削除します(
finallyで必ず@unlink)。デモは連続利用を一定回数に制限し、濫用による課金・負荷も抑えています。
この「間違える前提の作り」が、そのまま製品の信頼性になります。
よくある質問(FAQ)
Q. 手書きの書類は読めますか?
A. 手書き出面など手書き書類にも対応しています。ただし手書きは書き手の癖で誤読が起きやすいため、登録済みの職人名との照合や人工の表記揺れ吸収で誤りを減らし、読めない行は手入力に切り替えられる設計です。読み取り結果は人が確認する前提の下書きとしてお使いください。
Q. 読み取りの精度は何%ですか?
A. 一律の数字は掲げていません。書類の状態(印字か手書きか、QRの有無、撮影の鮮明さ)で結果が変わるためです。代わりに、項目ごとの確からしさ(信頼度)を内部で持ち、金額の検算や合計の突合で「怪しい箇所」を警告として出す作りにしています。実際の見え方は無料デモでご自身の書類で確かめられます。
Q. アップロードした書類の画像はどうなりますか?
A. 無料デモでは書類を保存しません。OCRの処理が終わった直後にアップロード画像を削除します。車検証や請求書は個人情報・取引情報を含むため、残さない設計にしています。
Q. 読み取った結果はそのまま会計や台帳に登録されますか?
A. いいえ。抽出結果は"下書き"として提示し、人が確認・修正してから確定する前提です。請求書の登録番号(T番号)は形式とチェックデジットまで照合しますが、適格かどうか・仕訳が正しいかどうかの最終判断は、税理士など専門家の確認をおすすめします。
次に読む
広告・商品文の表現に迷ったら → 景表法・薬機法 NG表現チェックリスト2026(使える言い換え付き)。 1文だけなら 無料の広告表現チェック(/adcheck)でその場で判定できます(登録不要・入力は保存しません)。
本ページは実装で確認した挙動と読み取り例の一般的な情報提供であり、個別の読み取り精度や適法性を保証するものではありません。読み取り結果は人の確認を前提とした下書きです。会計・税務の最終判断は税理士等の専門家へご相談ください。