「ChatGPTに聞いたら、きれいな回答が返ってきた。でも、この情報って本当に合ってるの?」
経理・法務・総務の現場で生成AI(ChatGPTやGeminiなどの文章生成AI)を使い始めた方から、こんな不安の声をよく聞きます。生成AIは流暢な日本語で、自信満々に回答してくれます。しかし、その中身が事実と違う「ハルシネーション」という現象が、今、大きな業務リスクになっています。
実際、米国ではChatGPTが作った架空の判例を裁判所に提出した弁護士が制裁金を科された事件がありました。「自分は大丈夫」と油断していると、法令の誤引用や数値の取り違えで会社に損害を与えかねません。
この記事では、事務系の業務で生成AIを安全に使うために、今日から実践できる「AI ハルシネーション 対処法」を、業務タイプ別のチェック手順とあわせて解説します。技術的な話は最小限に絞り、明日の仕事でそのまま使える内容に集中しました。
AIが自信満々に嘘をつく「ハルシネーション」とは
生成AIのハルシネーションとは、ChatGPTやGeminiなどのAIが、事実に基づかない情報を、さも正しいかのように出力する現象のことです。日本語では「幻覚」と訳されます。
問題なのは、AIが「これは自信がありません」と言わずに、流暢な文体で堂々と誤情報を返してくる点です。読み手が内容を信じ込みやすいため、事務業務では特に注意が必要です。
ここでは、仕組みの本質と、事務職にとってなぜリスクが高いのかを整理します。
30秒でわかるハルシネーションの仕組み
ChatGPTなどのLLM(大規模言語モデル)は、事実を検索しているわけではありません。学習したデータから「次に来る確率が高い単語」を予測し、つなぎ合わせて文章を組み立てています。
つまりAIは「もっともらしい文章」を作るのは得意ですが、「正確な情報を引く」のは本質的に不得意です。この仕組みがハルシネーションの根本原因です。
ハルシネーションには2種類あります。学習データにない情報を勝手に生成する「外在的ハルシネーション」と、学習データと矛盾する情報を出す「内在的ハルシネーション」です。どちらも、見た目だけでは人間が区別できません。
なお、最新モデルではハルシネーション率が大きく下がっています。あるベンチマーク調査では、2021年時点で21.8%だった発生率が、2025年の最先端モデルでは0.7%程度まで改善したと報告されています。それでも「完全な根絶は原理的に不可能」とされており、ゼロにはなりません。
なぜ事務業務でリスクが高いのか
事務業務でハルシネーションが怖い理由は、扱う情報の多くが「正確性が命」だからです。法令番号、金額、固有名詞、日付。どれか一つでも間違えれば、社内外に影響が出ます。
スタンフォード大学HAIが2024年に発表した研究では、法律専門の業務用AI(LexisNexisなど)であっても、6件に1件(約17%)の割合でハルシネーションが発生していました。裁判所の判決に関する質問では、75%以上の確率で誤情報が含まれていたといいます。
「専用AIだから安心」という考え方自体が危険です。使う側が必ず一次ソースで確認する姿勢を持たないと、事務業務では簡単に事故が起きます。
事務職が遭遇しやすい失敗事例3パターン
ここからは、事務職が実際に巻き込まれやすい失敗のパターンを3つ紹介します。海外の実例と、日本の事務現場で起こりうるシナリオを重ねて解説します。
「自分には関係ない」と思わず、自分の業務に置き換えて読んでみてください。
パターン1:存在しない法律・条文を引用された(法務・総務)
もっとも有名な事例が、2023年の米国「Mata v. Avianca事件」です。弁護士Steven Schwartz氏がChatGPTを使って作成した訴訟書面に、6件の架空判例が含まれていました。
AIは判例名(Varghese v. China Southern Airlines等)だけでなく、引用文、内部引用、裁判官名まで捏造していました。結果として、弁護士事務所に5,000ドルの制裁金が科されました。
日本の事務現場でも同じことが起こり得ます。総務担当者がChatGPTに「育児・介護休業法の該当条文を教えて」と質問したとき、実在しない条番号を返されるケースがあります。そのまま社内規程の改定案に使えば、大きな事故につながります。
法令関連の回答は、必ずe-Gov法令検索などの一次ソースで原典を確認してください。
パターン2:架空の統計データを出力された(経理・企画)
「業界平均の粗利率を教えて」「直近3年の市場規模の推移を出して」。統計に関するこうした質問は、経理・企画の現場で生成AIに聞きたくなる典型例です。
しかし、ここがもっとも危険な領域の一つです。ある金融Q&Aタスクの調査では、ChatGPT-4oが約20%、Gemini Advancedが約77%という高い割合で虚偽情報を返したと報告されています(調査条件による変動あり)。ドメイン特化型のタスクでは、汎用モデルの誤答率が急増する傾向があります。
AIが返してきた「○○調査(2023年)によると◯%」という数字が、架空の調査であるケースは珍しくありません。経営会議の資料に使う前に、必ず原典となる調査レポートのPDFを自分で確認しましょう。
パターン3:実在しない人名・社名を生成された(人事・営業事務)
人事・営業事務の業務で、取引先情報や経歴を生成AIに整理させる場面でも事故が起きます。実在しない担当者名、存在しない部署、倒産している会社名。AIはそれらを平然と出力します。
NeurIPS 2025採択論文の4,000件以上を分析した調査では、少なくとも50本の論文に、AI生成による架空引用や変造引用が含まれていたことが判明しました(GPTZero2調査による)。学術論文ですら、人名や引用元の捏造が入り込んでいます。
営業リストや社内向け資料にAIの出力をそのまま貼り付けるのは避けましょう。固有名詞は必ず公式サイトや名刺で裏取りをしてください。
業務別ファクトチェック手順チェックリスト
ここからが本題です。業務タイプ別に、AIの回答をそのまま使う前にやるべき確認手順を示します。
どの業務でも「何を人間が確認するか」を先に決めておくと、チェック漏れが減ります。プリントして手元に置いておくと便利です。
文書作成・報告書でAIを使ったとき
報告書や議事録のドラフトをAIに作ってもらったときのチェック項目です。
- 固有名詞(人名・部署名・取引先名)がすべて実在するかを一次ソースで確認する
- 引用されている数字・割合・日付をすべて原典で照合する
- 文書内で矛盾している主張がないかを通読で確認する
- 根拠が示されていない強い断定(「最も」「必ず」など)を削る
- 自分の業務文脈に合わない表現を削除・差し替える
特に注意したいのが、AIの出力に含まれる「断定口調」です。AIは自信度を示さずに書き切るため、そのまま使うとリスクがあります。
数値・集計データをAIに処理させたとき
AIに数値処理をさせる場面で、もっとも守ってほしいのが「計算は別ツールに任せる」という原則です。
【NG例】
ユーザー: 以下の売上データから、前年比と構成比を計算してください。
AI: (数字をそれらしく並べる → 検算すると合っていない)
【OK例】
ユーザー: 以下の売上データの集計方法と、Excelの数式を提案してください。
AI: (SUMIFS・構成比の数式を提示 → 実際の計算はExcelで行う)
チェック手順は次の通りです。
- AIに集計させず「集計方法の提案」だけをさせる
- 計算はExcelやスプレッドシートなど、決定論的に動くツールで実施する
- AIが提示した数字は、必ず元データから手元で検算する
- 出典付きの統計値は、必ず原典のPDFを開いて該当ページを確認する
法令・規程・契約関連の確認をAIに依頼したとき
法令関連は、事務職にとって最もハルシネーションのリスクが高い領域です。AIに頼っていいのは「論点整理」までと考えてください。
【プロンプト例:グラウンディング指示】
以下の社内規程のテキストのみを参照して回答してください。
テキストに書かれていない内容は「規程に記載なし」と答えてください。
---
(ここに社内規程の該当箇所を貼り付け)
---
質問: 年次有給休暇の付与ルールは何日分か。
AIに全文を貼り付けて「この文書の範囲内で答えて」と指示する方法を、グラウンディングと呼びます。外部知識によるハルシネーションを大きく減らせる有効な手法です。
チェック手順は次の通りです。
- 法令名・条番号は必ずe-Gov法令検索で原文を確認する
- 判例は裁判所ウェブサイトの判例検索で確認する
- 社内規程の解釈は、最終的に人事・法務部門の担当者に確認する
- AIが引用した「◯◯条◯項」は、すべて一次ソースで存在を確認する
メール・社外文書の作成にAIを使ったとき
社外メールの文面作成は、ハルシネーションのリスクが比較的低い業務です。文体・語順・敬語といった「表現の問題」だからです。
ただし、本文に数字・日付・固有名詞・金額が含まれる場合は話が別です。それらは必ず自分の手で書き換える前提で使いましょう。
- 日付・時刻・金額・数量はAI出力を信用せず、自分で打ち直す
- 取引先名・担当者名はメール署名や名刺で再確認する
- 添付ファイルの有無と実体が一致しているかを送信前にチェックする
- 機密情報を入力していないかを送信前に確認する
「AIに任せていい確認」と「人間がやるべき確認」2段階チェック表
ここで、2段階チェック表を整理しておきます。AIに丸投げしていい領域と、人間が必ず見るべき領域を明確に分けるのがコツです。
| 確認項目 | AIに任せていい | 人間が必ず確認 |
|---|---|---|
| 誤字脱字 | ◎ | |
| 文体・敬語の統一 | ◎ | |
| 文章構成・論理展開 | ○ | △ |
| 固有名詞(人名・社名) | × | ◎ |
| 数値・金額・日付 | × | ◎ |
| 法令・条文・判例 | × | ◎ |
| 統計・調査データの出典 | × | ◎ |
| 社内規程の解釈 | △ | ◎ |
この表のポイントは、「AIが得意なのは表現領域、人間が守るべきは事実領域」という切り分けです。
AIに任せていい確認:文体・構成・誤字脱字など
誤字脱字のチェック、敬語の統一、文章構成の見直し。こうした「表現の品質」に関する確認は、生成AIが最も得意とする領域です。
Chain of Thought(ステップバイステップで考えさせる指示)を活用すると、精度が上がります。「この文章を推敲してください。段階的に問題点を挙げてから修正案を出してください」と指示するだけでも効果があります。
文体の統一や構成の並び替えは、AIに任せたほうが速く正確になるケースが多いです。
人間が必ずやるべき確認:数値・法令・固有名詞・出典
一方、次の4カテゴリは絶対にAIに任せてはいけません。
- 数値・統計・金額
- 法令番号・条文・判例
- 人名・社名・部署名などの固有名詞
- 引用元の出典(◯◯調査、◯◯白書など)
これらは、AIの確率予測が最も誤りやすい領域です。ハルシネーションが起きたときの業務インパクトも大きくなります。
プロンプトで「わからない場合は『わかりません』と答えてください」と明示的に許可を与えると、無理な回答が減ります。それでも、最終判断は必ず一次ソースと人間の目で行ってください。
まとめ:AIを安心して使うために今日から始める3つの習慣
生成AIのハルシネーションはゼロにはなりません。しかし、使い方を工夫すれば、業務リスクを大きく下げられます。
最後に、今日から始められる3つの習慣をまとめます。
- AIの回答は「下書き」として扱う:完成品ではなく、人間がチェックする前提の素材と考える
- 数値・法令・固有名詞は必ず一次ソースで確認する:e-Gov、公式サイト、原典PDFを自分で開く
- 「わからないときはわかならないと言って」と必ずプロンプトに入れる:AIに正直に答える許可を与える
この3つを守るだけで、事務業務で起きやすい事故の大半は防げます。
さらに踏み込んで、AI全般の注意点を整理したい方は、「生成AIを仕事で使うときの注意点チェックリスト15」もあわせてお読みください。情報漏洩・著作権・ハルシネーションを含む15の観点で、AI業務利用のリスクを俯瞰できます。
また、個人レベルの対処法から一歩進めて、組織としてのルール整備に関心がある方には「会社でChatGPT・生成AIを使うときのルール|コピペOKひな形付き」もおすすめです。社内ガイドライン作成のひな形がそのまま使えます。
AIは、正しく付き合えば強力な味方です。ハルシネーションを恐れて使わないのではなく、手順を決めて安心して使いこなしていきましょう。
