生成式 AI 的技術特徵 - ailawfirm.com.tw

一、他不是資料庫，也不是專家統

當生成式 AI 首次進入法律專業領域時，許多人的第一個反應是：

「它是不是一個超強的法律資料庫？」

這種理解方式雖然直觀，但並不準確。

以目前最具代表性的模型為例，例如由 OpenAI 所開發的 ChatGPT，其本質並不是一個儲存法條、判決與論文的資料庫。它並不在回答問題時「查詢」某個具體文件，而是根據訓練過程中學習到的語言模式，預測最可能出現的文字。

這個差異，對法律人而言極其重要，更加需要特別注意。

嚴謹建立的資料庫的特性通常是可追溯。
你可以查詢案號、頁碼、段落。
你可以追索原始資料。

生成式 AI 的特性則是生成。
它產出的文字未必對應到某個具體來源。
它更像是在語言空間中重組曾經出現過的模式。

因此，當你詢問它某一法律問題時，它給出的回答，並非「查詢結果」，而是「機率最合理的組合」。

這正是生成式 AI 強大之處，也同時是風險所在。

具體來說，顯而易見主要的風險有：

(一)、缺乏驗證事實功能

生成式AI因為原始設計架構的問題，無法完全根絕幻覺，有時提供的資訊看似正確，卻與實際情形不符的回覆，若使用者不經查驗率而引用，即可能帶來風險。

(二)、保密或敏感資料外洩

使用雲端服務提供商所建立的生成式AI時，由於輸入的資料存儲於外部伺服器，有無法或不易控管的難度，若遭他人竊取、濫用、攻擊或竄改，將可能產生資料外洩，權益受損的風險。

(三)、侵害智慧財產權疑慮

生成式AI進行模型訓練時，需利用大量網路資訊或從大型資料庫所蒐集或訓練所得的資料，因為缺乏完善檢驗機制，若原始資料來源有其權利人，就可能有取得資料未經同意或無合法授權的疑慮，導致生成的內容就存在被追訴侵權的風險。

二、大型語言模型在做什麼？

所謂大型語言模型（Large Language Model, LLM），可以用一個簡化的方式理解：

它透過大量文本訓練，學會在某種語境下，下一個詞最可能是什麼。

例如，在法律語境中，當句子開頭是：

「依民法第184條第1項前段規定……」

模型知道接下來常出現的語句模式，例如：

「因故意或過失不法侵害他人權利者，負損害賠償責任。」

它並不是因為理解民法第184條的規範目的，而是因為這種語言組合在訓練資料中高度重複出現。

同樣地，當我們要求它說明侵權行為構成要件，它會生成：

行為
違法性
因果關係
損害

這種排列之所以正確，是因為這樣的結構在法律文本中高度穩定。

問題在於：

一旦問題超出常見語言模式，或需要精細區分個案差異，模型可能仍會生成看似合理但實際不精確的內容。

對法律人而言，這意味著：

生成式 AI 擅長處理「常態語言結構」，但不擅長處理「例外與細節」。

而在灰色地帶的訴訟往往決勝於細節。

三、為什麼它會產生幻覺？

生成式 AI 最令人困惑的現象，是所謂的「幻覺」（hallucination）。

所謂幻覺，並非模型故意造假，而是當缺乏確定資料時，它仍然傾向生成一個完整回答。

從技術角度來看，這是機率模型的自然結果。

當模型被要求提供某一判決見解，但無法確定具體來源時，它可能根據常見語言模式生成一段「像判決理由」的文字。

這段文字在語氣、結構與邏輯上可能毫無破綻，但實際上並未對應到任何具體案件。

在前述美國案件Mata v. Avianca中，問題正出於此。

生成式 AI 產生了不存在的判例，而律師未經查證即引用。

技術上，從一開始開發設定生成式 AI模型，它並不知道自己在「捏造」。
它只是在完成一個語言模式。

然而，法律實務無法接受「機率合理」的來源。
它要求的是「可查證」的來源。這個原則從刑罰最普遍的原則「罪疑惟輕」，就可以理解它某些程度跟法律理念是天生背道而馳。

這種要求差異，正是生成式 AI 與法律專業之間的張力所在。

四、法律本文為何特別容易被模仿

值得注意的是，法律文本與一般日常語言不同。

它具有高度形式化與重複性，也含有邏輯性：

固定段落結構
常見要件排列
標準化用語
導出判決所建構論述理由的模板化

這些特徵，使得語言模型更容易學習與複製。

換言之，法律語言的規律性，反而讓生成式 AI 在表面上顯得特別擅長法律。

但這種擅長，多半停留在「形式層次」。

真正困難的部分，在於：

如何在事實細節中區分要件
如何在證據衝突中形成評價
如何在相互矛盾的見解中做出選擇

這些工作，涉及價值判斷與策略思考。

目前的生成式模型，並不具備真正的判斷能力。

五、技術限制與專業責任的交會點

理解生成式 AI 的技術限制，並非為了批評技術。

而是為了重新界定專業責任。

當我們知道：

它不會主動查證
它不會承認不確定
它會傾向生成完整回答

我們就必須在制度上建立補強機制。

這也是本書提出「人類審查原則」的背景。

在法律專業中，生成並不是終點。

查證才是。

因此，本章的結論並非否定生成式 AI，而是提醒：

它是一種語言工具，不是一種判斷工具。

當律師將它視為判斷工具時，風險便開始擴大。

當律師將它視為語言與結構輔助工具時，它可以顯著提升效率。

生成式 AI 的強大，來自於語言模式的學習。
生成式 AI 的風險，也來自於語言模式的生成。

法律專業的核心，並非文字，而是在於判斷與責任。

理解技術原理的目的，不在於成為工程師，而在於避免誤判工具能力。