一、他不是資料庫,也不是專家統
當生成式 AI 首次進入法律專業領域時,許多人的第一個反應是:
「它是不是一個超強的法律資料庫?」
這種理解方式雖然直觀,但並不準確。
以目前最具代表性的模型為例,例如由 OpenAI 所開發的 ChatGPT,其本質並不是一個儲存法條、判決與論文的資料庫。它並不在回答問題時「查詢」某個具體文件,而是根據訓練過程中學習到的語言模式,預測最可能出現的文字。
這個差異,對法律人而言極其重要,更加需要特別注意。
嚴謹建立的資料庫的特性通常是可追溯。
你可以查詢案號、頁碼、段落。
你可以追索原始資料。
生成式 AI 的特性則是生成。
它產出的文字未必對應到某個具體來源。
它更像是在語言空間中重組曾經出現過的模式。
因此,當你詢問它某一法律問題時,它給出的回答,並非「查詢結果」,而是「機率最合理的組合」。
這正是生成式 AI 強大之處,也同時是風險所在。
具體來說,顯而易見主要的風險有:
(一)、缺乏驗證事實功能
生成式AI因為原始設計架構的問題,無法完全根絕幻覺,有時提供的資訊看似正確,卻與實際情形不符的回覆,若使用者不經查驗率而引用,即可能帶來風險。
(二)、保密或敏感資料外洩
使用雲端服務提供商所建立的生成式AI時,由於輸入的資料存儲於外部伺服器,有無法或不易控管的難度,若遭他人竊取、濫用、攻擊或竄改,將可能產生資料外洩,權益受損的風險。
(三)、侵害智慧財產權疑慮
生成式AI進行模型訓練時,需利用大量網路資訊或從大型資料庫所蒐集或訓練所得的資料,因為缺乏完善檢驗機制,若原始資料來源有其權利人,就可能有取得資料未經同意或無合法授權的疑慮,導致生成的內容就存在被追訴侵權的風險。
二、大型語言模型在做什麼?
所謂大型語言模型(Large Language Model, LLM),可以用一個簡化的方式理解:
它透過大量文本訓練,學會在某種語境下,下一個詞最可能是什麼。
例如,在法律語境中,當句子開頭是:
「依民法第184條第1項前段規定……」
模型知道接下來常出現的語句模式,例如:
「因故意或過失不法侵害他人權利者,負損害賠償責任。」
它並不是因為理解民法第184條的規範目的,而是因為這種語言組合在訓練資料中高度重複出現。
同樣地,當我們要求它說明侵權行為構成要件,它會生成:
- 行為
- 違法性
- 因果關係
- 損害
這種排列之所以正確,是因為這樣的結構在法律文本中高度穩定。
問題在於:
一旦問題超出常見語言模式,或需要精細區分個案差異,模型可能仍會生成看似合理但實際不精確的內容。
對法律人而言,這意味著:
生成式 AI 擅長處理「常態語言結構」,但不擅長處理「例外與細節」。
而在灰色地帶的訴訟往往決勝於細節。
三、為什麼它會產生幻覺?
生成式 AI 最令人困惑的現象,是所謂的「幻覺」(hallucination)。
所謂幻覺,並非模型故意造假,而是當缺乏確定資料時,它仍然傾向生成一個完整回答。
從技術角度來看,這是機率模型的自然結果。
當模型被要求提供某一判決見解,但無法確定具體來源時,它可能根據常見語言模式生成一段「像判決理由」的文字。
這段文字在語氣、結構與邏輯上可能毫無破綻,但實際上並未對應到任何具體案件。
在前述美國案件Mata v. Avianca中,問題正出於此。
生成式 AI 產生了不存在的判例,而律師未經查證即引用。
技術上,從一開始開發設定生成式 AI模型,它並不知道自己在「捏造」。
它只是在完成一個語言模式。
然而,法律實務無法接受「機率合理」的來源。
它要求的是「可查證」的來源。這個原則從刑罰最普遍的原則「罪疑惟輕」,就可以理解它某些程度跟法律理念是天生背道而馳。
這種要求差異,正是生成式 AI 與法律專業之間的張力所在。
四、法律本文為何特別容易被模仿
值得注意的是,法律文本與一般日常語言不同。
它具有高度形式化與重複性,也含有邏輯性:
- 固定段落結構
- 常見要件排列
- 標準化用語
- 導出判決所建構論述理由的模板化
這些特徵,使得語言模型更容易學習與複製。
換言之,法律語言的規律性,反而讓生成式 AI 在表面上顯得特別擅長法律。
但這種擅長,多半停留在「形式層次」。
真正困難的部分,在於:
- 如何在事實細節中區分要件
- 如何在證據衝突中形成評價
- 如何在相互矛盾的見解中做出選擇
這些工作,涉及價值判斷與策略思考。
目前的生成式模型,並不具備真正的判斷能力。
五、技術限制與專業責任的交會點
理解生成式 AI 的技術限制,並非為了批評技術。
而是為了重新界定專業責任。
當我們知道:
- 它不會主動查證
- 它不會承認不確定
- 它會傾向生成完整回答
我們就必須在制度上建立補強機制。
這也是本書提出「人類審查原則」的背景。
在法律專業中,生成並不是終點。
查證才是。
因此,本章的結論並非否定生成式 AI,而是提醒:
它是一種語言工具,不是一種判斷工具。
當律師將它視為判斷工具時,風險便開始擴大。
當律師將它視為語言與結構輔助工具時,它可以顯著提升效率。
生成式 AI 的強大,來自於語言模式的學習。
生成式 AI 的風險,也來自於語言模式的生成。
法律專業的核心,並非文字,而是在於判斷與責任。
理解技術原理的目的,不在於成為工程師,而在於避免誤判工具能力。