隨著智慧司法的興起,以智慧化方法驅動的智慧法律系統可望惠及不同群體。例如,為法律專業人員減輕文書工作,為一般民眾提供法律諮詢服務,為法學學生提供學習和考試輔導。 由於法律知識的獨特性和司法任務的多樣性,先前的智慧司法研究方面主要著眼於為特定任務設計自動化演算法,難以滿足對司法領域提供支撐性服務的需求,離應用落地有不小的距離。而大型語言模型(LLMs)在不同的傳統任務上展現出強大的能力,為智慧法律系統的進一步發展帶來希望。 近日,復旦大學資料智慧與社會運算實驗室(FudanDISC)發表大語言模式驅動的中文智慧法律系統 ——DISC-LawLLM。該系統可以面向不同使用者群體,提供多元的法律服務。此外,實驗室也建構了評測基準 DISC-Law-Eval,從客觀和主觀兩個面向來評測法律大語言模型,模型在評測中的表現相較現有的法律大模型有明顯優勢。 主題組同時公開包含 30 萬高品質的監督微調(SFT)資料集 ——DISC-Law-SFT,模型參數和技術報告也一併開源。
- 主頁網址:https://law.fudan-disc.com
- Github 網址: https://github.com/FudanDISC/DISC-LawLLM
- #技術報告:https://arxiv.org/abs/2309.11325
#用戶有法律上的疑問時,可以向模型諮詢,描述疑問,模型會給予相關的法律規定和解釋、建議的解決方案等。
專業法律者和司法機關,可以利用模型完成法律文本摘要、司法事件偵測、實體和關係抽取等,減輕文書工作,提高工作效率。 中,可以向模型提出問題,幫助鞏固法律知識,並解答法律考試題。 之後排上法條做支撐時,模型會根據問題在知識庫中檢索相關內容,給予回應。
02 DISC-LawLLM 簡介
DISC-LawLLM 是基於我們建構的高品質資料集DISC-Law-SFT 在通用領域中中文大模式Baichuan -13B 上進行全參指令微調所得的法律大模型。值得注意的是,我們的訓練資料和訓練方法可以被適配到任何基座大模型之上。 1. 基礎的法律文本處理能力。針對法律文本理解與生成的不同基礎能力,包括資訊抽取、文本摘要等,我們基於現有的 NLP 司法任務公開數據和真實世界的法律相關文本進行了微調數據的建構。
2. 法律推理思考能力。針對智慧司法領域任務的需求,我們使用法律三段論這一法官的基本法律推理過程重構了指令數據,有效地提高了模型的法律推理能力。
3. 司法領域知識檢索遵循能力非常重要。在解決智慧司法領域的問題時,通常需要根據問題的相關背景法條或案例進行檢索。為了增強智慧法律處理系統的檢索和遵循能力,我們為其配備了檢索增強的模組
03 方法:數據集合DISC-Law-SFT 的構念
DISC-Law-SFT 分成兩個子資料集,分別是DISC-Law-SFT-Pair 和DISC-Law-SFT-Triplet,前者在LLM 中引入了法律推理能力,而後者則有助於提升模型利用外部知識的能力。 DISC-Law-SFT 資料集的資料來自三部分,一是與中國法律相關的NLP 司法任務公開資料集,包括法律資訊抽取、實體與關係抽取、司法文本摘要、司法考試問答、司法閱讀理解、罪名/ 刑期預測等;二是收集了來自真實世界的法律相關的原始文本,如法律法規、司法案件、裁判文書、司法相關的考試等;三是通用的開源資料集,我們使用了alpaca_gpt4_data_zh 和Firefly,這樣可以豐富訓練集的多樣性,減輕模型在SFT 訓練階段出現基礎能力降級的風險。 #對上述一、二來源的資料轉換為「輸入- 輸出」 指令對後,我們採用以下三種方式對指令資料重構,以提高資料品質。 #在法律三段論中,大前提為適用的法律規則,小前提為案件事實,結論為法律判斷。這構成了法官的一個基本的法律推理過程。每一個案例都可以透過三段論得出一個明確的結論,如下所述:
#大前提:法律規則#我們利用GPT-3.5-turbo 來完成行為塑造的重構,精進輸出,確保每個結論都從一個法律條款和一個案例事實中得出。
#對於行為塑造不適用的多項選擇題,我們直接使用法律知識來擴展輸出,以提供更多的推理細節。許多與法律相關的考試和知識競賽只提供答案選項,我們使用 LLM 來擴展所涉及的法律知識,給出正確的答案,並重建指令對。
#思考鏈(CoT)已被證明能有效地提高模型的推理能力。為了進一步賦予模型法律推理能力,我們設計了具有特定法律意義的思維鏈,稱為 LCoT,要求模型用法律三段論來推導答案。 LCoT 將輸入X 轉換為如下的提示:
在法律三段論中,大前提是適用的法律規則,小前提是案件事實,結論是對案件的法律判斷。
為了訓練檢索增強後的模型,我們建構了DISC-Law-SFT-Triplet 子資料集,資料為
形式的三元組,我們使用指令對建構中列出的三種策略對原始資料進行處理,獲得輸入和輸出,並設計啟發式規則來從原始資料中提取參考資訊。 DISC-LawLLM 的訓練過程分為SFT 和檢索增強兩個階段。
#雖然我們使用了高品質的指令數據對LLM 進行微調,但它可能會由於幻覺或過時的知識而產生不準確的反應。為了解決這個問題,我們設計了一個檢索模組來增強 DISC-LawLLM。
給定一個使用者輸入,檢索器透過計算它們與輸入的相似性,從知識庫傳回最相關的 Top-K 文件。這些候選文檔,連同使用者輸入,用我們設計的範本構造後輸入到 DISC-LawLLM 中。透過查詢知識庫,模型可以更好地理解主要前提,從而得到更準確可靠的答案。
評測基準DISC-Law-Eval
##我們建構了一個公平的智慧法律系統評估基準DISC-Law-Eval,從客觀和主觀的角度來評估,填補了目前還沒有基準來對智慧法律體系全面評估這一空白。 勾選
為了客觀、定量地評估智慧法律系統的法律知識和推理能力,我們設計了一個客觀的評估資料集,由一系列中國法律標準化考試和知識競賽的單一項目和多項選擇題組成,並根據內容複雜性和演繹難度,將問題分為困難、正常和容易三個層次。它可以提供一個更具挑戰性和可靠的方法來衡量模型是否可以利用其知識來推理正確的答案。我們透過計算精度來表明性能。 #主觀評測部分,我們採用問答的範式進行評估,模擬主觀考試問題的過程。我們從法律諮詢、線上論壇、與司法相關的出版物和法律文件中手工建立了一個高品質的測試集。我們以 GPT- 3.5-turbo 作為裁判模型來評估模型的輸出,並以準確性、完整性和清晰度這三個標準提供 1 到 5 的評分。 比較模型
將我們的模型DISC-LawLLM (不外接知識庫) 與4 個通用LLM 和4 個中文法律LLM 進行比較,包括GPT-3.5-turbo 、ChatGLM-6B 、Baichuan-13B-Chat 、Chinese-Alpaca2-13B ;LexiLaw 、LawGPT、Lawyer LLaMA、ChatLaw 。 DISC-LawLLM 在所有不同難度等級的測試中超過所有比較的同等參數量的大模型。即使與具有 175B 參數的 GPT- 3.5-turbo 相比,DISC-LawLLM 在部分測試上也表現出了更優越的性能。表 2 是客觀評測結果,其中加粗表示最佳結果,底線表示次佳結果。 與「 #在客觀評測中,DISC-LawLLM 獲得了最高的綜合得分,並在準確度和清晰度這兩項標準中得分最高。表 3 是主觀評測結果,其中加粗表示最佳結果。
我們發布了DISC-LawLLM,一個提供多重應用情境下法律服務的智慧法律系統。基於公開的法律領域 NLP 任務資料集、法律原始文本和開源通用指令資料集,按照法律三段論重構了法律指令進行監督微調。為了提高輸出的可靠性,我們加入了一個外部檢索模組。透過提高法律推理和知識檢索能力,DISC-LawLLM 在我們建構的法律基準評測集上優於現有的法律 LLM。該領域的研究將為實現法律資源平衡等帶來更多前景和可能性,我們發布了所建構的資料集和模型權重,以促進進一步的研究。
以上是復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據的詳細內容。更多資訊請關注PHP中文網其他相關文章!