搜尋
首頁科技週邊人工智慧復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

隨著智慧司法的興起,以智慧化方法驅動的智慧法律系統可望惠及不同群體。例如,為法律專業人員減輕文書工作,為一般民眾提供法律諮詢服務,為法學學生提供學習和考試輔導。

由於法律知識的獨特性和司法任務的多樣性,先前的智慧司法研究方面主要著眼於為特定任務設計自動化演算法,難以滿足對司法領域提供支撐性服務的需求,離應用落地有不小的距離。而大型語言模型(LLMs)在不同的傳統任務上展現出強大的能力,為智慧法律系統的進一步發展帶來希望。

近日,復旦大學資料智慧與社會運算實驗室(FudanDISC)發表大語言模式驅動的中文智慧法律系統 ——DISC-LawLLM。該系統可以面向不同使用者群體,提供多元的法律服務。此外,實驗室也建構了評測基準 DISC-Law-Eval,從客觀和主觀兩個面向來評測法律大語言模型,模型在評測中的表現相較現有的法律大模型有明顯優勢。

主題組同時公開包含 30 萬高品質的監督微調(SFT)資料集 ——DISC-Law-SFT,模型參數和技術報告也一併開源。

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

  • 主頁網址:https://law.fudan-disc.com
  • Github 網址: https://github.com/FudanDISC/DISC-LawLLM
  • #技術報告:https://arxiv.org/abs/2309.11325

#01 範例展示

#用戶有法律上的疑問時,可以向模型諮詢,描述疑問,模型會給予相關的法律規定和解釋、建議的解決方案等。

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

                                 圖1 法律諮詢示例

專業法律者和司法機關,可以利用模型完成法律文本摘要、司法事件偵測、實體和關係抽取等,減輕文書工作,提高工作效率。 復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據
                                 中,可以向模型提出問題,幫助鞏固法律知識,並解答法律考試題。

                                 之後排上法條做支撐時,模型會根據問題在知識庫中檢索相關內容,給予回應。

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

                                圖4 檢索增強場景下的對話

02 DISC-LawLLM 簡介

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

DISC-LawLLM 是基於我們建構的高品質資料集DISC-Law-SFT 在通用領域中中文大模式Baichuan -13B 上進行全參指令微調所得的法律大模型。值得注意的是,我們的訓練資料和訓練方法可以被適配到任何基座大模型之上。

DISC-LawLLM 有三個核心能力:
1. 基礎的法律文本處理能力。針對法律文本理解與生成的不同基礎能力,包括資訊抽取、文本摘要等,我們基於現有的 NLP 司法任務公開數據和真實世界的法律相關文本進行了微調數據的建構。

2. 法律推理思考能力。針對智慧司法領域任務的需求,我們使用法律三段論這一法官的基本法律推理過程重構了指令數據,有效地提高了模型的法律推理能力。

3. 司法領域知識檢索遵循能力非常重要。在解決智慧司法領域的問題時,通常需要根據問題的相關背景法條或案例進行檢索。為了增強智慧法律處理系統的檢索和遵循能力,我們為其配備了檢索增強的模組

模型的整體框架如圖5 所示:

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

                                   圖5 模型在不同的法律場景下服務於不同的用戶

03 方法:數據集合DISC-Law-SFT 的構念

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

##                      系統
DISC-Law-SFT 分成兩個子資料集,分別是DISC-Law-SFT-Pair 和DISC-Law-SFT-Triplet,前者在LLM 中引入了法律推理能力,而後者則有助於提升模型利用外部知識的能力。

                                     表上中:DISC-Law-SFT 資料集內容說明

DISC-Law-SFT 資料集的資料來自三部分,一是與中國法律相關的NLP 司法任務公開資料集,包括法律資訊抽取、實體與關係抽取、司法文本摘要、司法考試問答、司法閱讀理解、罪名/ 刑期預測等;二是收集了來自真實世界的法律相關的原始文本,如法律法規、司法案件、裁判文書、司法相關的考試等;三是通用的開源資料集,我們使用了alpaca_gpt4_data_zh 和Firefly,這樣可以豐富訓練集的多樣性,減輕模型在SFT 訓練階段出現基礎能力降級的風險。

指令對建構

#對上述一、二來源的資料轉換為「輸入- 輸出」 指令對後,我們採用以下三種方式對指令資料重構,以提高資料品質。

行為塑造

    #在法律三段論中,大前提為適用的法律規則,小前提為案件事實,結論為法律判斷。這構成了法官的一個基本的法律推理過程。每一個案例都可以透過三段論得出一個明確的結論,如下所述:
#大前提:法律規則

小前提:案件事實
結論:法律判斷
#我們利用GPT-3.5-turbo 來完成行為塑造的重構,精進輸出,確保每個結論都從一個法律條款和一個案例事實中得出。

知識擴充

    #對於行為塑造不適用的多項選擇題,我們直接使用法律知識來擴展輸出,以提供更多的推理細節。許多與法律相關的考試和知識競賽只提供答案選項,我們使用 LLM 來擴展所涉及的法律知識,給出正確的答案,並重建指令對。

思維培養

    #思考鏈(CoT)已被證明能有效地提高模型的推理能力。為了進一步賦予模型法律推理能力,我們設計了具有特定法律意義的思維鏈,稱為 LCoT,要求模型用法律三段論來推導答案。 LCoT 將輸入X 轉換為如下的提示:
在法律三段論中,大前提是適用的法律規則,小前提是案件事實,結論是對案件的法律判斷。

案例:X
讓我們用法律三段論來思考與輸出判斷:
##指令三元組建構
為了訓練檢索增強後的模型,我們建構了DISC-Law-SFT-Triplet 子資料集,資料為
形式的三元組,我們使用指令對建構中列出的三種策略對原始資料進行處理,獲得輸入和輸出,並設計啟發式規則來從原始資料中提取參考資訊。
04 實驗

訓練
DISC-LawLLM 的訓練過程分為SFT 和檢索增強兩個階段。
檢索增強

#雖然我們使用了高品質的指令數據對LLM 進行微調,但它可能會由於幻覺或過時的知識而產生不準確的反應。為了解決這個問題,我們設計了一個檢索模組來增強 DISC-LawLLM。
  • 給定一個使用者輸入,檢索器透過計算它們與輸入的相似性,從知識庫傳回最相關的 Top-K 文件。這些候選文檔,連同使用者輸入,用我們設計的範本構造後輸入到 DISC-LawLLM 中。透過查詢知識庫,模型可以更好地理解主要前提,從而得到更準確可靠的答案。

                                   圖7中:擷取中增強的DISC-1

評測基準DISC-Law-Eval

##我們建構了一個公平的智慧法律系統評估基準DISC-Law-Eval,從客觀和主觀的角度來評估,填補了目前還沒有基準來對智慧法律體系全面評估這一空白。
                                勾選

##客觀評測

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

為了客觀、定量地評估智慧法律系統的法律知識和推理能力,我們設計了一個客觀的評估資料集,由一系列中國法律標準化考試和知識競賽的單一項目和多項選擇題組成,並根據內容複雜性和演繹難度,將問題分為困難、正常和容易三個層次。它可以提供一個更具挑戰性和可靠的方法來衡量模型是否可以利用其知識來推理正確的答案。我們透過計算精度來表明性能。

主觀評測
#主觀評測部分,我們採用問答的範式進行評估,模擬主觀考試問題的過程。我們從法律諮詢、線上論壇、與司法相關的出版物和法律文件中手工建立了一個高品質的測試集。我們以 GPT- 3.5-turbo 作為裁判模型來評估模型的輸出,並以準確性、完整性和清晰度這三個標準提供 1 到 5 的評分。

評測結果
比較模型


將我們的模型DISC-LawLLM (不外接知識庫) 與4 個通用LLM 和4 個中文法律LLM 進行比較,包括GPT-3.5-turbo 、ChatGLM-6B 、Baichuan-13B-Chat 、Chinese-Alpaca2-13B ;LexiLaw 、LawGPT、Lawyer LLaMA、ChatLaw 。

客觀評測結果
DISC-LawLLM 在所有不同難度等級的測試中超過所有比較的同等參數量的大模型。即使與具有 175B 參數的 GPT- 3.5-turbo 相比,DISC-LawLLM 在部分測試上也表現出了更優越的性能。表 2 是客觀評測結果,其中加粗表示最佳結果,底線表示次佳結果。

                               與「

    #在客觀評測中,DISC-LawLLM 獲得了最高的綜合得分,並在準確度和清晰度這兩項標準中得分最高。表 3 是主觀評測結果,其中加粗表示最佳結果。

                                 # #05 總結

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據我們發布了DISC-LawLLM,一個提供多重應用情境下法律服務的智慧法律系統。基於公開的法律領域 NLP 任務資料集、法律原始文本和開源通用指令資料集,按照法律三段論重構了法律指令進行監督微調。為了提高輸出的可靠性,我們加入了一個外部檢索模組。透過提高法律推理和知識檢索能力,DISC-LawLLM 在我們建構的法律基準評測集上優於現有的法律 LLM。該領域的研究將為實現法律資源平衡等帶來更多前景和可能性,我們發布了所建構的資料集和模型權重,以促進進一步的研究。

以上是復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
您必須在無知的面紗後面建立工作場所您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中,他提出了一種思想實驗,我們應該將其作為當今人工智能設計和使用決策的核心:無知的面紗。這一理念為理解公平提供了一個簡單的工具,也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。 設想一下,您正在為一個新的社會制定規則。但有一個前提:您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮,健康或殘疾,屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作,可以防止規則制定者做出有利於自身的決策。相反,人們會更有動力製定公

決策,決策……實用應用AI的下一步決策,決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化(RPA),提供機器人以使重複的任務自動化 - UIPATH,在任何地方自動化,藍色棱鏡等。 同時,過程採礦,編排和智能文檔處理專業

代理人來了 - 更多關於我們將在AI合作夥伴旁邊做什麼代理人來了 - 更多關於我們將在AI合作夥伴旁邊做什麼Apr 29, 2025 am 11:13 AM

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現,能夠獨立行動和任務完成。 這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理:研究

為什麼同情在AI驅動的未來中比控制者更重要為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。 當AI超越生產力並開始塑造我們的社會結構時,會發生什麼? Topher McDougal即將出版的書Gaia Wakes:

用於產品分類的AI:機器可以總稅法嗎?用於產品分類的AI:機器可以總稅法嗎?Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼,例如諸如統一系統(HS)等系統的“ HS 8471.30”,對於國際貿易和國內銷售至關重要。 這些代碼確保正確的稅收申請,影響每個INV

數據中心的需求會引發氣候技術反彈嗎?數據中心的需求會引發氣候技術反彈嗎?Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來 本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響,並分析了應對這一挑戰的創新解決方案和政策建議。 能源需求的挑戰: 大型超大規模數據中心耗電量巨大,堪比數十萬個普通北美家庭的總和,而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月,微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元(摩根大通,2024)(表1)。 不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導,迫在眉睫的電

AI和好萊塢的下一個黃金時代AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型,正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景,甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高,但其進步速度令人驚嘆。 生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作,另一些則擅長真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man?Chatgpt是否會慢慢成為AI最大的Yes-Man?Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显著退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具