大模型正引領新一輪的研究熱潮,業界和學術界都湧現出了眾多的創新成果。
小紅書技術團隊也在這一浪潮中不斷探索,多篇論文研究成果在 ICLR、ACL、CVPR、AAAI、SIGIR、WWW 等國際頂會上頻頻亮相。
在大模型與自然語言處理的交會處,我們發現了哪些新機會與挑戰?
對於大模型,有哪些有效的評測方法?它又如何更好地融入應用程式場景中的呢?
6 月 27 日 19:00-21:30,【REDtech 來了】第十一期《小紅書 2024 大模型前沿論文分享》線上開播!
REDtech 特別邀請了小紅書社群搜尋團隊來到直播間,他們將分享 6 篇小紅書在 2024 年發表的大模型研究論文。小紅書精排LTR 負責人馮少雄,攜手多位頂會論文作者李易為、王星霖、袁沛文、張超等人,共同探討最新的大模型解碼與蒸餾技術、大模型評測方法,以及大模型在小紅書平台上的實際應用。
活動議程
01 Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning / 入選>
針對大模型多步驟推理中高成本問題的早停自洽性方法| 分享人:李易為
自洽性方法(Self-Consistency ,SC)一直是思維鏈推理中廣泛使用的解碼策略,透過產生多個思維鏈並取多數答案作為最終答案,來提高模型的效能。但它是一種高成本的方法,需要進行預設大小的多次取樣。在ICLR 2024 上,小紅書提出一個簡單且可擴展的取樣過程- 早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不犧牲效能的情況下,大幅降低SC 的成本。在此基礎上,團隊進一步推導出一種 ESC 控制方案,以動態選擇不同任務和模型的效能 - 成本平衡。三個主流推理任務(數學,常識和符號推理)的實驗結果顯示,ESC 在六個基準測試中顯著降低了平均採樣次數,同時幾乎保持原始效能。 論文地址:https://arxiv.org/abs/2401.1048002 Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Langu / 入選ACL 2024
去粗取精:面向自由格式生成任務的細粒度自洽性方法| 分享人:王星霖分享人
:王星霖 小紅書在ACL 2024 中提出了Fine-Grained Self-Consistency (FSC) 方法,能夠顯著提升自洽性方法在自由格式產生任務上的表現。團隊首先透過實驗分析了現有面向自由格式產生任務的自洽性方法的不足來自於粗粒度的共性樣本選擇,其無法有效利用不同樣本細粒度片段之間的共通性知識。在此基礎上團隊提出了基於大模型自融合的 FSC 方法,實驗證實其在程式碼生成、摘要生成以及數學推理任務上都取得了顯著更優的表現,同時保持了相當的消耗。論文地址:https://github.com/WangXinglin/FSC
03 BatchEval: Towards Human-like Text Evaluation / 入選ACL 2024,領域主席給予滿分評分,領域主席並推薦最佳論文邁向人類層級的文字評測|
分享人:袁沛文
小紅書在ACL 2024中提出了BatchEval 方法,能夠以更低的開銷達到類人層級的文字評測效果。團隊首先從理論層面分析了現有文本評測方法在評測魯棒性方面的不足來自於評測打分分佈不均勻、在得分集成方面的次優表現源自於評測視角多樣性的缺失。在此基礎上,受人類評測過程中透過樣本間比較來建立更立體全面、視角多樣的評測基準啟發,類比提出了 BatchEval。與目前最先進的若干方法相比,BatchEval 在評測開銷與評測效果兩方面都取得了顯著更優的表現。論文地址:https://arxiv.org/abs/2401.00437
04 Poor-Supervised Evaluation for SuperLLM via Mutual Consistency / 入選ACL 2024透過互一致實現準確監督訊號匱乏下的超人水平大語言模型評測| 分享人:袁沛文
小紅書在 ACL 2024 中提出了 PEEM 方法,其能夠透過模型間的互一致性來實現對於超越人類水平的大語言模型的準確評測。團隊首先分析了當前大語言模型快速發展的趨勢會加速其在多個方面逐漸達到甚至超越人類水平,在此情況下,人類將難以再提供準確的評測訊號。為實現該場景下的能力評測,團隊提出了以模型間的互一致性為評測訊號的設想,並推導出了在評測樣本無窮時,如果存在參考模型與待評測模型間預測分佈獨立,則與此參考模型間的一致性可以作為模型能力的準確量測。在此基礎上,團隊提出了基於 EM 演算法的 PEEM 方法,實驗證實其能夠有效緩解現實中上述條件的不充足,從而實現對超越人類水平的大語言模型的準確評測。
論文地址:https://github.com/ypw0102/PEEM
05 Turning Dust into Gold:Distilling Complex Reasoning Capabilities from LLMs by Leveraging NAAAegative / plex Reasoning Capabilities from LLMs by Leveraging NAAAegative / 14424
利用負樣本促進大模型推理能力的蒸餾| 分享人:李易為
大語言模型(LLMs)在各種推理任務上表現優異,但其黑盒屬性和龐大參數量阻礙了它在實踐中的廣泛應用。特別是在處理複雜的數學問題時,LLMs 有時會產生錯誤的推理鏈。傳統研究方法僅從正樣本中遷移知識,而忽略了那些帶有錯誤答案的合成資料。在AAAI 2024 上,小紅書搜尋演算法團隊提出了一個創新框架,首次提出並驗證了負樣本在模型蒸餾過程中的價值,建立一個模型專業化框架,除了使用正樣本外,還充分利用負樣本來提煉LLM 的知識。該框架包括三個序列化步驟,包括負向協助訓練(NAT)、負向校準增強(NCE)和動態自洽性(ASC),涵蓋從訓練到推理的全階段過程。一系列廣泛的實驗,展示了負向數據在 LLM 知識蒸餾中的關鍵作用。
論文地址:https://arxiv.org/abs/2312.12832
06 NoteLLM: A Retrievable Large Language Model for Note Recommendation / 入選WWW 2024
基於大語言模型的筆記內容表徵推薦系統|分享人:張超小紅書APP 每天都有大量新書產生,如何有效地將這些新內容推薦給有興趣的用戶呢?基於筆記內容的推薦表徵是緩解筆記冷啟動問題的一種方法,也是眾多下游應用的基礎。近年來,大語言模型因其強大的泛化性和文字理解能力而備受關注。因此,我們希望利用大語言模型建構筆記內容表徵推薦系統,以增強筆記內容的理解。我們從產生增強表徵以及多模態內容表徵兩個角度介紹我們近期的工作。目前該系統已應用於小紅書多個業務場景並取得顯著收益。
論文網址:https://arxiv.org/abs/2403.01744
直播觀看方式:微信視訊號碼【小紅書技術REDtech】,B 站、抖音、小紅書同名帳號即時直播。
掃描?下方二維碼進入直播交流群,將第一時間獲取直播連結及開播提醒;可一鍵打包獲取精心整理的【論文PDF 合集】 ,還有機會與論文作者直接交流!
邀請好友預約直播好禮
小紅書社群搜尋團隊多多工作團隊在熱招中,團隊負責小紅書搜尋效果的優化和尖端技術的探索,致力於打造中國最大的生活搜尋引擎。期待你的加入!以上是小紅書這場大模型論文分享會,集齊了四大國際頂會的作者的詳細內容。更多資訊請關注PHP中文網其他相關文章!

你可能听过以下犀利的观点:1.跟着NVIDIA的技术路线,可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA,但目前的状况是DSA濒临消亡,看不到任何希望另一方面,我们都知道现在大模型正处于风口位置,业界很多人想做大模型芯片,也有很多人想投大模型芯片。但是,大模型芯片的设计关键在哪,大带宽大内存的重要性好像大家都知道,但做出来的芯片跟NVIDIA相比,又有何不同?带着问题,本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义,我们可以通过一个架构的例子来说明Sam

2021年9月25日,阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat,并且可以免费商用。Qwen-14B在多个权威评测中表现出色,超过了同等规模的模型,甚至有些指标接近Llama2-70B。此前,阿里云还开源了70亿参数模型Qwen-7B,仅一个多月的时间下载量就突破了100万,成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推

在法国巴黎举行了国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)本周开幕作为全球计算机视觉领域顶级的学术会议,ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下,屡创新高在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV2021的录用率25.9%在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高在今天的开

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中

8月31日,文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”(https://yiyan.baidu.com)进行体验据报道,百度计划推出一系列经过全新重构的AI原生应用,以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日,文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品,文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示,当文心

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具,保险为人民群众提供保障和福利,推动经济的稳定和可持续发展。在新的时代背景下,保险行业面临着新的机遇和挑战,需要不断创新和转型,以适应社会需求的变化和经济结构的调整近年来,中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段,积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平,以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力,使保险产品更贴近人民群众的实际

不得不说,Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来,围绕着该模型的「二创」项目便多了起来。此前7月,特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间,做了一个关于Llama2的有趣项目llama2.c,让用户在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。今天,在Karpathyllama2.c项目的基础上,又有开发者创建了一个启动Llama2的演示操作系统,以及一个

腾讯与中国宋庆龄基金会合作,于9月1日发布了名为“AI编程第一课”的公益项目。该项目旨在为全国零基础的青少年提供AI和编程启蒙平台。只需在微信中搜索“腾讯AI编程第一课”,即可通过官方小程序免费体验该项目由北京师范大学任学术指导单位,邀请全球顶尖高校专家联合参研。“AI编程第一课”首批上线内容结合中国航天、未来交通两项国家重大科技议题,原创趣味探索故事,通过剧本式、“玩中学”的方式,让青少年在1小时的学习实践中认识A


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3漢化版
中文版,非常好用

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

記事本++7.3.1
好用且免費的程式碼編輯器

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),