얼마 전 Microsoft는 실수를 저질렀습니다. WizardLM-2를 대대적으로 공개했다가 곧 완전히 철회한 것입니다.
복잡한 채팅, 다국어, 추론 및 에이전시에서 향상된 성능을 갖춘 "GPT-4와 완전히 비교할 수 있는" 오픈 소스 대형 모델인 WizardLM-2에 대해 현재 사용 가능한 출시 정보입니다.
이 시리즈에는 WizardLM-2 8x22B, WizardLM-2 70B 및 WizardLM-2 7B의 세 가지 모델이 포함됩니다. 그 중:
- WizardLM-2 8x22B는 매우 복잡한 작업에 대한 내부 평가를 기반으로 한 가장 발전된 모델이자 최고의 오픈 소스 LLM입니다.
- WizardLM-2 70B는 최고 수준의 추론 기능을 갖추고 있으며 이 규모에서 첫 번째 선택입니다.
- WizardLM-2 7B는 10배 더 큰 기존 오픈 소스 선도 모델과 비교할 수 있는 성능으로 가장 빠릅니다. ”
LLaMa 3와 같은 또 다른 오픈 소스 이정표가 될까요?
모두가 모델을 다운로드하느라 바쁜 사이에 팀에서 갑자기 모든 항목을 철회했습니다. 블로그, GitHub, HuggingFace 모두 404를 얻었습니다.
이미지 출처: https://wizardlm.github.io/WizardLM2/
팀 설명:
Huggingface 친구들 여러분 안녕하세요! 죄송합니다. 모델을 삭제했습니다. 몇 달 전 모델을 출시한 지 시간이 좀 지나서 지금은 새로운 출시 과정이 익숙하지 않습니다. 모델 출시 과정에서 꼭 필요한 항목인 독성 테스트를 실수로 빠뜨린 거죠. 이는 현재 모든 신규 모델이 완료해야 하는 단계입니다.
하지만 WizardLM-2에 대한 AI 커뮤니티의 관심과 토론은 멈추지 않았습니다. 몇 가지 의심이 있습니다.
첫째, 삭제된 오픈 소스 프로젝트는 WizardLM-2만이 아닙니다. 이전 WizardMath 및 WizardCoder를 포함하여 팀의 모든 Wizard 시리즈 작업이 사라졌습니다.
둘째, 모델 가중치를 삭제하면 왜 블로그도 삭제되는지 궁금해하시는 분들이 계십니다. 테스트 부분만 빠진 경우에는 완전히 철회할 필요가 없습니다.
팀의 설명은 "관련 규정에 따르면"입니다. 아직 아무도 모릅니다.
셋째, WizardLM 팀이 해고되고 Wizard 시리즈 프로젝트도 강제 철회되었다는 추측도 있습니다. ㅋㅋㅋ
사진출처 : https ://x.com/DavidFSWD/status/1783682898786152470
이제 저자의 이름을 검색했는데 Microsoft 공식 웹 사이트에서 완전히 사라지지 않았습니다.
출처: https://www .microsoft.com/en-us/research/people/qins/
구체적인 경로는 무엇인가요? 원본 블로그 페이지의 기술적인 세부 사항을 살펴볼 수 있습니다.
팀에서는 LLM 교육을 통해 자연에서 인간이 생성한 데이터가 점점 고갈되고 있으며, AI가 세심하게 생성한 데이터와 AI 단계별 지도 모델만이 AI를 더욱 강력하게 만드는 유일한 방법이 될 것이라고 밝혔습니다.
지난 1년 동안 Microsoft 팀은 아래 그림과 같이 완전히 인공 지능으로 구동되는 종합 훈련 시스템을 구축했습니다.
은 대략 여러 섹션으로 나뉩니다.
데이터 전처리:
이 파이프라인을 사용하여 새 소스 데이터의 다양한 속성 분포를 얻습니다. 이는 데이터를 사전에 이해하는 데 도움이 됩니다.
가중 샘플링: 최적의 학습 데이터 분포는 인간 채팅 코퍼스의 자연스러운 분포와 일치하지 않는 경우가 많습니다. 실험 경험을 기반으로 학습 데이터의 각 속성에 대한 가중치를 조정해야 합니다. Evol Lab:
새로운 방법을 사용하면 다양한 에이전트가 자동으로 고품질 지침을 생성할 수 있습니다.
- Evol-Answer: 모델이 응답을 여러 번 생성하고 다시 작성하도록 안내하여 논리, 정확성 및 친화력을 향상할 수 있습니다.
공동 교육: WizardLM과 다양한 공인 오픈 소스 및 독점 최첨단 모델을 수집한 다음 함께 가르치고 각각을 개선하도록 합니다. 기타 교육 콘텐츠에는 시뮬레이션 채팅, 품질 검토, 개선 제안, 기술 격차 해소 등이 포함됩니다. 자기 교육: WizardLM은 활성화 학습을 통해 지도 학습을 위한 새로운 진화 훈련 데이터와 강화 학습을 위한 선호도 데이터를 생성할 수 있습니다.
- 학습:
- 지도 학습.
Phase - DPO: 오프라인 강화학습을 보다 효과적으로 수행하기 위해 선호하는 데이터를 여러 조각으로 나누고 모델을 단계별로 개선합니다.
- RLEIF: 온라인 강화 학습에서 보다 정확한 정확성을 달성하기 위해 교육 품질 보상 모델(IRM)과 프로세스 감독 보상 모델(PRM)을 결합한 방법을 사용합니다.
- 마지막으로 말씀드리고 싶은 것은 어떤 추측도 헛된 일이라는 점입니다. WizardLM-2의 컴백을 기대해 보겠습니다.
위 내용은 'GPT-4에 매우 가까운' WizardLM-2, 마이크로소프트가 긴급 철수한 이유는 무엇일까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

Dreamweaver Mac版
시각적 웹 개발 도구

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는
