玉蒲团之淫行天下 寰宇开源新王出身!2东说念主团队干翻GPT-4o,70B自主纠错力压群雄

发布日期:2024-09-11 02:05    点击次数:135


玉蒲团之淫行天下 寰宇开源新王出身!2东说念主团队干翻GPT-4o,70B自主纠错力压群雄

裁剪:桃子 好困玉蒲团之淫行天下

【新智元导读】开源大模子再次整夜易主!一个2东说念主创业团队公司,竟用数周肝出寰宇最强模子Reflection 70B。多项基准测试中,一举打败GPT-4o、Llama 3.1 70B,而它的特有之处,是因为摄取了「反念念微调」新算法。

难倒一大片LLM经典艰难,竟被出乎不测的70B新模子破解?

而且是,一次就能作念对那种。

别不信,就拿9.11和9.9谁浩劫题小试一下,模子无须念念索便给出了正确谜底。

即即是嘴漏误答之后,借助「反念念」魔法,大略自动改变。

如上所示,它不错反念念,然后再自主改正。故名,Reflection 70B。

Reflection,一出世便被冠以「寰宇顶级开源」模子之称,性能强到令东说念主发指。

在各项基准测试中,横扫MMLU、MATH、IFEval、GSM8K,致使打败了GPT-4o,以及Llama 3.1超大杯。

背后这家AI写稿初创HyperWrite鲜有东说念主知,但不得不称许的是,这一模子竟是由两个东说念主肝了几周速成。

一个是首创东说念主兼CEO Matt Shumer,另一位是联创Sahil Chaudhary。

Shumer先容,夙昔还将上线405B模子,有望成为超越寰宇最顶尖闭源模子。

一上线流量暴增,GPU不够用了

AI圈里,许久未见如斯之强的模子,多量东说念主齐擦拳抹掌。

没猜测,网友们的荒诞试用,导致演示网站流量激增,出现宕机。

为此,Shumer正和团队正忙于寻找填塞的GPU,来旺盛如斯激增的需求。

体验地址:https://reflection-playground-production.up.railway.app/

一位网友让Reflection平直上手最难办的推理问题。

他暗意,比得到谜底更道理的是,它所张开的推理身手。

大模子在通盘这个词进程中,主动分析这些东说念主物之间的联系,并一步一步推导,得出正确谜底。

这个艰难,Claude 3.5、GPT-4o却齐回答失败了。

打败GPT-4o,开源新王登场

Reflection 70B受到如斯热捧,是因为其背后摄取了一种特有的立异时间。

它是基于Llama 3.1-70B Instruct微调而来,并使用了失误自我改变时间——Reflection-Tunning。

新模子也曾在多个基准上,经过了严格的测试,而且使用LMSYSLLM Decontaminator确保恶果不受侵犯。

总之,Reflection 70B性能大幅超越Llama模子,并与现时顶尖LLM相抗衡。

具体来说,Reflection 70B在与顶级闭源模子(Claude 3.5 Sonnet,GPT-4o)比拟中,推崇出色。

在MMLU、MATH、IFEval、GSM8K中测试基准上,齐打败了GPT-4o。

更值得一提的是,仅凭70B参数透澈打败405B的Llama 3.1,差距不言而谕。

自主纠错,全凭反念念

大模子持续会生成失误信息,而且无法识别何时犯错,最令东说念主头疼。

性吧有你

而Reflection-Tunning不错让LLM大略识别自己失误,并在作念出回答前反念念评估,自我改变。

此外,它还将「计较」单独行动一个身手,诳骗CoT高超念念考的进程,使得最终输出恶果,愈加爽快明了。

比如,底下9.11和9.9谁大的例子中,它将通盘这个词念念考进程分手为四步。

这使得该模子在需要高精准度的任务中极度灵验,因为它将推理分红不同身手以擢升精准度。

Glaive合成数据,加快老师

Reflection 70B之是以大略取得告成,另一个枢纽的身分就是Glaive生成的合成数据。

Glaive由荷兰工程师Sahil Chaudhary创立,专注于责罚AI诞生中最大的瓶颈之一:高质地、特定任务数据的可用性。

通过诳骗Glaive的时间,Reflection团队大略快速生成高质地的合成数据来老师Reflection 70B。时期,数据生成只需要耗尽几个小时而不是以往的几周。

对此,Shumer称许说念,「凭借着Glaive生成的定制合成数据,咱们在三周内完成了五轮模子的老师。」

下周行将推出405B版块

乍一看,Reflection 70B仿佛是从无到有。但推行上,行动联创兼CEO的Matt Shumer多年来一直齐在AI规模汲引。

2020年,他与Jason Kuperberg创立了一家名为Otherside AI的公司,位于纽约长岛的Melville——一个距离纽约市东部约一小时车程的小镇。

其标识性的居品HyperWrite,最先是一个匡助用户凭证重心撰写电子邮件和回话的Chrome彭胀次第。跟着支配的进化,如今也曾不错完成撰写著述、转头文本,致使组织电子邮件等各式任务了。

2023年3月,公司取得了280万好意思元的投资,并推出了全新的AI功能,举例将收罗浏览器造成假造管家、预订航班,以及在LinkedIn上寻找求职者等等。

2023年11月,HyperWrite的用户数告成冲破200万,而两位联创也登上了Forbes年度「30 Under 30」榜单。

如今,在快速发展的生成式AI规模,权益均衡似乎再次发生了变化。

Reflection 70B的发布只是是Reflection系列的发轫。

行将鄙人周推出的405B版块,可谓是平直剑指诸如GPT-4o和Claude 3.5这些众人高出的专有或闭源LLM。

不难瞎想,跟着AI的发展,Reflection在推理和失误校正方面的特有款式,很可能会成为开源模子的新法式。

参考尊府:

https://x.com/mattshumer_/status/1831767014341538166

https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/玉蒲团之淫行天下






Powered by 巨乳av女优 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024

栏目分类

热点资讯

相关资讯