玉蒲团之淫行天下寰宇开源新王出身！2东说念主团队干翻GPT-4o，70B自主纠错力压群雄 - 巨乳av女优

玉蒲团之淫行天下寰宇开源新王出身！2东说念主团队干翻GPT-4o，70B自主纠错力压群雄

发布日期：2024-09-11 02:05 点击次数：138

玉蒲团之淫行天下寰宇开源新王出身！2东说念主团队干翻GPT-4o，70B自主纠错力压群雄

裁剪：桃子好困玉蒲团之淫行天下

【新智元导读】开源大模子再次整夜易主！一个2东说念主创业团队公司，竟用数周肝出寰宇最强模子Reflection 70B。多项基准测试中，一举打败GPT-4o、Llama 3.1 70B，而它的特有之处，是因为摄取了「反念念微调」新算法。

难倒一大片LLM经典艰难，竟被出乎不测的70B新模子破解？

而且是，一次就能作念对那种。

别不信，就拿9.11和9.9谁浩劫题小试一下，模子无须念念索便给出了正确谜底。

即即是嘴漏误答之后，借助「反念念」魔法，大略自动改变。

如上所示，它不错反念念，然后再自主改正。故名，Reflection 70B。

Reflection，一出世便被冠以「寰宇顶级开源」模子之称，性能强到令东说念主发指。

在各项基准测试中，横扫MMLU、MATH、IFEval、GSM8K，致使打败了GPT-4o，以及Llama 3.1超大杯。

背后这家AI写稿初创HyperWrite鲜有东说念主知，但不得不称许的是，这一模子竟是由两个东说念主肝了几周速成。

一个是首创东说念主兼CEO Matt Shumer，另一位是联创Sahil Chaudhary。

Shumer先容，夙昔还将上线405B模子，有望成为超越寰宇最顶尖闭源模子。

一上线流量暴增，GPU不够用了

AI圈里，许久未见如斯之强的模子，多量东说念主齐擦拳抹掌。

没猜测，网友们的荒诞试用，导致演示网站流量激增，出现宕机。

为此，Shumer正和团队正忙于寻找填塞的GPU，来旺盛如斯激增的需求。

体验地址：https://reflection-playground-production.up.railway.app/

一位网友让Reflection平直上手最难办的推理问题。

他暗意，比得到谜底更道理的是，它所张开的推理身手。

大模子在通盘这个词进程中，主动分析这些东说念主物之间的联系，并一步一步推导，得出正确谜底。

这个艰难，Claude 3.5、GPT-4o却齐回答失败了。

打败GPT-4o，开源新王登场

Reflection 70B受到如斯热捧，是因为其背后摄取了一种特有的立异时间。

它是基于Llama 3.1-70B Instruct微调而来，并使用了失误自我改变时间——Reflection-Tunning。

新模子也曾在多个基准上，经过了严格的测试，而且使用LMSYSLLM Decontaminator确保恶果不受侵犯。

总之，Reflection 70B性能大幅超越Llama模子，并与现时顶尖LLM相抗衡。

具体来说，Reflection 70B在与顶级闭源模子（Claude 3.5 Sonnet，GPT-4o）比拟中，推崇出色。

在MMLU、MATH、IFEval、GSM8K中测试基准上，齐打败了GPT-4o。

更值得一提的是，仅凭70B参数透澈打败405B的Llama 3.1，差距不言而谕。

自主纠错，全凭反念念

大模子持续会生成失误信息，而且无法识别何时犯错，最令东说念主头疼。

而Reflection-Tunning不错让LLM大略识别自己失误，并在作念出回答前反念念评估，自我改变。

此外，它还将「计较」单独行动一个身手，诳骗CoT高超念念考的进程，使得最终输出恶果，愈加爽快明了。

比如，底下9.11和9.9谁大的例子中，它将通盘这个词念念考进程分手为四步。

这使得该模子在需要高精准度的任务中极度灵验，因为它将推理分红不同身手以擢升精准度。

Glaive合成数据，加快老师

Reflection 70B之是以大略取得告成，另一个枢纽的身分就是Glaive生成的合成数据。

Glaive由荷兰工程师Sahil Chaudhary创立，专注于责罚AI诞生中最大的瓶颈之一：高质地、特定任务数据的可用性。

通过诳骗Glaive的时间，Reflection团队大略快速生成高质地的合成数据来老师Reflection 70B。时期，数据生成只需要耗尽几个小时而不是以往的几周。

对此，Shumer称许说念，「凭借着Glaive生成的定制合成数据，咱们在三周内完成了五轮模子的老师。」

下周行将推出405B版块

乍一看，Reflection 70B仿佛是从无到有。但推行上，行动联创兼CEO的Matt Shumer多年来一直齐在AI规模汲引。

2020年，他与Jason Kuperberg创立了一家名为Otherside AI的公司，位于纽约长岛的Melville——一个距离纽约市东部约一小时车程的小镇。

其标识性的居品HyperWrite，最先是一个匡助用户凭证重心撰写电子邮件和回话的Chrome彭胀次第。跟着支配的进化，如今也曾不错完成撰写著述、转头文本，致使组织电子邮件等各式任务了。

2023年3月，公司取得了280万好意思元的投资，并推出了全新的AI功能，举例将收罗浏览器造成假造管家、预订航班，以及在LinkedIn上寻找求职者等等。

2023年11月，HyperWrite的用户数告成冲破200万，而两位联创也登上了Forbes年度「30 Under 30」榜单。

如今，在快速发展的生成式AI规模，权益均衡似乎再次发生了变化。

Reflection 70B的发布只是是Reflection系列的发轫。

行将鄙人周推出的405B版块，可谓是平直剑指诸如GPT-4o和Claude 3.5这些众人高出的专有或闭源LLM。

不难瞎想，跟着AI的发展，Reflection在推理和失误校正方面的特有款式，很可能会成为开源模子的新法式。

参考尊府：

https://x.com/mattshumer_/status/1831767014341538166

https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/玉蒲团之淫行天下

友情链接：

Powered by 巨乳av女优 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024

栏目分类

热点资讯

相关资讯