马斯克突然发布类级别模型，能解「和哪个大」，爆火生图功能被网友玩疯了

颜玲汽车百科 2024-08-17 882 0 马斯克突然发布类级别模型能解「和哪个大」爆火生图功能被网友玩疯了

就在刚刚，马斯克旗下xAI大模型Grok2正式发布。

本次发布的Grok2系列主要包括两个版本：Grok-2和Grok-2mini。简单总结一下这两款模型：

Grok-2：大而全，类GPT-4级别模型，处于大模型的中上游水准

Grok-2mini：小而美，响应速度快，但回复的质量不及Grok-2

xAI公司宣称，当下推出的预览版Grok-2在聊天、编程和推理方面均有着不俗的表现。Grok-2系列模型将陆续集成到X平台，并且也将在8月底通过企业API向客户提供。

类GPT-4级别模型迎来新玩家，Grok2登场

老规矩，先说结论，虽说马斯克和Altman的唇枪舌战中常常处于上风，但早期预览版的Grok-2没能上演逆袭ChatGPT的大戏。

在公认比较靠谱的大模型竞技场LMSYS排行榜上，它的得分表现压过了GPT-4omini和Claude3.5Sonnet一头。

而排在它前面的分别有「宿敌」OpenAI的GPT-4o-2024-05-13、Gemini-1.5-Pro-Exp-0801以及GPT-4o-latest-2024-08-08等模型。

在大模型竞技场与其他模型的较量中，Grok-2遇上Gemini1.5Pro的胜率最低，只有48%，其次分别为GPT-4o（05-13）以及GPT-4omini（07-18）等一众模型。

据介绍，在内部评估里，xAI重点评估模型在两个关键方面的能力，其一为遵循指令，其二是提供准确、真实的信息。

其中xAI会采用一种模拟测试的方法：

AI导师与模型在各种任务中进行互动，这些任务模拟了与Grok的真实互动场景。

在每次互动中，AI导师会根据我们制定的评估标准，从Grok生成的两个回应中选择出更佳的一个。

结果表明，相比Grok-2mini以及Grok-1.5，Grok-2在处理检索到的内容时的推理能力，以及在使用工具方面的能力，如正确识别缺失信息、通过事件序列进行推理以及排除无关内容等方面，都有了显著的进步。

从基准测试结果来看，Grok-2的水准基本上能够碾压GPT-4Turbo以及Claude3Opus，甚至在表现上也能与GPT-4o以及Llama3-405B互有胜负。

不过，xAI所披露的基准测试结果也有点「小心思」，比如虽说能和GPT-4o不分伯仲，但是用的却是GPT-4o以及GPT-4Turbo5月份的得分，所以很难不让人怀疑这是为了美化结果所打的时间差。

xAI团队成员GuodongZhang则发文称：

有趣的是，与我们大多数其他公司和实验室不同，我们的发展速度非常快，以至于我们一直没有时间为每个模型发布编写正式的技术报告。

此外，xAI还特地指出，Grok-2在大规模多任务语言理解基准测试MMLU中，使用的是没有经过特定任务训练的Grok-2，更真实地反映了该模型的泛化能力和对新任务的适应性。简言之，哥们菜归菜，但胜在真实。

9.8大还是9.11大？Grok-2竟然知道答案

去年底，马斯克宣布Grok将被集成到X平台上，并同期向X平台的Premium 订阅用户开放，然而，除了可以实时访问X的信息，体验过后的网友几乎都给Grok打了差评。

现在，Grok-2和Grok-2mini都将逐步集成到X平台上，XPremium和Premium 用户均可体验这两款新模型。

官方说了，Grok-2具备文本和视觉理解能力，能实时整合X平台的信息。Grok-2mini则主打小巧精致，在速度和答案质量之间实现了平衡。

但既然Grok-2系列都要集成到X上了，总归要给付费的订阅用户拿出一些新东西。

与前代相比，Grok-2的最大变化莫过于能直接生成图片了。据xAI团队内部成员透露，生图的模型正是用到了近期大火的FLUX.1模型。

获得访问权限的X网友@ai_for_success也分享了新版Grok的用户使用界面。嗯，看起来有种AI搜索的即视感。

玩梗的网友让Grok生成一幅「Llama（骆驼）吃草莓」的图，效果也相当不错。

新版Grok的自由度更高，特朗普前脚刚直播完，今天X平台就铺满了由Grok生成的照片，甚至还能生成略微裸露的图片。

网友发现，Grok-2在图片生成次数方面存在限制，Premium用户预计能够生成约20-30张图像，而Premium 用户能够生成更多。

由Grok-2mini生成的图片搭配LumaDreamMachine制作而成的钢铁侠视频，感觉如何？

「9.8和9.11哪个大」的经典难题也没难倒Grok-2。

甚至也能数清草莓（strawberry）里有多少个「r」的难题。

激动不已的马斯克接连转发了数条有关Grok2的推文，为其大力站台宣传，并盛赞xAI团队进展速度非常出色。

不看广告，看疗效，Grok-2更像是一款意义大于实际的新模型，它的发布意味着整个AI行业开始迎来了新的类GPT-4级别模型，但或许并没有带来足够多的惊喜。

今年4月，马斯克在接受挪威主权基金负责人NicolaiTangen采访时表示，Grok-2需要大约2万张H100来进行训练。

而上个月在给Grok-2的预热期间，马斯克也透露Grok-3用了10万块英伟达H100芯片进行训练，预计将于年底发布，届时将有望成为最强的AI大模型。

为此，马斯克甚至不惜调用特斯拉的芯片来给xAI团队加Buff，马斯克突然发布类级别模型，能解「和哪个大」，爆火生图功能被网友玩疯了以至于惹得特斯拉投资者纷纷不满。

值得一提的是，在最近的XSpace活动上，马斯克依然对AI的未来充满信心，他预测到明年年底，AI可能比任何人类都聪明。

而我的建议是，要不还是先等等Grok3的的效果如何吧。

免责声明：本网站部分内容由用户自行上传，若侵犯了您的权益，请联系我们处理，谢谢！联系QQ：2760375052

马斯克突然发布类级别模型，能解「和哪个大」，爆火生图功能被网友玩疯了

颜玲

好文推荐

热门文章

最近发表

标签列表

马斯克突然发布类级别模型，能解「和哪个大」，爆火生图功能被网友玩疯了

相关文章

颜玲

好文推荐

热门文章

最近发表

标签列表