返回首页 > 位置: 中学网 > 上林县 > 正文

Llama3超大杯有何惊喜?Meta会一直开源吗?当初为何笃信元宇宙?扎克伯格新访谈回应一切

日期:2024/4/29 10:18:58 浏览:

来源时间为:2024-04-21

机器之心报道

机器之心编辑部

昨天凌晨,Meta突然官宣了Llama3,把开源模型的实力又往上提了一截。

Llama3总共有三个版本——8b、70b和405b。其中,8b和70b版本已经开源,405b版本仍在训练中。根据现有的评测数据,405b版本的性能已经逼近GpT-4(参见《》)。这可能促使OpenAI尽早发布下一代模型,从而保持其最强AI模型的地位。

那么,这个还没有亮相的Llama3405b大模型将带来哪些惊喜?Meta会继续坚持开源吗?Llama4以及之后的模型会往哪些方向迭代?之前Meta对元宇宙的笃信是出于哪些动力?在最近的一次访谈中,MetaCEO扎克伯格回应了这些问题。

视频地址:https://www.youtube.com/watch?v=bc6uFV9CJGg&t=17s

他提到,Llama3405b将是一个密集模型,预计年末发布。此外,他们还计划到年底拥有约35万块GpU,目前已经建立了由22000块GpU和24000块GpU构建起来的两个单独集群。在谈到开源问题时,他类比说,在现有的应用生态系统中,苹果和谷歌等「守门人」对开发者能够构建的应用类型拥有很大的控制权,他不想让AI世界也变成这个样子,因此他对开源持积极态度。他表达了对于一个开放的AI生态系统的愿景,在这个系统中,开发者不会被少数控制着闭源模型的大公司所限制。

以下是机器之心整理的访谈内容,部分内容存在删减。

Llama-3超大杯什么时候发布?

Dwarkeshpatel:我们来谈谈刚发布的Llama-3和MetaAI吧。

MarkZuckerberg:我想大多数人最关心的还是MetaAI的新模型,即Llama模型的升级版本:Llama-3。我们既会向开发社区开源,也会让其成为MetaAI的助力。MetaAI值得关注的点有很多,但我认为最重要的是它是目前人们可以使用的最智能且可自由使用的AI。我们将把谷歌和bing整合起来用以获取实时知识。

MetaAI将会整合进我们的许多应用,包括Facebook和Messenger——你可以在它们的搜索框中任意提问。我们在其中加入了很多创意功能,比如动画化功能可以将任意图片变成动画。

比较震撼眼球的一项更新是它现在能以非常快的速度生成高质量图像,而且它能随着用户输入而实时更新生成结果。

我们未来几周或几个月会在一些国家发布这些应用,但还不会全面铺开。我认为这会是一个非常重要的事件,是MetaAI向前迈出的一大步。

深入到MetaAI内部,在技术方面最吸引眼球的当然是Llama-3。我们训练了三个版本:8b和70b参数的模型,还有一个405b参数的密集模型(还在训练之中)。8b和70b模型的表现非常激动人心,它们都是同等规模模型的领军者。

我们还有后续发布的路线图,包括多模态、更强大的多语言支持、更大的上下文窗口。我们希望能在今年年末的某个时候发布405b版本。在目前的训练阶段,它的MMLU得分已经达到了85左右。我们预计完成训练后它能在许多基准上领先。刚刚发布的70b模型也很出色,MMLU为82,数学和推理能力的得分都领先。

Dwarkeshpatel:着实不凡。

MarkZuckerberg:8b版本基本上与我们之前发布的Llama-2的最大版本一样强大,也就是说Llama-3的最小版本足以比肩Llama-2的最大版本。

买那么多GpU是未卜先知?

Dwarkeshpatel:在深入这些模型之前,我想聊聊过去。大概2022年时,你们开始购进H100。那时候你们的股价不振,人们都很疑惑为什么要这样花钱。人们并不看好元宇宙。那时候你怎么知道要去买H100呢?

MarkZuckerberg:那是因为我们当时正在研究Reels(一款短视频应用,Tiktok竞品)。我们总是希望有足够的能力去构建尚不存在的东西。我们当时在研究Reels,我们需要更多GpU去训练模型。加上我们当时希望在基础设施方面尽快追赶上TikTok。我们当时想:「唉,我们必须确保我们再也不这样落后了。那就订购足够训练Reels的GpU并且再加一倍吧。」

Dwarkeshpatel:当时你知道这会用于训练AI吗?

MarkZuckerberg:我们当时知道这会与训练大型模型有关。当时我觉得这可能与内容有关——那时候我非常急切地想要为Reels和其它内容开发出推荐算法。现在这成为了Instagram和Facebook的一大卖点:向人们展示他们可能感兴趣的内容,即便他们没有关注。

事后来看,这是一个非常明智的决定。这都是后见之明——「哦,我当时多么领先。」事实上,我们当时做的大多数决定最后都有不错的结果,原因不过是我们之前搞砸过,不想再犯同样的错了。

何时决定AllinAGI?

Dwarkeshpatel:FacebookAI研究院已经成立了很长时间了。现在它似乎已经变成了你们公司的核心。你们是从什么时候开始考虑将造就AGI作为自己的使命和关键优先事项?

MarkZuckerberg:确实挺久了。FAIR成立于大概十年之前。我们的想法是,在创造通用智能的道路上,我们会得到很多能改善方方面面的不同创新。因此我们并不是将其看作一个产品,它更像是一个研究团队。过去十年来,它创造了很多提升我们所有产品的东西。它也推动了AI领域的发展。

过去几年随着ChatGpT和扩散模型的出现,这一领域发生了重大转变,出现了很多会改变人们与应用的交互方式的东西。那时候我们成立了另一个团队:GenAI团队。其目标是将这些创新引入我们的产品并且构建支持所有这些不同产品的先进基础模型。

一开始我们想做的东西都与社交有关,比如帮助人们与创作者沟通、帮助人们与企业互动、帮助企业销售产品或提供客户服务。还有一些基础的助理功能,可以用于我们的应用以及智能眼镜和VR设备。所以一开始的时候,我们并不完全清楚我们需要完整的AGI来支持所有这些用例。但经过多年的研究和实践之后,这方面变得清晰起来。举个例子,在我们开发Llama-2时,我们并没有将编程看作一个优先事项,因为人们并不会用WhatsApp向MetaAI提很多编程问题。

Dwarkeshpatel:现在他们会问这些了吗?

MarkZuckerberg:我不知道。我不确定人们是否会使用WhatsApp或Facebook或Instagram作为UI来问与编程有关的问题,也许他们会使用我们刚上线的网站meta.ai。但过去18个月的发展已经表明,编程对很多领域都很重要,而不仅仅是编程领域。即便人们问的问题与编程无关,但训练模型学习编程依然有用——这能帮助模型给出更严谨的回答,让模型可以在不同类型的领域执行推理。Llama-3就是这样,编程能力是我们关注的一大重点,因为这能帮助模型的能力获得全面的提升。

另一个重点是推理。用户在与商家或企业等沟通时,不是一问一答就完成了,而是往往涉及到多步互动。很多时候客户只知道自己的需求,并不知道自己想要什么产品或服务。这时候光回答字面上的问题是不够的,还需要推理。

Llama-3能取代程序员吗?

Dwarkeshpatel:所以Llama-3能解决所有这些用例吗?你认为这个版本足以替代程序员吗?

MarkZuckerberg:我只是觉得这些能力都会随时间而进步。

Dwarkeshpatel:但最终能解决,比如Llama-10?

MarkZuckerberg:我认为这个问题不简单。我不确定这些模型是会替代人们更多,还是帮助人们更多。

Dwarkeshpatel:Llama-10诞生后,程序员的生产力能提升10倍吗?

MarkZuckerberg:我希望会更多。我相信人们的智能并不存在一个单一阈值,因为人们有不同的技能。我认为未来某个时候,AI将在大多数事情上超过人类。但我认为这个过程是渐进式的,而且我认为AGI并不是一个单一存在,而实际上是不同功能的集合。目前我们关注的一大关键功能是多模态,起先是照片、图像和文本,最后到视频。而且我们还很关注元宇宙,因此3D模态也很重要。另一个我非常关注的模态是情绪理解(emotionalunderstanding)——我还没看到业界有很多人关注这方面。人脑中有很大部分是专门用于理解别人的表情和情绪。我认为这是一个单独完整的模态。你也许会说这就是视频或图像,但很显然这是非常特别的视频或图像。

因此,模型不只是需要具备理解和记忆的能力,还有很多其它不同能力需要掌握。我认为未来我们解决复杂问题时并不会再以查询窗口为中心,通过输入上下文来处理。人们会有更加个人化的记忆数据和不同的定制化模型。它们会有各自不同的能力,规模也有大有小。大小模型我们都很关注。MetaAI这样的模型运行在大型服务器上,但我们也希望会有能运行在智能眼镜等小型设备上的模型。因此我们也需要非常高效的模型。

大模型将催生哪些产业级用例?

Dwarkeshpatel:你认为模型推理有什么百亿美元级乃至千亿美元级的市场?它有什么产业级的用例?模拟或者元宇宙?

MarkZuckerberg:我们猜想这将能改变所有产品。我认为将会出现一种MetaAI通用助理产品。这种产品不再是只会问答的聊天机器人,而是可以完成更复杂任务的系统性模型。这就需要大量的推理和计算。

另一个重要方向是与其它智能体或人类交互,包括企业业务和创意工作。我的想法是,未来并不只有单一AI。每家企业都会想要一个代表其利益的AI。

创意工作也是一个重点。我们平台有大约2亿位创作者。他们与各自的社区互动时通常都有模式可循,但他们每天的时间有限。如果我们能创造出可让创作者拥有的AI,让他们以自己的方式去训练它与自己的社区交互,那必然会是一个非常棒的应用场景。这样的AI会赢得大量的互动参与。

这还只是消费者用例,我和妻子的基金会ChanZuckerbergInitiative在科学方面做了很多工作,其中也包括很多与AI相关的工作,这些将能推动科学和医疗等领域的发展。我相信这些最终将能影响产品和经济的每个方面。

Llama-3将带来哪些改进?

Dwarkeshpatel:你提到模型的进步是渐进式的,这是指模型变得更大吗?还是说使用更好的数据训练同样大小的模型让其变得更强大?

MarkZuckerberg:我认为我们不知道这个问题的答案。我想一种发展模式是基于Llama这样的模型开发其它应用,也就是针对用例进行微调,比如让MetaAI可以使用谷歌或bing等工具来获取实时知识。基础Llama模型并不具备这种能力。Llama-2具备一些,但这是人工设计开发的。Llama-3开始具备一些类似智能体的能力。对于Llama-4,我们的部分目标是让模型本身具备更多能力。

每一次进步都会出现新的可能性,解锁出新的用例。

Dwarkeshpatel:你说「让模型本身具备更多能力」,你是指在你希望模型完成的事情上训练模型吗?

MarkZuckerberg:Llama-2只能使用非常特定的工具,而Llama-3能使用好得多的工具。我们无需人工编程就能让其使用谷歌执行搜索。它本身就能做到。类似的功能还有编程和运行代码等。模型既然能具备这样的能力,我们就能借此一窥未来。我们不必等到开发Llama-4时才去构建这些能力,我们现在就能探究它们。我们可以人工编写一些让产品更好用的工具,用以临时过渡。这有助于展现下一

[1] [2] [3] [4] 下一页

文章来源于:http://zhongxue.ljyz.com.cn 中学网

网站内容来源于网络,其真实性与本站无关,请网友慎重判断

你可能会喜欢
    没有相关资讯
最新资讯