返回首页 > 位置: 中学网 > 上林县 > 正文

Llama3超大杯有何惊喜?Meta会一直开源吗?当初为何笃信元宇宙?扎克伯格新访谈回应一切

日期:2024/4/29 10:18:58 浏览:

版本模型的开发方向。

Dwarkeshpatel:开源社区对Llama-3的微调,你最感兴趣的是什么?也许不是对你最有用的那个。

MarkZuckerberg:我认为有价值的事情,我们可能都会着手构建。我认为你会得到精简版本、更小的版本。我认为8b参数对于很多用例来说还不够小。随着时间的推移,我很想得到一个1-2b参数的模型,甚至是一个500M参数的模型,然后看看你能做些什么。

如果使用8b参数,我们几乎能与最大的Llama-2模型媲美,那么使用10亿个参数,你应该能够做一些有趣且更快的事情。我们也在考虑优化模型,但现在GpU已经被用来训练405b模型了。

LLama-370b模型还有待发掘的潜力

Dwarkeshpatel:关于GpU,我记得你说到年底会有35万块。

MarkZuckerberg:我们建造了两个集群,每个集群大约有22,000或24,000个GpU。由于我们服务的社区规模之大,我们所需的推理计算量与训练计算量的比例可能比其他公司高得多。

Dwarkeshpatel:在你们之前给我的材料中,我注意到你们用更多的数据来训练,你能具体谈一下吗?

MarkZuckerberg:关于70b模型,我们发现了一件有趣的事情,我们训练token达到15万亿,但在训练的最后阶段模型仍然在学习。假如我们给它更多的token,模型可能会变得更好。

但是经营一家公司,你需要有所取舍,我问自己是否想要调用GpU来进一步训练70b模型?还是准备测试Llama-4的一些前期假设?我们需要做出决定,我认为70b版本的模型已经取得了不错的平衡。未来会有其他版本,例如70b多模态版本,会在未来推出。但最令人着迷的是,目前这些架构可以容纳如此多的数据。

Dwarkeshpatel:这真的很有趣。这对未来的模型意味着什么?你提到Llama-3的8b比Llama-2的70b更好。

MarkZuckerberg:不,不,它几乎一样好。我不想过分夸大。它的数量级差不多。

除了能源瓶颈,还有架构瓶颈

Dwarkeshpatel:这是否意味着Llama-470b会和Llama-3405b一样好?未来会是什么样子?

MarkZuckerberg:这确实是一个很好的问题,我想没人会给出答案。世界上最棘手的事情之一就是指数曲线还能持续多久?我认为我们很可能会继续下去。我认为投资100亿美元,甚至1000亿美元来建设基础设施是值得的,这样的话,你将会得到一些真正令人惊奇的东西,从而创造出令人惊奇的产品。一般来说,从历史来看,当你遇到瓶颈时会耗费大量的时间解决。但是现在,也许这些瓶颈很快就会被克服。

Dwarkeshpatel:如果没有这些瓶颈,世界会是什么样子?假设进展以这种速度继续下去。

MarkZuckerberg:无论如何,都会遇到不同的瓶颈。在过去几年中,我认为GpU的生产是一个问题。即使有钱支付GpU的公司也不一定能够获得他们想要的数量,因为存在供应限制。现在我觉得这种情况正在减少。因此,你会看到很多公司现在考虑投资大量资金来构建这些设施。我认为这种情况会持续一段时间。还有一个资本问题,在什么时候,投入更多的资本就不再具有性价比了。实际上我认为在我们达到这个点之前,你会遇到能源的限制。据我所知,还没有人建立过一千兆瓦的单一训练集群。此外,获取能源许可会受到政府的严格监管。显然,如果你是在创办一家小公司,也许你会感觉到这种监管较少。我们与不同的政府和监管机构打交道,我们有很多规则需要遵循,以此确保我们在全球做好工作。但我认为能源无疑是一个巨大的限制。

Dwarkeshpatel:有没有什么东西,也许是人工智能相关的项目,也许不是,即使是像Meta这样的公司也没有资源?如果完成这项任务是研发预算或资本支出预算的10倍,你还会实施吗?

MarkZuckerberg:我认为能源问题是其中之一,如果我们有足够的能源,我们可能会建立比现在更大的集群。

Dwarkeshpatel:这基本上是资金瓶颈的极限?如果你有1万亿美元……

MarkZuckerberg:我认为现在是时候考虑这个问题了。这取决于指数曲线会走多远。目前,许多数据中心的规模大约是50兆瓦或100兆瓦,大型数据中心可能达到150兆瓦。如果把一个整个数据中心都用来进行训练,并建立最大的集群,我认为很多公司正在这样做。但是当你开始建造像300兆瓦、500兆瓦或1吉瓦这样规模的数据中心时,还没有人建造过1吉瓦的数据中心。我认为这迟早会发生,但不会在明年。有些事情需要花费数年时间才能建成。换个角度来看,我认为1吉瓦的规模相当于一个核电厂的能源供应仅用于训练模型。

Dwarkeshpatel:亚马逊有没有做过这个?他们有一个950兆瓦的……

MarkZuckerberg:我不太确定他们做了什么。你得问他们。

Dwarkeshpatel:但是这种规模的数据中心不一定要建在同一个地方,对吧?如果分布式训练有效,也可以分布式进行。

MarkZuckerberg:嗯,我觉得这是一个很大的问题,数据中心将如何运作。

Dwarkeshpatel:Llama-3,甚至可能是Llama-4之后的版本,能否遇到这种情况,也就是说,你发布了这个模型,如果有人有大量计算资源,他们就可以在你发布的模型的基础上,让这些模型变得更加智能。

MarkZuckerberg:我认为这种可能性是存在的,但我也认为模型架构存在根本性的限制。用Llama-3架构训练的70b模型可以变得更好,它可以持续改进。正如我之前说的,如果我们继续给它提供更多的数据,或者再次通过token进行优化,它会变得更好,世界各地的许多不同公司基本上都采用了Llama-270b模型架构,然后构建了一个新模型。但仍然存在这样一个情况,当你对像Llama-370b或Llama-3405b这样的模型进行改进时,人们在此基础上可以构建的东西不能无限地进步。在达到下一个重要进展之前,可能只能在现有的基础上进行优化和改进。

AI是有史以来最重要的技术吗?

Dwarkeshpatel:未来几十年人工智能会发生什么?它是否会让你感觉像是另一种技术,如虚拟宇宙或社交技术,或者是人类历史进程中根本不同的事物?

MarkZuckerberg:我认为将人工智能形容为非常基础性的技术是非常合适的。它更像计算机的发明,将催生全新的应用。但我认为这是一个低层次的创新,我的感觉是,这更像是人们从没有计算机到拥有计算机的过程。

然而,我们很难预测AI如何发展。从宇宙尺度来讲,AI变革会很快发生,需要几十年的时间。有些人会很担心AI真的会在一夜之间从有点聪明变成极其聪明,但我认为所有这些物理限制使得这种情况不太可能发生。不过我们必须承认,AI确实会改变我们的工作方式,让人们做他们更想做的事情。

Dwarkeshpatel:也许不是一夜之间,但你认为在宇宙尺度上我们可以用这种方式来思考这些里程碑吗:人类进化了,然后人工智能出现了,然后他们进入了银河系,按照这个推理,这个过程也许需要几十年,也许需要一个世纪,AI会是历史发展的重要一环吗?我指的是比如计算机甚至火在人类发展史上至关重要,但人工智能可以和这些发明相提并论吗?

MarkZuckerberg:我认为这很难回答。人类历史上,人类的某些方面确实是独一无二的,然后认识到事实并非如此,但人类实际上仍然非常特殊。我们认为地球是宇宙的中心,但事实并非如此,但人类仍然非常伟大和独特,对吧?

我认为人们往往存在的另一个偏见是认为智能在某种程度上与生活有着根本的联系,但并非如此。我们还没有对意识或生命有清晰的定义来全面理解这个问题。很多科幻小说都是关于创造智能的,这些智能体开始承担所有这些类人行为和类似的事情。但目前的趋势似乎正朝着一个方向发展,即智能可以与意识、能动性和类似的东西完全分开,这使得它成为一个超级有价值的工具。

虽然很难准确预测技术的发展方向,但开发者并不应该对开发计划或未来做出过于教条的承诺。在我们发布新版本时,都需要对模型进行重新评估。我们虽然倾向于支持开源,但并不一定会开源所有内容。开源有利于社区和自身,因为大家可以从创新中受益。然而,如果技术的性质发生质变,演变为不负责任的行为,那我们可能会考虑不开源。整体来说,技术发展充满不确定性。

开源vs.闭源,哪个更危险?

Dwarkeshpatel:未来你们在训练Llama-5或Llama-4时,有没有可能出现质变情况?如果出现了,你们要不要把它开源?

MarkZuckerberg:回答这个问题有点困难,因为任何产品都可能出现负面行为,只要加以缓解就可以了。我们也在为减少模型负面影响而努力,此前也在Llama-2上花费了大量时间确保它不会帮助人们实施暴力等不良行为。但这并不意味着它已经成为智能主体,这只是意味着它拥有大量有关世界的知识,可以回答我们认为不应该回答的一系列问题。因此,我认为问题在于如何识别并缓解其潜在不良行为,而非行为本身。

我认为事物的好坏有很多方面,很难事先详尽列举出来。看看我们在社交媒体上所面对的问题,目前我们已经总结出了18或19种人类有害行为,然后构建了AI系统来识别这些行为,并尽可能确保在我们的网络上不会发生这些情况。随着时间的推移,我认为我们会更加细化问题分类。

Dwarkeshpatel:我认为广泛部署AI系统是非常重要的。如果将来AI系统没有被广泛部署,导致人们无法访问,我会感到失望。与此同时,我想更好地理解如何减轻模型潜在问题。

MarkZuckerberg:这是一个复杂的问题。我认为大部分人会使用现成的模型,因而不会出现不良行为,而怀有恶意行为的人则会试图利用模型不良行为。所以这是个值得深思的问题。另一方面,从哲学上讲,我支持开源的一个原因是,我认为未来AI的过度集中化会像它被不恰当的广泛应用一样危险。一个机构拥有比其他所有机构更强大的AI也可能是非常糟糕的。就像我们看到的,不同事物中都存在着安全漏洞。

我们是如何处理这个问题的呢?其中一个重要部分是开源软件,软件的升级迭代不再局限于一家公司,而且可以广泛部署到许多不同的系统中,无论是银行还是医院。随着软件变得更加完善,全世界范围的开源软件会按照新的基准得到升级。

随着时间的推移,在被人工智能广泛部署的世界,会逐渐变得更加坚固,所有不同系统都将在某种程度上得到控制。对我来说,这比AI更集中化更安全。然而,最让我担心的是,一个不可信赖的主体拥有超级强大的人工智能系统,这可能是一个更大的风险。

Dwarkeshpatel:是否会出现这种情况,当你正在训练Llama-4时,它可能出于一些原因对你撒谎了,因为它认为你没有注意到这个问题,之后你才后知后觉道发生了什么?尽管这种情况在Llama-4这种级别的系统中不太可能发生,但你有没有想过,假如这种欺骗行为正在以成千上万的副本在不安全的传播。

MarkZuckerberg:现在,我们已经观察到许多幻觉现象,人们如何区分幻觉和欺骗会是一件有趣的事情。谈到欺骗,我最担心的形式是人们利用它来生成错误信息,然后通过网络或其他人传播该信息。我们打击此类有害内容的方法是构建比对手系统更智能的人工智能系统。

如果你仔细观察人们通过社交网络造成伤害的类型,就会发现有些伤害并非具有对抗性的。举例来说,仇恨言论没有超级对抗性,因为人们并没有因为网络言论而变得更加种族歧视。我认为在这些问题上,人工智能通常比人类更成熟。其实我们双方都有问题,人会做坏事,无论他们是

上一页  [1] [2] [3] [4] 下一页

文章来源于:http://zhongxue.ljyz.com.cn 中学网

网站内容来源于网络,其真实性与本站无关,请网友慎重判断

你可能会喜欢
    没有相关资讯
最新资讯