号称“史上最强大开源模型”的Llama3，凭什么价值百亿美金？

2024-04-23 92 其它文章

作者：小岩

编辑：彩云

4月19日，Facebook母公司Meta重磅推出了Llama3。

即便大家现在对于大厂和巨头频繁迭代AI模型的行为已经见怪不怪，Meta的Llama3仍旧显得与众不同，因为这是迄今最强大的开源AI模型。

Meta推出了重磅级产品Llama，显然是剑有所指的，其中的寓意也很明显，即是要在激烈的行业竞争中追赶领先者OpenAI。由此，我们也能看出Mata在AI领域的雄心壮志。

成为最强开源模型，Llama3究竟是怎样炼成的？

之所以说Llama3是“最强开源”，是因为它在模型架构，预训练数据，扩大预训练规模以及指令微调方面都做出了重要的调教。

在模型架构方面，Llama 3 采用了相对标准的纯解码器 transformer 架构。与 Llama 2 相比，Llama 3更进行了几项关键改进。Llama 3 使用了一个 128K token 的 tokenizer，它能更有效地编码语言，从而大幅提高模型性能；Meta还在 8B 和 70B 大小的模型中都采用了分组查询关注，以便提高Llama3的运行效率；此外，Meta还在8192 个 token 的序列上对模型进行了训练，并使用掩码来确保自注意力不会跨越文档边界。

训练数据方面，Meta 表示，要训练出最佳的语言模型，最重要的是策划一个大型且高质量的训练数据集。根据数据现实，Llama 3 在超过 15T 的 token 上进行了预训练，训练数据集是 Llama 2 的7倍，包含的代码数量达到了Llama 2 的4倍。为了应对多语言使用情况，Llama 3 的预训练数据集中有超过5%的部分是高质量的非英语数据，涵盖 30 多种语言。而为了确保Llama 3始终在最高质量的数据上进行训练，Meta还开发了一系列数据过滤管道，诸如启发式过滤器，NSFW 过滤器，语义重复数据删除方法，文本分类器等，以便更好的预测数据质量。与此同时，Meta还进行了大量实验，确保 Llama 3 在各种使用情况下都能表现出色，包括琐事问题，STEM，编码，历史知识等。

在扩大预训练规模方面，为了让Llama 3 模型有效利用预训练数据，Meta 为下游基准评估制定了一系列详细的 scaling laws。这些 scaling laws 使他们能够选择最佳的数据组合，并就如何更好地使用训练计算做出最佳决定。更重要的是，在实际训练模型之前，scaling laws允许他们预测最大模型在关键任务上的性能，这有助于 Llama 3 在各种用例和功能中都能发挥强大的性能。

在指令微调方面，为了在聊天用例中充分释放预训练模型的潜力，Meta 对指令微调方法进行了创新，在后期训练方法中结合了监督微调（SFT），拒绝采样，近似策略优化（PPO）以及直接策略优化（DPO）。

官方表示即将推出400B+版本...开源的400B+足够令人期待。

此次Llama3的发布，还有一点惹人瞩目，那就是Meta官方表示，即将在不久的未来推出400B+版本。

Meta 官方表示，Llama 3 8B 和 70B 模型只是 Llama 3 系列模型的一部分，他们后续还将推出更多版本，其中就包括模型参数超过 400B 的 Llama 3 版本，这一版本目前仍在训练中。

在接下来的几个月中，Meta会持续推出新功能：届时会有更多的模态；更长的上下文窗口；更多不同大小版本的模型；更强的性能等。关于Llama 3研究论文也一应推出。

另外，Llama 3 模型将很快会在AWS，Databricks，Google Cloud，Hugging Face，Kaggle，IBM WatsonX，Microsoft Azure，NVIDIA NIM 以及Snowflake 上提供，并得到 AMD，AWS，Dell，Intel，NVIDIA 以及Qualcomm 硬件平台的支持。

当然，大家最期待的，还是即将推出的，参数超过400B+的版本。目前Llama3模型的最强参数是70B。这个数据已经十分优秀了，完全有能力和GPT-4-Turbo，Mistral-Large，Claude3-Opus相媲美。不过，相较于巨头的最强模型，仍旧存在不小的差距。这也是大家如此期待400B+版本的重要原因。

400B+的版本仍在训练中，单就目前释放出的评测结果来看已经非常强了，堪称Llama开源size中的“超大杯选手”。据悉，该模型的训练成本会达到1亿美元。 目前我们还不清楚Meta是否会开源“超大杯”。一旦开源，对于国内的大模型公司来说无疑是个重大利好。相信在此之后，也会有很多公司争先跟上，推出后续的应用。但凡事都有两面，对于OpenAI，Anthropic，Mistral，Google这些巨头而言，这未必是个好消息。

“开源大模型”时代以来，AI会越来越失控吗？

AI大模型如雨后春笋般不断冒出，大家在见识到AI愈发强大，愈发智能的同时，也会感知到危机感。

AI是否会变得越来越失控？

对此，Meta CEO 马可.扎克伯格也在最近接受的访谈中表达了自己的观点。他认为，AI的定位应该在于“一项非常基础性的技术”。它的存在应该像计算机一样，将催生一系列全新的应用。人们之所以会诞生AI会失控，很大程度上是因为它发展的速度太快了，一时之间我们无法适应。

但在扎克伯格看来，这种情况不太可能发生，因为这其中存在很多物理方面的限制。但有一点毋庸置疑：AI将真正改变我们的工作方式，为人们提供创新的工具去做不同的事情。它将使人们能够更自由地追求他们真正想做的事情。

事实上，我们无法预知AI未来的发展路径究竟是怎样的，是会真的造福人类，还是会给人类带来灾难。但有一点值得肯定：开源的AI系统确实有助于建立一个更公平，更平衡竞技场。如果开源的机制可以运作成功，那应该会成为大家所期待的未来。

币币情登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

上一篇： Mango Markets1.1亿资产被盗案件迎来审判黑客或将获刑20年

热门新闻

交易平台最新公告查看更多>

成交额排行榜

交易所
币种

排名	交易所	成交额
1	币安网	¥6,793.34亿
2	欧易OKX	¥2,590.66亿
3	火币全球站	¥187.99亿
4	抹茶	¥405.07亿
5	芝麻开门	¥491.87亿
6	库币	¥190.36亿
7	Coinbase Pro	¥193.14亿
8	bitFlyer	¥8.36亿
9	BitMEX	¥0
10	Bitstamp	¥19.88亿

排名	币种	成交额
1	BTC	¥987.77亿
2	ETH	¥710.03亿
3	USDT	¥3,243.23亿
4	BNB	¥89.50亿
5	SOL	¥248.19亿
6	USDC	¥305.53亿
7	XRP	¥165.32亿
8	DOGE	¥115.23亿
9	TON	¥15.45亿
10	ADA	¥41.54亿