开源收紧闭源崛起,大模型陷入珍珑棋局
特斯拉CEO马斯克、OpenAICEO奥尔特曼、百度CEO李彦宏、360CEO周鸿祎……科技圈已经很长时间没有如此热闹了,一场关于大模型开源还是闭源好的讨论,让全球科技圈大佬纷纷下场阐述自己的观点、看法,大模型路线之争成为近期科技圈最热门的话题。
01
马斯克大战OpenAI,科技圈大佬们的口水战
“我觉得,开源其实是一种智商税。当你理性地去想,大模型能够带来什么价值,以什么样的成本带来价值的时候,就会发现,你永远应该选择闭源模型。今天无论是ChatGPT、还是文心一言等闭源模型,一定比开源模型更强大,推理成本更低。”——7月初,2024世界人工智能大会(WAIC2024)期间,李彦宏在一场圆桌访谈中对开源与闭源模型进行了讨论,并直言不讳地称开源其实是一种智商税。如此“犀利”的观点一经放出,即可冲上热搜,引发众多网友热议。
百度CEO李彦宏在2024世界人工智能大会(WAIC2024)期间放出力挺AI大模型闭源路线
这并不是李彦宏第一次抨击开源模型,抵制开源这件事情。早在今年4月,李彦宏就表达了类似的“闭源赚钱”的观点,甚至表示,“开源模型会越来越落后”。而在言论自由的科技圈,李彦宏力挺AI大模型闭源路线的言论很快就迎来众多反驳的观点。
对于李彦宏关于开源模型的预判,360董事长周鸿祎明显持反对态度,其在哈佛中国论坛的演讲中称:“我一直相信开源的力量,网上有些人胡说八道,你们也别被他们忽悠了,说开源不如闭源好。一句话,今天没有开源,就没有Linux、没有互联网,连说这话的公司自己都是借助了开源的力量才成长到今天,开源社区聚集的工程师和科学家的数量是闭源的数百倍。我觉得未来一两年内,开源的力量很有可能会达到或者超过闭源的水平。”
而阿里作为大模型领域重要支柱企业,阿里云CTO周靖人同样支持开源大模型,认为开源有助于加速人工智能应用的落地过程。他指出,开源模型的下载量和使用客户数都在快速增长,显示出开源模型在人工智能领域的重要作用。
除了以上几位国内科技圈大佬外,百川智能CEO王小川、生数科技联合创始人兼CEO唐家渝、启明创投合伙人周志峰、昆仑万维董事长方汉等科技圈的从业者,投资人、行业从业者也纷纷加入这场关于AI大模型开源or闭源的路线之争,而众多亲自下场参与辩论的大佬也让这场AI大模型路线之争日益热闹。
AI大模型开闭源之争并非由国内一众科技大佬挑起,早在今年2月份的时候,马斯克就对ChatGPT制造商OpenAI及其CEO奥尔特曼等人的起诉。2015年,马斯克同奥尔特曼等人共同创立了OpenAI,核心宗旨是“创建造福全人类的安全通用AI”,其定位也是“非营利组织”。
但马斯克2018年辞去了OpenAI董事会职务,并据称放弃了为其继续提供资金的承诺,奥尔特曼当时接受采访表示:“这很艰难,我必须重新调整,以确保有足够的资金。”2019年,OpenAI以“向公众传播语言模型太危险”为由封闭了源代码。此后,马斯克对OpenAI进行多次公开批评,称其已变成一家闭源、利润最大化的公司。他曾发文称:“我很困惑,一家我捐赠了约1亿美元的非营利组织是怎么成为市值300亿美元的营利组织的?”
马斯克是AI开源阵营的坚定拥护者
随着OpenAl核心技术不再开源,且与微软的关系越来越密切时,马斯克的不满可想而知。马斯克在起诉书中批评称:“OpenAl已经变成了全球最大技术公司微软事实上的闭源子公司。在其新董事会的领导下,OpenAl不仅在开发,而且实际上正在完善一种AGI,以最大化微软的利润,而不是造福人类。
当大佬们选定各自阵营开始以身入局时,其背后的企业同样开始各自站队,一场波及浩大的生态阵营之战也逐渐浮出水面。
02
Llama3抢下“赛点”,两大路线掀起“团战”
一直以来,操作系统和软件行业都存在“开源”与“闭源”路径的争议。
早在1998年,ChristinePeterson首次提出“开源软件”(OpenSourceSoftware)概念,自此,开源在全球蓬勃发展。二十多年过去,曾经口口声声喊着“开源软件是毒瘤”的微软成为“开源”的拥趸,RedHat、SUSE等企业大力开发“开源”的乐土也由此获得巨大的成功。
而在当下AI大模型领域,当前如果单纯在技术层面看,闭源大模型在能力上确实处于领先地位,诸如OpenAI的GPT-4、Anthropic的Claude-3、谷歌的GeminiUltra都是闭源。国内的情况也类似,华为盘古、百度文心一言、字节跳动云雀,以及月之暗面Kimi等有一定知名度的大模型,目前也基本走的都是闭源路线。在此背景下,大模型开源好还是闭源好可能很难在行业中形成共识,可Llama3的出现却让开源阵营看到强势崛起的希望。
Llama3性能直逼GPT-4
Llama3分为大中小三个版本,相比其他模型:小规模的88模型效果比同类大小的模型Mistra7B、Gemma7B略好或基本持平;中等规模的70B模型效果比GeminiPro1.5、Claude3Sonnet略好或相当,并超过GPT-3.5;最大的400B模型仍在训练过程中,设计目标是多模态、多语言,根据Meta公布的目前训练数据,其性能与GPT-4相当。
同时,Llama3一经发布,AWS、微软Azure、谷歌云、百度智能云,以及HuggingFace、IBMWatsonX、英伟达NIM和Snowflake陆续宣布其平台上线Llama3,支持Llama3训练、部署和推理运行,体现了强大的生态联动性。
而行业领头羊OpenAI和Anthropic采取了完全不同的策略,他们提供的是闭源人工智能模型,并坚持把技术牢牢控制在自己手中。许多其他初创公司也都“押注”开源,包括法美合资企业HuggingFace,它曾推出ChatGPT的首个开源替代品HuggingChat。一些资金较为雄厚的公司也曾开源同类产品,比如美国芯片制造公司Cerebras(开源Cerebras-GPT)、美国软件公司Databricks(开源Dolly)等。
国内阿里通义去年8月宣布加入开源阵营,沿着“全模态、全尺寸”的思路布局,覆盖不同参数量级,开源语言、视觉多模态模型。阿里云方面解释说,大模型的训练和迭代成本极高,绝大部分的AI开发者和中小企业都无法负担。Meta、阿里云等推动的大模型开源风潮,让开发者不必从头训练模型,还把模型选择的主动权交给了开发者,开源收紧闭源崛起,大模型陷入珍珑棋局大大加速了大模型的应用落地进程。
与Meta完全开源、OpenAI和百度极致闭源的路线相比,其余大模型公司更多选择中间路线:模型“低配版”开源,更高参数量的模型闭源。比如,谷歌Gemini多模态模型闭源,但今年2月宣布开源单模态Gemma语言模型;法国的MistralAI最初一直是开源模型的拥趸,但2月获得微软投资后,将新发布的旗舰级大模型MistralLarge闭源;王小川创立的百川智能做法相似,2023年4月成立之初发布的第一代Baichuan大模型和9月发布的Baichuan2均开源,但今年1月推出的超千亿大模型Baichuan3则完全闭源;中国AI大模型“五小龙”(智谱、百川、MiniMax、月之暗面、零一万物)的另外一家——智谱AI,在1月发布GLM-4时同样选择了闭源模式。
相较于“言行一致”,各大科技企业及老总在开源还是闭源路线的选择上,其实更多还是根据自己企业状况做出的抉择,利益才是决定站队的第一要素。
03
究竟在争什么?口水战背后的商业逻辑
AI阵营开源与闭源的路线之争,说到底是商业逻辑的辩证。
开源绝非开放代码那么简单,其重点在于“协作”。开源项目通常是由爱好者和志愿者社区维护的,商业化程度较低。
例如,Linux操作系统的诞生和GNU项目的推动,都是这一时期开源生态的代表。AI时代,开源大模型可以帮助用户简化模型训练和部署过程,并节省高额初始及后期资金投入,用户只需从开源社区如HuggingFace中免费下载预训练好的模型并进行微调,就可快速构建高质量的模型,极大降低了企业搭建、训练大模型成本。在云服务商Anyscale提供的价格中,70b版本只需4美元/100万token。GPT-3.5则比它整整贵一倍要8美元/100万token。
如果用闭源模型,100万token消耗速度很快,成本远高于0.6美元每小时。LeptonAI创始人贾扬清曾经在一次闭门活动中分享过:在北美,很多企业都是先用闭源大模型来做实验(比如OpenAI的模型)。实验规模大概在几百个million(百万token),成本大概为几千美元。一旦数据飞轮运转起来,再把已有数据存下来,用较小的开源模型微调自己的模型。
AI大模型训练成本一直居高不下
因此,Llama2、Llama3开源发布后,就快速吸引了全球开发者和爱好者参与开发和改进,当前已快速衍生出一系列开源的基础模型与行业模型,这能极大地加快了创新和迭代的速度,尤其是在强调私有化部署的端侧AI大模型领域,开源大模型让中小企业甚至初创企业也能快速拥有“独一无二”的专属大模型。
反观闭源阵营,闭源的方式虽然少了开源那样呼朋引伴、快速提升影响力的途径,但好处是因为不那么开放所以保留了一定的技术壁垒,其他企业想要获得闭源项目支撑的能力就得付费,而这种商业能力的建立,使得闭源项目天然能够更好地盈利,进而获得可持续发展的资本,更适合在AI大模型领域有一定先发优势且技术、资源优势明显的企业选择,毕竟闭源才能进一步构筑企业护城河。
当然,终端应用企业对开源还是闭源路线的看法并没有想象的“泾渭分明”,多种模型混合使用,兼顾效果和成本才是终端企业的明智之举,这就意味着开源与闭源并非绝对的对立,人们在了解两大路线阵营的技术特点和优劣势之后,完全可以让两者成为互补和共生。
04
AI时代的开源,其实已经有些“变味”
所谓开源,其实不光是把源代码公开那么简单,它还得满足一些条件,比如允许大家自由地使用、修改和分享这个软件,还可以用来它来创造新的东西。在软件开发的蛮荒时代,开源主要是由个人和小型团队推动,重点在于共享代码和协作解决问题,开源项目也通常由爱好者和志愿者社区维护,最显著的特点就是商业化程度较低,比如Linux操作系统的诞生和GNU项目的推动,都是这一时期开源生态的代表。
随后的互联网时代以及云计算时代,都有大量开源技术的案例,它们不仅构建了网站和网络应用的根本,还成为了云计算基础设施的重要组成部分,而大模型的技术浪潮从某种程度上也是由开源模式开启,毕竟是谷歌先开源了Transformer,才有了后来OpenAI引爆行业的ChatGPT。
但不难看出,现在的开源技术,终点就是商用,而商用的目的自然就是获利,所以很多原本基于开源的企业,比如谷歌、OpenAI在抢占商用高地之后都迅速扭头转向了闭源方向,而反倒是Meta、马斯克等传统的互联网商业代表扛起了开源大旗,但他们的目的也很明确,就是用开源来抢市场,所以未来我们可能会看到两大阵营不断“掉转枪头”的情况……
通义大模型采用的就是允许用户二次修改源代码的完全开源许可证
大模型时代的开源其实也变得更加复杂,比如开源的方式就不再是大家以为的“完全开放”,以MetaLlama系列模型和Mistral系列模型为例,虽然它们都是开源,但Llama属于有限开源,虽然开放源代码,但对使用、修改和分发该模型的行为有一定的限制,而且Meta还保留了随时撤销Llama开源的权利。
而Mistral系列模型采用了完全开放的开源许可证,允许用户在几乎不设限的情况下使用和修改软件,开源了模型权重的同时也开源了模型的架构。
但注意,即便是这种完全开放的开源大模型,对于训练数据和训练过程也并不开源,这是因为大模型通常需要大量的数据、计算资源和专业知识来进行训练和优化,这些资源往往只有大型科技公司才能提供,所以开源大模型往往是由头部互联网公司牵头,换言之就是现在的开源大模型早就不再像以前Linux、安卓那样是由社区共同设计二来,它背后的资源全都来自相对单一的科技巨头。所以Meta、谷歌选择开源部分大模型其实都打着占据生态位的小算盘,这也就导致了开源背后的技术逻辑不再像以前那么单纯。
05
闭源大模型技术力更强?还需具体问题具体分析
李彦宏曾直说“开源模型会越来越落后。”也就是说在李彦宏看来,闭源大模型的性能会超过开源大模型,李厂长所描述的未来我们无法臆测,但现阶段开闭源大模型的性能对比还是“战绩可查”的,以目前的标杆:MetaLlama3为例,它有8B和70B两个参数量版本,超过4000亿参数的400B模型也宣称将在晚些时候发布。从测试成绩来看,70B参数的Llama3在各项指标上已经能和据推测参数量为175B的GeminiPro1.5相抗衡,即使面对GPT-4也并没有输太多,而且这还是在Llama3未进行微调的情况下达成的,足以说明它还有很大的提升空间。
与GPT-4等闭源模型相比,Llama3的性能表现并没有差太多
无独有偶,国产开源大模型阿里巴巴通义千问QWEN2-72B-Instruct大模型在HuggingFace的开源大模型排行榜上超越了MetaLlama3-70B-Instruct,以42.49分的平均分暂居榜首,在数学、长文推理和知识理解方面表现突出。
同样的,开源界的另外两个巨头Mistreal和Grok近期放出的模型也都展示出与GPT-4相近的水平,其中Grok1.5V具有多模态能力,各项指标与GPT4不分伯仲,而Mistreal近期流出的基于Llama2训练的Miqu70B模型测试数据也和GPT4能力相近。
千问大模型目前在Huggingface排行榜上名列第一
因此,也有相当多的业内人士认为现在开源和闭源模型之间的差距不但没有拉大,反而在不断缩小,这是因为开源模型可定制性更强,几乎任何人都可以按照自己的想法实现模型微调,在算力不断提升,能耗不断降低的当下,以天为单位的训练周期获奖成为常态,如此一来,微调的累积效应将很快帮助小模型克服体量上的劣势。
不过,开源大模型对于应用落地还有一个比较大的难点就是数据私密性,毕竟大模型是不能直接为行业用户所用的,还要通过专有场景数据进行优化,而这些数据训练完的模型又可能被开源开放出去,这都会加深企业的顾虑。而且另一方面,在开源大模型的共建过程中,如何得到数据、判断数据优劣、分配权重、确定各方贡献等等方面都还存在很多难题。而使用闭源大模型就没有这方面的麻烦,数据和模型的所有权、使用权都很清晰,牢牢掌握在企业自己手里。
大模型高昂的训练成本决定了上游玩家只能是大型科技企业
06
战略各有侧重,但大多选择开闭源两条腿齐步走
既然开源闭源谁都无法完全替代谁,所以现在大多数厂商的思路都是两者同时“发育”,只是在路线上可能侧重点各有不同而已。目前来看,百度、阿里云、腾讯、华为云、智谱、百川、零一万物以及昆仑万维等厂商都同时在做开源闭源大模型,这些企业通过不同的策略,旨在结合开源和闭源的优势,以实现技术的快速迭代与商业利益的最大化。
早在2021年百度就开源了ERNIE-M多语言预训练模型
百度在坚持闭源路线的同时,通过其飞桨智能云平台提供第三方开源大模型API,展示出开闭源并行的策略,这种方式让百度既能保持自身技术的独立性,又能利用开源生态带来的创新红利。阿里云则明确表示开源是其战略的一部分,形成了开源和闭源的整体体系,并强调“百炼”平台的服务,在算力、工具和服务上获得收益。腾讯虽然开源大模型较晚,但其开源的混元文生图大模型表明了腾讯在开源领域的积极探索。
华为云采用闭源路线发展盘古大模型,并通过“百模千态”专区提供第三方开源大模型,显示其在开闭源策略上的多样化布局。智谱作为国内早期开源大模型的企业,通过开源模型获得了广泛关注,并推动了其在融资和商业化上的显著发展。百川公司发布开源可商用大模型,引起了业界关注,并在后续继续开源新模型。昆仑万维则开源了稀疏大型语言模型Skywork-MoE,并在音乐、游戏等领域采用闭源商业模式。李开复的创业公司零一万物也采取了开源与闭源并进的模式,通过开源模型进行市场拓展,并发布闭源的Yi-Large模型
总的来说,各大厂商在开闭源策略上各有侧重,形成了复杂的竞争格局——开源大模型能够促进技术共享和社区合作,而闭源大模型则有助于保障知识产权和获取商业利益。这种多样化的发展模式不仅推动了技术创新,也为不同需求的用户提供了更多选择。
来源:壹零社