科技

“开源军团”来势汹汹OpenAI还能坚挺多久?

ChatGPT问世半年多来,全球科技公司争相开发大模型,大模型走向开源的趋势几乎成为定局。而随着越来越多的大模型被开源,也将对目前处于行业领先地位的OpenAI形成压力。

此前,大模型的“主导权”集中在几家大型科技公司手中,开源社区为此在过去的几个月里强势反击,包括Meta的Llama2在内的项目试图挑战大型科技公司已经建立的整个商业模式。

而在国内,像阿里这样的大公司也加入了开源大军。上周,国内AI开发者社区“魔搭”(ModelScope)上架阿里巴巴的两款开源模型Qwen-7B和Qwen-7B-Chat,分别为阿里云通义千问的70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。

阿里云表示,开源大模型可以帮助用户简化模型训练和部署的过程,用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型。

百川智能CEO王小川预计,未来80%的企业会用到开源的大模型,因为闭源很可能没有办法对产品做更好的适配,或者成本特别高,闭源可以给剩下的20%提供服务。“二者是在不同产品中互补的关系。”王小川说。

“开源军团”来势汹汹

今年4月,美国软件公司Databricks发布了开源模型Dolly 2.0,成为业内首个开源、遵循指令的大模型,它在透明且免费提供的数据集上进行了微调,该数据集也是开源的,可用于商业目的。

随后,Meta公司在7月中旬发布了人工智能模型Llama 2的开源商用版本,这对于大量的开发者而言,意味着大模型应用进入了“免费时代”,初创公司也能够以低廉的价格来创建类似ChatGPT这样的聊天机器人。

猎豹移动创始人、董事长傅盛在社交媒体上随即公开表示:“大模型不再高不可攀,平民化大模型时代已经到来!像我们这样的公司会笑醒在深夜。”

作为聊天机器人等人工智能工具等基础,大模型的开源将降低企业开发各自版本的ChatGPT。Meta将Llama 2开源,意味着企业可以访问Llama 2模型,并通过调优来创建自己的类似于ChatGPT或谷歌Bard聊天机器人这样的产品。

国内方面,企业也在加速。阿里云通义千问开源,开源模型主要为Qwen-7B和Qwen-7B-Chat两种。

其中,Qwen-7B是支持中、英等多种语言的基座模型,在超过2万亿token数据集上训练,上下文窗口长度达到8k。Qwen-7B-Chat是基于基座模型的中英文对话模型,已实现与人类认知对齐。开源代码支持对Qwen-7B和Qwen-7B-Chat的量化,支持用户在消费级显卡上部署和运行模型。用户既可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用Qwen-7B和Qwen-7B-Chat,

同时,阿里云透露,通义千问7B预训练模型在多个权威基准测评中表现出色,在英文能力测评基准MMLU上,通义千问7B模型得分超过一众7B、12B、13B主流开源模型,该基准包含57个学科的英文题目,考验人文、社科、理工等领域的综合知识和问题解决能力。在中文常识能力测评基准C-Eval上,通义千问在验证集和测试集中都获得高分,在数学解题能力评测GSM8K、代码能力评测HumanEval等基准上也有不俗表现。

澜舟科技创始人CEO周明对第一财经记者表示:“开源、闭源之争可能又要再度上演,Meta这些公司发布了可商用的水平也不错的开源模型,可能会对某些公司的闭源模型或者某些团队的’自研模型’产生很大的压力。”

在过去几年,科技巨头公司似乎能够垄断大型语言模型不断增长的市场。它们选择将模型闭源,筑牢自己的“护城河”,很少对外公开技术进展。

但随着大模型的竞争愈演愈烈,这些科技巨头已经显著感受到来自开源社区的压力。市场对于大模型的选择正在逐渐从“越大越好”转向“越便宜越好”、“越高效越好”以及“越可定制越好”。

一些分析师表示,开源模型可能会削弱ChatGPT的开发商OpenAI公司以及谷歌大模型当前的市场主导地位,OpenAI的GPT和谷歌Bard大模型向用户收取昂贵的费用。

由于闭源模型只有源代码所有者掌握代码修改的权力,其他人无法获取“底稿”,只能向软件开发商购买成品。

根据Fast Company预测,OpenAI今年收入有望达到2亿美元,这些收入包括向开发者提供API数据接口服务、聊天机器人订阅服务费等。而大模型一旦开源后,在版权限制范围内,任何人都可以公开获取模型源代码,并进行修改甚至重新开发。这意味着大模型开源后会吸引更多开发者,大模型的应用也将更加丰富。

例如,在Llama2宣布开源不久,人工智能初创公司Stability AI就已火速微调出了一款叫做FreeWilly模型,并称其性能可与ChatGPT媲美。

大模型的“护城河”在哪?

谷歌最近泄露的一份内部文件表明,由于开源大模型的进步,大型科技公司的市场份额并不像看起来那么稳固。谷歌的文件称:“我们没有护城河,OpenAI也没有。”

随着大模型重点转向创建更大的模型,研究和创新的成本急剧上升。像GPT-3这样的模型需要数百万美元来训练和运行。因此,大模型的工作仅限于少数有足够经济实力的公司和与其相关的人工智能实验室。

大模型的关键“护城河”包括:训练所用的数据、模型权重以及训练和推理成本。大型科技公司在训练和推理成本方面占据优势,因为它们是唯一有能力支付训练和运营大模型基础设施费用的公司,小公司无力支付价格高昂的GPU,即便是租赁云端算力的价格也非常昂贵。

而要在数据以及模型权重方面获得优势,一些科技公司选择了闭源。OpenAI可能是最具代表性的例子。在OpenAI成立早期,它曾是一家发布所有研究成果的人工智能实验室,但现在,该公司已经发展成为一家出售其大模型API访问权限的初创公司,甚至不再发布有关其训练数据和模型架构的详细信息。

这也是马斯克批评OpenAI“违背初心”的关键因素,尤其是在微软公司向OpenAI追加数十亿美元投资后,马斯克认为OpenAI的技术已经完全被微软掌控,不利于行业的共同繁荣。

随着Meta和阿里巴巴等更多企业逐步开源大模型,未来也将倒逼更多闭源模型开源。

这些GPT大模型的开源替代品对于开发者意味着什么?一位大模型开发者告诉第一财经记者:“首先是即便大模型参数不够大,但如果在非常大的数据集上训练模型,那么在性能方面也可以与参数非常大的模型竞争;其次,是一些小型的企业可以用很少的预算和适量的数据将小模型微调到与大模型相媲美的程度。”

他还表示,由于开源模型支持不同的团队在彼此的工作基础上进行构建,因此开源模型的进步速度比封闭生态系统快得多。

王小川则认为,开源确实容易“建立人品”,拉来更多的朋友一起参与大模型的开发和改进,加速创新,用户的使用门槛和成本也更低。同时,开源也可以为商业化做准备,如果大家用起来觉得不错,当需要更好的服务和更大的参数时,可以探索进一步的商业化路径。

Meta AI科学家Xin Liu不久前也对媒体表示,Meta做大模型的思路和OpenAI不太一样。“OpenAI是一个比较close的模型,但我们相信开源。”他说,尤其对于那些中小企业而言,它们自己没有足够的能力和资本去训练一个大模型,但通过开源的方式,它们可以利用Llama2,结合企业自身的数据、具体的应用场景进行相关的优化。

他同时认为,现在大模型行业远远没有形成被某一家垄断或是一家独大的局面,每个公司、每个人都有很多事情可以去做,不论是做训练、做本身的技术加速或是数据的处理、应用层面等等。

外部创新会削弱大厂的价值

更多的开源模型能够为想要在其应用程序中使用大模型的企业提供替代方案,这对大型科技公司意味着什么?

谷歌备忘录中就警告称:“现在大模型的前沿研究已经可以负担得起,那么保持技术竞争优势就变得更加困难。世界各地的研究机构都在彼此的工作基础上探索解决方案,这远远超出了我们自己的能力。我们可以尝试保守自己的秘密,但外部创新会削弱它们的价值。”

但伴随而来的问题是,相应的监管和商业化将成为难题。因此企业在选择模型开源还是闭源的时候,要综合考量公司商业战略等多方面因素。

“我认为大厂最终都会走向开源模型,因为要吸引开发者社区,而且在对外形象上,如果一直不开源,会造才的流失。”一位人工智能领域顶尖专家告诉第一财经记者。他的团队也正在基于Llama2进行模型的微调工作。

他还表示,OpenAI也可以选择一直不开源,但是前提是它的模型一定要保持绝对的技术领先才行。“目前来看,GPT4还是有它较为显著的优势,但未来是否会被超越还很难说。”他说道。

尽管开源模型的问世无疑会打破大型科技公司对大模型的垄断,但业内人士认为,开源大模型并不适合所有人,尤其是对于那些没有内部机器学习人才并希望通过一些API调用将大模型快速集成到其应用程序中的公司来说,开源对它们的吸引力并不大,这也意味着基于云的大模型市场并不会消失。

周明表示,选择开源模型可以节省大量的底座训练的成本。但他提醒称,如果想用开源的话,要看看开源能不能支撑大数据、大算力的能力,或者开源能不能支持内部的商用。

开源中国董事长马越今年7月在接受第一财经记者采访时也表示,开源可以降低AI大模型的使用门槛。美国有一家开源AI模型托管公司Huggingface,只有100多人,估值已达20亿美元,它到今年6月已收录了26万个开源大模型,还有数据集。

“对企业来讲,只有专属数据训练才有价值,可以把自己的专属数据整理好,然后用一个开源模型来训练,得出自己企业的AI模型。”马越说,在此过程中,开源AI模型托管公司可以分发算力,让企业训练数据的成本降低。

马越说,现在国内科技大厂之间掀起“百模大战”,普通的企业很难得到算力,预计两三年里国内只剩下一两家AI大模型胜出。一些地方政府有算力,希望让更多企业享受AI模型的普惠。

“开源是一种商业模式,要的不单是流量,核心生命力在用户反馈和传播。” 马越说。

达观数据董事长CEO陈运文对第一财经记者表示,开源大模型的生态系统建设仍然处于早期。生态也是目前包括谷歌和微软在内的科技巨头公司的关键“护城河”,这些公司有着非常丰富的上下游生态和销售渠道。

大型科技公司最近的财报电话会议表明,它们已经能够靠人工智能赚取丰厚利润。微软业绩显示,该公司已通过其人工智能服务创造了价值数十亿美元的业务,包括通过Azure OpenAI服务以及OpenAI在其云基础设施上运行的工作负载。

“我认为开源的生态还需要时间逐步培养,就像安卓系统刚出来后,需要上游手机设备厂商和下游APP开发者等生态链的培育,这样才能形成竞争力和’护城河’。”陈运文对第一财经记者表示。