查看原文
其他

12位开源老兵跟你聊聊开源和大语言模型的商业化路径选择

明说开源
2024-08-28

Editor's Note

出海这期做得不错,探索开源与商业化路径的深度对话,本文汇聚了12位行业专家针对开源软件的商业模式、企业选择开源策略的考量、以及大型语言模型(LLM)对开源领域的影响等话题,提供了独到的分析和预测。

The following article is from 出海同学会 Author 出海同学会

原标题:开源与LLM的商业路径如何选择?


导语



作为中国企服出海、海外企服赛道全球化的重要手段,开源是一个绕不开的重要话题。
经过数个小时的讨论,我们与硅谷一线的多位创业者与企业家讨论了开源的商业模式,一个公司要不要走开源、应该如何决策,成功的硅谷开源企业都有哪些,他们做对了哪些方面,哪些可以改进;如何做用户增长、打造商业模式,等等。
以下是本次讨论的可公开部分,全文约2.7万字。您也可以进入文末的知识库阅读相关更多讨论内容。




本期课代表同学


AGI降临派 创始人 孔祥来TomDatastrato 创始人CEO 堵俊平大厂游戏项目AI负责人零一万物 开源负责人 林旅强RichardMeridianLink Director of IT Security Audit WickeyPingCap 联合创始人 黄东旭PlatoX.Ai 联合创始人 Hunter WenRisingWave 创始人CEO 吴英骏RWKV 联合创始人 罗璇TDengine 创始人CEO 陶建辉JeffTraini 创始人CEO Arvin SunOceanBase Eileen(值日生/主持人)


(*按公司名数字-字母序)
部分同学因公司PR保密不能露出外发布内容我们同样感谢他们的精彩输出




要点问题


Part1-背景研讨

企业服务开源都有哪些商业模式?如何决策企业要不要走开源路线?


Part2-LLM与开源研讨

LLM对开源的影响是什么?

开源大模型商业化可能成功吗?路径是什么?


Part3-应用层面研讨

应用层对 Open Source Software、Infra Service 和大模型有什么理解和期望?



PART.01

背景探讨



企业服务开源都有哪些商业模式?




RisingWave 创始人CEO 吴英骏

大家好,我是吴英俊,我是RisingWave Labs 的founder。感觉线上很多都是老朋友了,很高兴能跟大家参加这个讨论。我觉得商业模式就那么几种了,最朴素的话就是Cloud我们在云上,其实很多人都是这么这么做的。
还有另外一种就是support contract/license这个对于一些大公司来说可能是比较有用的。比如我们要去做一些enterprise,也就 fortune five hundred,它可能完全不支持云。比如说对于银行保险,我记得我之前跟某全球最大的银行,他们的数据只有 1% 在云上。而这 1% 数据对于他们来说可能是非常无关痛痒的数据。如果你想做他们剩下 99% 数据的话,那一定不在云上。对于这样的公司是没有办法做云的,甚至像这种所谓的 BYOC(bring your own cloud ) 也是没有办法做的,只能做 on prem这种方式。如果你要去做这种的话,那可能就是 support contract。
当然 support contract 是一个比较泛的概念,你可以卖一个企业版,企业版的话我可能也称之为 support contract,但是它的确是一个更高端的版本。也就是说我要跟你签合同,比如两年合同、三年合同这样的方式,当然还有一个方式是你可以问我问题,比如我知道Confluent就有很多 support contract,当然他们也有所谓的Confluent platform,专门on prem部署方式。我觉得基本上就这几大类了。


PingCap 联合创始人 黄东旭我是 PingCap 的联合创始人兼 CTO 黄东旭,我们是做 Database 的公司,早年到现在一直是开源,现在其实是云服务加开源、包括企业服务走到比较靠前的一个数据库厂商。
我觉得我在开始做开源时想了各种各样商业模式。但如果今天再问我这个问题,我觉得所有的软件,不管开源不开源,只有一种商业模式,就是服务。就是我们先不说卖硬件、卖盒子的商业模式,我觉得服务其实也分两种,一种叫人肉服务,一种叫机器自动服务。人肉服务很好理解,就是刚才英骏说的这种,可能客户这边实在没有办法用一个比较高质量的、自动化的手段让你躺着赚钱,所以你只能去人肉去服务。第二种服务在云上,像刚才英骏说到,现在很流行的技术软件公司在云上提供服务。比如说自动化的部署、运维监控,本质上来说也是服务,就是围绕软件的服务,只是说交付形式和我们提供服务的方式变成机器自动,咱就可以躺着赚钱了。本身来说商业模式就一种。
其实还有一种叫稀缺性,英骏举的 OpenAI 例子也挺好,稀缺性就是你觉得客户他自己绝对做不出来,全世界就独你一份,那你可以说咱卖license,这种是卖稀缺性。本质上来说也是卖信息不对称,但是我一直觉得卖信息不对称的商业模式不持久,就像 OpenAI 厉害了两年,可能后来就会有一大堆 open source 的追赶者,让它的位置不是那么稳,所以我觉得归根结底还是一个服务。如果你是一个做开源的企业,不要想着你的代码写得多好,而是想着你怎么能给客户提供更好的服务,这可能是很重要的一个思考点。




如何决策企业要不要走开源路线?




RisingWave 创始人CEO 吴英骏

我自己是做数据库的,但现在的话肯定还是有不少人在做AI,那么大家都会说 data 加AI。在数据跟AI 这两方面的话,我觉得现在大势所趋就在于,几乎大多数场景下你可能都需要选择做开源。
主要原因是,因为如果你不做开源的话,其他人可能做开源。但是开源的话,大家都说可能很多人会去白嫖,这肯定是一个比较大的问题。我相信如果做开源的话,是需要这个赛道足够大。如果赛道相对窄的话,比如我的面向对象是 fortune five hundred,那么做开源也没有太多意思,因为对于这些企业来讲,他们更多需要 top down sales的模式。开源的话可能更加偏向于 bottom up,从下向上的这种开源模式的话可能并不是特别适合。
而对于大多数场景,如果你的对象不是只有一个 fortune five hundred,而是更加普遍的中小企业或者说 Mid market,那我相信尤其是对于开发者,肯定是走开源会比较好的。
当然了还有一种闭源可能是你对你的产品非常自信,相信你的产品是领先其他产品一个时代的。我相信这种产品,哪怕是一个比较 general purpose 的产品,那可能是没必要做开源。Chatgpt 可能就是一个比较好的例子,它的确没有做必要做开源,因为它可能的确领先了其他的能力产品一个时代。


PingCap 联合创始人 黄东旭

企业需不需要走开源路线,也跟刚才英俊的回答差不多。我觉得第一点 summary 一下,就是看你的需求,你的软件的需求是不是通用需求?如果不是通用需求的软件,通常还是别开源,因为你开源出来,可能就算你投很多 marketing 费用,最后也逃不掉定制化的路线,这个比较麻烦。所以一是通用需求,定制化程度低意味着它的基数大。
第二点有的时候是被动的,你的行业里如果是一个后发者,比如我们做数据库的,这个世界上有一个非常成功的先发者叫做Oracle,而且这个先发者已经做得非常牛逼了,基本上你很难把它打败,所以你能唯一赌的就是用 Open source。其实我觉得在 LLM 领域里边也在上演这个, OpenAI 跟 Anthropic 确实很强,他们闭源,于是这些第二集团就开始疯狂开源,来搏一搏。
第三个关键要素是,选择开源的路线意味着你的软件决策机制有 bottom up 的特点如果一个企业的开发者觉得开源特别有趣,或者说特别喜欢,像宗教一样,到最后反正 CTO也看不懂这是什么东西,于是小兵说什么那就是什么了。所以你会看到像ERP、 CRM 很少有 Open source,因为像这种级别的决策可能是CEO、CIO、 CFO 直接从上拍下来的。但反而一些比较 nerd 的东西都搞开源,因为这个决策链其实是有一个 bottom up 的特性。


TDengine 创始人CEO 陶建辉

我觉得用户量要特别大的软件才值得开源,如果用户量小,绝对不值得开源。用户量大那就意味着一般是基础性软件,比如数据库、操作系统、中间件之类的,才可能用户量大。
并且如果你决定走开源路线,我个人认为你也一定要走向全球市场。因为如果你做某一个国家的市场,那你的用户量就马上就变小了。因此我觉得走开源路线唯一的标准就是用户量大不大。用户量不大不能走开源。


OceanBase Eileen

大家好,我是小狼,之前在蚂蚁跟阿里负责开源技术委员,然后目前在OceanBase负责新市场和新产品孵化,也跟东旭共事过一年。刚才其实从企业的角度,几位嘉宾都有讲到关于开源路线和商业模式的问题。我补充一下,从集团的角度,比如说阿里巴巴,或者说蚂蚁,或者说腾讯字节这样的大公司,他们为什么要搞开源。
开源这件事情可以从两个维度去讲,一个是技术,一个是产品。技术的话可能对于一家 super 大的企业来讲,它要保证自己整个技术供应链的可持续性、可维护性,还有快速迭代的需求,所以它可能会放弃自研其中的某一些部分,或者说它自研比较好的某一些部分,把它生产的部分成本给到社区和生态,这样的话长期来讲它不会需要自研所有东西。所以从技术的角度来讲,企业会有这样技术战略的选择和路线,这也是阿里巴巴跟蚂蚁前些年所谓的开源做的风生水起的一个原因。主要我觉得还是它要保证自己的整个技术栈能跟 global 的技术一起发展,如果完全企业内部自研的话,技术的成本非常高。
然后这里就讲到中国市场跟美国市场有一个特别大的差异:中国其实有很多互联网公司,它的技术可能更 prefer 于拿开源再去自研,或者说纯自研,因为它有很多不同的业务场景,可能对已有成熟的商业服务需求不足,所以它会自研。那另外一个当然是因为中国人力成本低,所以它会自研。但是长期来看到一个成熟市场,或者说到 global 市场的话,它肯定会相应的选择更成熟的商业的供应商。这是技术的维度。
背景这边有一个我最想 summarize 的点:开源其实是一个很新的东西,今天是有一批很新的人在以很新的方式玩软件和技术,所以这是一个新的思维模式。在这个思维模式之上要叠加的是我们商业化、产品化和面向市场化的能力,这后面其实都是一些专业化的讨论,前面我觉得都是还蛮感性的人才的东西。


零一万物 开源负责人 林旅强Richard

我在零一万物负责开源业务,之前在华为云负责 AI 开发者生态,在社区是「开源社」的联合创始人,会上很多同学都是老朋友,曾经跟小狼也共事过。
企业到底要不要走开源路线?首先谈大企业,就像刚刚小狼讲的,大企业为了构筑整个商业生态闭环,通过开源可以建立事实标准比如像华为,早期是通过3G、4G、 5G 这种标准去把这个产业格局框定,后来发现在软件领域上开源侵蚀标准产业,所以华为把开源放在标准与产业发展的部门下去做,各个产品线也会以开源构建它的的竞争力或者是它的友商已经开源了,比如说华为的MindSpore,它的友商是 PyTorch 或者TensorFlow 这一些的框架,或者像OpenEuler可能对标是Linux的相关OS。所以其实企业决定走开源,如果是大企业的话,他必须要把护城河做好,那对于小企业来讲其实就是后进者要如何去往前冲。比如说像多年前,我也很了解东旭在PingCAP创业的时候,初创企业往前冲的时候一定是用开源的方式,比较容易打破这个市场。
前几天在另外一个会OSPO Summit,圆桌讨论到「大中小企业的开源路线是什么?」我说第一点,这题目问错了,中型企业其实是很难走开源路线的,因为中型企业不够大,又不够小。很小的企业整家公司完全搞开源,我觉得有搞头,像陶老师也是这样。大企业也会投,譬如说阿里、华为等等。中型企业很尴尬,因为你走了开源,你的投资力量不如大企业那么大。而且对大企业来讲,它的投资其实只占它整个企业的一小部分,对于小企业是整个 all in开源
零一万物作为一家初创企业,在2023许多大模型出台过程中,开源是一个突围的必要路径,必须让所有人,包含开发者、学术圈、行业和投资人都能先看到 Yi 系列模型的实力,开源是让大家感受的最佳路径。其次,开源模型也是大模型出海的最佳策略,目前 Yi 模型在 huggingface 等海外市场上的使用数、衍生模型和影响力也在国产大模型当中是排行前二的。再者,开源如何赚钱,也就是零一万物的商业模式如何通过开源来增强也是必须一起考虑,例如现在零一万物推出的大模型开放平台,提供了 Yi 系列模型的 API,并且这些模型是比开源版本更加优化的能力,用户也可以不需要自己部署,直接使用。这些其实是开源加 API 服务的组合拳,开源建立认知和采用,开放平台则基于开源的认知和流量来进一步促进商业化,承接行业市场的客户需求。


PART.02



LLM与开源研讨



LLM对开源的影响是什么?




Datastrato 创始人CEO 堵俊平

大家好,开源圈知道我可能是因为之前我曾先后任国内两个大厂的开源业务的主席和总经理。数据圈的人认识我是因为我在数据 infra 这个赛道做了 15 年,最早从 Hadoop 这个项目到 Hortonworks 的YARN的团队负责人。AI圈的人认识我是因为我在AI 领域最大的开源基金会LF AI & Data Foundation曾任主席。总之,Startup开源、大厂开源、基金会开源,我在过往的十几年可能一直都围绕着这些topic来工作。顺便介绍一下我现在是Datastrato的Co-Founder和CEO,我们从去年开始做面向multi-cloud的数据以及AI 的Infra,面向 generative AI 场景的这些 unstructure 和 structured data 的fabric。
对于这个问题,我的理解是两方面,首先是LLM对开源的这个产业的影响是什么?我觉得首先,它肯定是一个正向的影响,因为对开源而言,它的蛋糕是看产业的蛋糕有多大,然后它从这个产业里面去截取一部分(另外一部分是闭源)。LLM让整个商业的蛋糕,不管是软件或者是应用的产业规模,肯定都在快速并持续地做大。这里面有没有泡沫?肯定有。会不会破灭?不一定,能落地创造价值就不会破。去年 OpenAI 的成功让我们看到整个市场在快速变大,今年、明年或未来的几年,大家都很期待看到AI新应用的成功,应用的成功反过来会让开源的大模型和中间件在这里面分一杯羹,所以我觉得是一个非常正面且积极的推动。
其实我们也看到这个开源的模型有很多,现在基本上只要是一个性能比较好、有特色的开源大模型都很快会得到应用,像 Llama 2和3、Mistral现在非常popular,大家用得非常多。这说明开源对于 large language model 的推广也起到了重大作用,它降低了企业的应用门槛,因为它让大家觉得可以基于这样开源的模型去训练自己的模型,而不用担心内部数据泄露等其他问题。所以到目前为止,LLM与开源的相互影响是非常正向的。我本人也非常看好开源大模型。


RWKV 联合创始人 罗璇

我们做的是一个新的架构的模型,解决 Transformer 现在计算效率的问题。刚刚像 Richard 说到,为什么大模型(比如说 65B 以上的模型)大家不愿意用呢,核心的原因就是因为推理成本太高了,因为它整个推理都是 n 方的复杂度,空间也是 n 方,优化以后也是 n 的复杂度。所以它一开始需要的算力就很高,越来越慢,而且会越来越占内存,这是现在全球范围内都知道Transforme的一个问题。
其实从去年五月份开始,全球范围内已经广泛在推新的架构了,像年底的Mamba,以及去年七八月份微软的Retentive Network,包括MIT、斯坦福他们也推了类似架构的模型。其实最早做的当然是RWKV,我们现在做到第六代。
回过头来再说一下 LLM 对开源的影响,我认为要重新思考一下开源的定义,什么是开源?因为大模型的代码开源是没有意义的,代码都可以开源,因为核心并不在代码里。然后第二个就是数据,数据是不是可以开源出来?数据是很重要的东西,你是怎么清洗数据的?数据结构是什么?第三个是你的训练方法,新的架构的训练方法到底是什么?模型的开源遵循什么协议?这也是很重要的,像过去一年很火的 Llama 2其实不遵循开源的协议,它自有一个协议。从开源的源头开始,我们就要思考开源到底是什么定义,在大模型或者人工智能的发展过程中,是不是应该调整对开源的定义,或者把它细分,或者把它分级?之前我也跟相关的同事或者其他开源社区的人聊过这个话题。这是我抛出的第一个观点:开源可能需要分级。
第二,过去一年国内基于 Transformer 做的开源模型,大家看到的商业化落地其实是值得怀疑的。无论是基于以前 Gpt 2, Llama 2甚至Bloom这去做的开源模型,最终看到 ToC ToB 的商业化落地不多。最近 Twitter 上也有很多人在说大模型是不是能真正赚到钱,去年一年融了 70 多个亿,但是创造的收入可能就小几个亿。
我们也一直在考虑这个问题,我们去年 6 月份出来成立公司,其实就是在思考大模型怎么才能不单单只是非盈利性的事情,就像刚刚有朋友说的,最终还是要商业化的。我们认为核心的原因就卡在了两个点上,第一个是 Transformer 现有的架构,第二个是卡在了英伟达的卡的价格。这两个看上去是 Chatgpt 成功的两个核心要素,可能是真正卡住了商业化的关键两点。其实有一个信息差,可能大家不知道,因为 Gpt2 以后OpenAI就闭源了,你并不知道它是否真的是Transformer,这个是过去一年大家认为我在阴谋论的一点。
并且,过去一年真正在大规模赚钱的是英伟达,它是真正在人工智能过去一年发展中套利的公司。反而这些真正做大模型的公司并没有赚到钱。Transformer 又依赖于GPU。所以我认为开源还有一个很重要的点,就是怎么样去打破垄断。开源和垄断是对立的,开源跟商业化不是对立的。
所以我第二个观点就是开源要思考一下 Transformer 这个架构是不是在影响大家的认知?第二个就是英伟达的 GPU 是不是在影响整个开源生态的真正落地?这是我的认为的第二个认为影响吧。




开源大模型的商业化可能成功吗?路径是什么?




Datastrato 创始人CEO 堵俊平

大模型的商业化,走开源路线是一把双刃剑。
刚才说开源可以加大推广力度,让大模型更容易被使用。但是从另外一个角度,其实 large language model 不像我们传统的开源,因为传统开源软件是有个很活跃的社区,很容易做一些社区的合作,但是大模型的开源社区直接合作起来会相对困难,这个困难可能卡在数据集开源,因为大家拿到你的模型比较容易,但是很难去拿到你之前训练这些大模型的数据集,因为有很多合规的要求,隐私保护的要求等。

这就造成一个影响,就是很多公司可能站在了一个比较强大开源模型的平台之上,但是再往上怎么样去 fine tune、再往上怎么去演进发展,他们就会有很多困惑,比较难形成合力。这种模型强于数据且数据无法共享的现状造成的一个结果就是,各家都在拼命收集数据,所以大模型这波反而对数据的应用使用、或者数据资产的管理是一个非常大的促进作用。我是做出数据出身的,我们看到很多巨型体量的公司,大家每个业务 department 之间的数据是老死不相往来的,现在也看到业务部门墙和背后的数据墙也在慢慢被打破,所以在模型之外,又突破了一些新的机会和可能。
对商业大模型来说,我认为需要对商业化成功做出定义,即小成功与大成功。第一个,如果是“小成”,这个东西利他,同时能够获取一部分订单、一部分收入,我觉得这个肯定是有机会做成的。哪怕是开源的大模型,除了直接被拿到企业内部用,通常他还要需要 fine tuning 和提示工程等。在这个过程中就可能创造很多机会,比如说专业服务,云服务化的机会。
第二个,我们经常会把大模型比作 AI 时代的“操作系统”,回过头来看这个开源的操作系统,除了直接收钱,应用可能也是一个它成功变现的路径。一个生态繁荣之后,上面可以长出很多 killer级的应用。其实你回过头来看 ChatGPT 的成功,其实不光是一个模型的成功,还是一个应用的成功。在ChatGPT出来之前, GPT3 可能它的影响力和价值创造局限在工业界和学术界,没有那么大影响力。之所以后来有那么大的影响力,是因为连上了ChatGPT,包括现在再往多模态应用方向极速狂奔,才让大家觉得能创造这么多应用的价值。所以Killer APPs未来可能是非常重要的变现的手段。我们刚才我看到上一趴大家很多讨论都围绕着开源商业模式,可能开源本身不挣钱,但是它支撑上面的应用生态来挣钱,也是一种值得关注和探索的方式。
就这两种方式而言,如果要做应用,那就要做端到端,通过应用来体现价值;如果要做服务,你就要把上下游的链条打通让大模型不仅在 performance 上做得好,而且易于被adoption,而且跟 infra,不管 AI 的 infra, data的infra,包括现在很流行的RAG组件,包括 LongChain 这套LLMOps工具能很好的对接在一起, 形成标准,这样才能服务好目标客户。


PingCap 联合创始人 黄东旭

我觉得可能再往后,闭源的 LLM 厂商跟开源厂商会走向不同的商业模式,可能大家要分开去看OpenAI 跟各类的开源模型。
为什么这么说呢?从我现在的这个体感来说,第一,比如像 OpenAI 这样最新的第一梯队闭源大模型,它可能跟所有其他 LLM 有大概两三年的差距。如果你真的需要非常高精尖的,或者说这个场景非得 GPT4 不可,那你可能真的只能去找OpenAI。但我现在发现大量的企业或者包括个人在应用层,很多时候其实用不到它那么智能,所以我觉得会出现一大堆垂直领域。

举个简单例子,我现在经常用 LLM 帮我整理自己的文档、邮件,甚至是帮我做一些事务性的工作,我觉得 GPT4 跟 Mistral 在完成这些不算太复杂任务的时候都差不多,所以我也用不到 GPT 4 这么高级的智能。我觉得这一部分其实是 Open source LLM一个特别大的机会,在无数个垂直细分、同时又需要 LLM 能力的场景。以前比如说总结邮件,或者说帮我去整理 calendar,你要真正自己去写这个程序是很难的。所以我觉得在这部分的场景里,开源LLM 会赢。
而且这里面的LLM,我甚至不觉得 fine tune 有多么重要,大模型会慢慢走向小模型。在这种比较垂直的领域里,比如去年这个时候我们去看大模型,大家可能都有一个固有印象,就是模型参数越大就越厉害。但是现在其实你会发现像 7B 甚至更小的模型,如果放到了去年那个时候,完全吊打当时的几十 b 的模型。所以我现在强烈地感觉模型参数、包括训练的算力可能并不是这些大语言模型的护城河,有可能是训练数据的质量。所以回到开源上,我的观点就是,在一些小场景里,你如果有一个比较好的数据集,其实能够训练出还不错的模型,能够放到你自己的硬件设备上,而且甚至推理的硬件、门槛也不会太高,所以我觉得开源LLM 机会是非常大的。
我觉得在接下来会有完整的 open source,从硬件到软件。硬件层面就不说了,可能是一些普通的家用硬件,甚至比如现在家用显卡,像3090都能在开源模型上跑得飞快。从软件层面上,操作系统一直到应用层都会出现开源的栈,像现在的Ollama,已经开始有点出现开源应用层 LLM 的代码仓库,或者说应用分发平台。已经开始出现类似 GitHub,包括 Hugging face这种模式。我觉得它会长成不一样的东西,应用场景会非常大,甚至可能把整个Open source LLM的应用厂商加起来,它产生的社会价值可能比 OpenAI 和头部的几家可能还要大。


TDengine 创始人CEO 陶建辉

我在东旭的基础上补充一个稍微不一样的观点。
我个人认为,现在大模型技术发展太快,在一个技术发展太快的时期,开源没有优势。因为它需要很大的投入,需要有个公司这样有组织的行为去攻关,那开源的力量就比较松散,不太容易搞定。但是当技术的发展缓慢下来,开源胜出的可能性很大,因为人家都想要更便宜的、更 affordable 的solution。
因此,也许是几年之后再做开源的大模型,我觉得更有机会。现在做开源大模型机会不大,这是我的结论。就包括现在我们做数据库都不开源,我觉得开源可能性都没有。早期做的时候真的没必要开源,变化很大的时候,技术在突飞猛进的时候,开源对你没什么价值。


PingCap 联合创始人 黄东旭

我稍微再补充一下我的观点,我认可 Jeff 刚才说的部分。但为什么我们现在觉得做数据库已经不是一个开源的问题了?因为咱现在解决的问题已经变成了一个工程问题,就是说你需要投大量的资源来把各种细节做好。但是我觉得现在 LLM,比如Transformer,我一个周末就能写一个 Transformer 的框架出来。所以我觉得现在整个行业,包括我觉得 Open AI 自己,他其实也不知道为什么我把数据堆上去、各种优化,这个模型就变得聪明起来了。所以我觉得现在还确实就如陶老师所说的,还是一个混战的阶段。
但这个混战的阶段有个好处:它门槛不是那么太高。以前门槛还要搞几百张H100,但我觉得现在可能纯做纯软件上来说,像 Transformer 这个模型加上一个高质量的数据集,再加上可能几千万美金,你就可以去拥有一个基本上是 Tier one 的 open source model,而且再加上刚才我说的垂直领域,这个其实是我的这个观点。但我 80% 同意Jeff。

至于如何让LLM 加开源模式在早期跑出来,我觉得今天 LLM 的开源其实挺有意思,因为 LLM 本身的代码不会是大家关注的重点,因为就像我刚才说的Transformer开源不开源没什么这个区别。第二,你 training 的 data set 不可能开出来,因为这个东西其实是你的第一核心竞争力。就是你开出来也没有用,你的最终用户也不会拿着你的开源数据集去做修改,也不可能给你 contribute data set,它也不会有 100 张 H100 显卡从零开始去 train 一把。
所以我觉得今天如果要去做 LLM 的开源,第一,你要确保你的 license 是对大家友好的,让大家有trust。比如说现在很多闭源的LLM,本身它的商业、包括你在上面去做 fine tune,或者说去做数据集的蒸馏都是不行的,都违反企业的 license。但 open source 有个好处,就是说它在一个法律框架下,授权你放心地使用。我觉得选择 license 是一个特别重要的点,即让你的最终用户用你的东西构建他的应用,用得比较放心,这是第一点。
第二点我觉得跟传统的 open store 有点像,你要开始去构建大量的基于上面的 API 层、加上 example code 以及应用。现在 LLM 这一块,我觉得 open source 最核心的竞争位置不是在于底层的软件本身,而是在你构建应用时的易用性、开发者体验、包括像跟已有的Ollama、hugging face 等 community 的integration。我觉得这是第二点,即对开发的体验和example code 的关注。因为传统的 open source 软件可能还要面向 decision maker,或者 enterprise 种种的人,但是我觉得今天如果你是做 LLM 的 startup,你只需要去讨好开发者,同时疯狂在 Twitter 上at 各种 LLM 的大V。它现在的渠道还比较集中,所以我觉得开发者体验一块还是有很多办法的。
然后第三点我觉得,因为现在做 LLM 有一个特点,就是它的跑分和一些标准比较明确的,就是你必须得有一个 killer 点。比如我在国内现在印象最深刻的就是Kimi,一提到 Kimi 大家会想到 long context。如果你现在开源出一个类似 Grok,其实我老觉得Elon Musk前几个礼拜开源 Grok 不是一个特别好的例子,它好像是为了开源而开源,除了模型大,其他啥都干不了的感觉。我觉得像 Kimi 虽然没开源,但是你至少能够感觉到它有一个 killer 的地方。包括我觉得做得比较好的 Mistral,第一个这么强的 MoE的 open source 架构。
我觉得就是这三点。简单来说,第一,选好license,第二讨好开发者,第三有你的一技之长。其实我觉得相对还是简单的,因为现在渠道和宣传的赛道还比较狭窄,而且大家的关注度又很高。


零一万物 开源负责人 林旅强Richard

首先第一点是,我们公司相信 AGI 这件事情是能够在一定时间内达到的,虽然每个人定义 AGI 有各自表述,但现在我们基本上相信scaling law,也就是说模型越大越可能去创造出一些东西,我们也不一定知道到底到什么程度。所以现在至少从我们公司的逻辑来讲,就是要不断地打造更大的模型。去年 11 月,我们出了 6B和 34B 模型都是在这个过程当中。


前面像东旭和很多同学讲的我也很认可,就是说模型一旦越大,它跟开源的关系就越小。比如说Grok就算开源出来,根本也没办法用,很多人是说连下载都载不下来,因为它太大了。我觉得开源逐渐成为一个噱头。越大的模型,开源其实对开发者 community 来讲根本没有用,因为你用不起来。所以越大的模型势必会服务化,也就是说从服务赚钱,比如说 API 化、 SaaS 化什么之类的,反正你得承载出某一个 application 或者是某一种 PaaS的能力,你必须要把它转化成开发者或用户可以用的能力。


比如说像当前我们观察到Kimi 比较火,其实 Kimi 就是把它做成一个比较服务化、 ToC 化、能让全民感知到的一个东西。海外现在 Chatgtp 火是因为它两个都做,它 ToC、ToB 都做。其实这个是我们的观察,上个月我们也上线了 API 平台,就是希望能让开发者先把它用起来。其实说白一点,现在 34B 也不一定需要 API 平台去做,但我们是为了未来更大的模型,因为我们有几个版本更大的模型正在做,那之后也会做出来,行内有些人也肯定会知道,这是第一个点。


第二个点,从开源的角度来讲,比如说 Google Gemini ,7B 的为什么要做?我觉得也是回应到东旭刚刚讲的,就是真正要对社区开发者有影响的一定是小模型,小模型能力越来越强,才有可能形成百花齐放。所以其实 Google Gemini 出了之后也很多反响,而且你看手机上的,车机上的,各种机上的,边缘侧的,或者是一体机,这种大模型需求,在全球范围极高,尤其国内更高,因为国内很多数据出不来,所以它必须要一体机或者是能跑的。


那这一块其实也是我们现在看,比如说像我们之前比较低调发布了一个 9B 的模型,去年是 6B 跟34B,那今年出了一个 9B 的,就希望在某些能力,比如说代码能力、数学能力这方面去做得更好。所以其实我们看 10B 以下是一个范围,10B 以下的市场以后可能真的是从开源的逻辑去玩,几百 B 的就是从 API 服务或者定制化各种方式来卖。所以目前大概就是,要么越大,要么就 10B 以下,这是我目前观察到的。


关于商业化,这个也是我个人观点了,从开复的一个逻辑,就是说 AI 2.0 不能从重复 1.0 的问题, 1.0 有的公司比如商汤、旷视、第四范式这些公司。其实都是以所谓的 project based 的 profit 模式来做,也就是说反正我就给你搞个 CV 模型,然后去做一个解决方案的交付,这种方式会让最终的估值过高且无法支撑,所以最后进来的投资人会亏钱。其实开复老师这是从资本的角度了,因为他对资本的运作比较熟悉。


如果不去做这件事情的话,那反推回来,现在市场上也蛮多厂商都在做不同的大模型项目,可能零一在这方面没有那么积极去抢这件事,就像刚刚大家提到的,开源又赚不了钱。而且我们现在的开源就如罗璇说的,你到底是不是 open source license?因为像我们Yi的license,其实某种程度从 open source 的 license 角度来看的话,它也不算完全 open source 的。现在大家为了想取得一些商业机会,都会觉得原来的 open source 是不是有点问题?在新的大模型之下去改这些条款。当然这个也不是我改,我自己也在观察这个点。但是无论如何,你很难从开源赚到钱,不管你的条款像Llama改成那样或是 Yi 改成这样,其实在我看来广义上都还是开源,因为你无法直接从卖 license 赚到钱。


第二点就是他想要去做两件事情,这两件事情其实大家在座应该都想得到,要么就是做 ToB 生意,要么就是 ToC 生意。ToC 就是说做成产品大量去使用,零一也跟他的一些战略级合作伙伴在做这些事情。因为零一觉得他自己就是大模型公司,但是如果一家公司又做 a 又做b又做c,其实业务会分散。所以他是想把大模型这个能力给做好,然后找到一些战略级的,譬如说可能从资本面、从合作面非常紧密的合作伙伴,去主打不同的行业,ToC 或 ToB 。


第三点就是开复老师说过,我也是从他对的一些发言看到的蛛丝马迹,叫做一国一模型其实大家应该能理解,就是 Open AI很多生成内容不一定符合各个国家的法律、文化、认知观念,所以现在零一也在探索跟去做一些一国一模型的事情,这个其实开复自己也说过。而且开复的国际关系,可能他本来就有出海经验,所以他其实有找到一些海外,就是非美国阵营的第三方势力阵营的一些大模型,那这种项目就大了。它虽然可能还是一个 project based,但是这个项目一旦下去就是一个很大的工程,并且可能会分很多年来去做,这个就跟刚刚讲的 project based 有一点不同,这是目前我知道的。


RWKV 联合创始人 罗璇

我认为开源大模型的商业化一定是可能的,前提就是不要被 KOL 影响,或者说 KOL 说的观点不一定是对的,我们所有的事情都要回归到数学物理,回归到第一性原理的角度去思考。现在的 Transformer 是不是真的有问题?今年 3 月份 DTC 的会议上,黄仁勋也提到这个问题,他也在思考下一代的 transform 是什么,当然我不知道他会不会基于Mamba 去重新设计款芯片。但如果大家做商业化,这个问题肯定是现在需要关注的一个问题。

还有一个就是芯片,如果英伟达一直以近百倍利润去收割市场的话,那大家的商业化确实是很难的,因为你想赚的钱都被英伟达赚走了。那开源社区,或者是说开源的芯片有没有可能?基于RISC-V 的 AI 芯片有没有可能起来把 GPU 的成本打到现在的1%?这是我提的第三个问题,我觉得这可能才是真正的路径。如果大家都在照着 Gpt 和 Llama 的路线不断被英伟达收割的话,商业化的可能性还是比较小的。如果大家跳出这个思维模式,可能会有新的机会。



追问

Q1:

如果我们现在再去开一个 Data Infra 的project,你觉得我们去做它的手法跟以前有什么变化?

A1:

Datastrato 创始人CEO 堵俊平

对于data还是AI infra,我觉得这个还是要看一看。因为对于large language model 刚才也说了,它的情况不太一样,因为它很多东西不能开源,比如它训练的数据集,但是相对来说如果是 AI infra 或者 data infra 的话可能会容易一些。
经典的开源的推广手法有很多,基本上是通过推动你的社区成为一个 popular 社区,这里面包括有活跃用户、有开发者、有贡献者,就激励他们。总之,除了自己公司的力量之外,你需要一个大的社区帮你一起推动,我觉得这点上都差不多。
但是很不一样的点是,现在所有人的关注点都在 large language model,包括agent 或者application。那今天再去做一个 data infra,就像我们正在做的data 和 AI 的infra,那我们的关注点也是:除了存量的数据分析市场,我们会 continue 去 break down 数据孤岛,但是我们更会看一些新增的需求,比如看到一些信息的需求gap:传统做数据 infra 的人,系统的底子会更好;而做现在做AI 的工程师,他们更多是在做算法,科学家们有很多天马行空的想法和扎实数学的底子,但一般做system的engineering的底子实际是不扎实的。即便是你去大厂,像Facebook或者其他宇宙大厂也一样。因为做算法的这些人,他对于实现层系统的理解、对稳定性(Stability)、并发度(Concurrent)、健壮性(Robust)的要求,和我们传统做 data 的人是不一样的。所以我觉得满足AI工程师的新需求,反而data infra可以做的更多。
传统上比如数据库市场是偏同质化的,但现在你发现数据在AI领域会发现很多新机会在出现:RAG的形态到底是什么,是向量数据库还是像LlamaIndex这样一套体系?又或者这些都只是一个过渡形态?现在还很难看清楚。我认为这些个很新的东西,每半年或者3个月都会很不一样,所以新产品带有一定的不确定性,或者说一些边界比较模糊、比较自由的跨界产品,去跟开发者和最终用户交流来将形态固定下来,在市场上会有更好机会。这是跟传统的数据库、大数据产品很不一样的点。因为那些应用相对是比较固定的,而且有很多规则和API的限定,现在对AI,一切都不一样,我觉得现在是一个很好的创新机会。


Q2:

今天用户群可能不太一样了,有一些scientist也想作为用户,或者说作为 engineer去build application。Datastrato 服务的是这一批新的user吗?

A2:

Datastrato.ai 创始人 堵俊平
对,我们的确也会重点关注这一批新需求,这是一个上升市场。我们跟业界的不少AI Startup都建立了技术和商业联系,这方面的需求会越来越多。


Q3:

英骏这边 streaming database 更贴近实时业务,你的 user 很早之前就已经是很偏业务的 engineer 或者说是 Developer,你们这边有更早感受到用户群的变化吗?

A3:

RisingWave 创始人CEO 吴英骏

我们公司大多数客户都是enterprise,都是 fortune five hundred enterprise, main markets 这样,其实 SMB 不是特别多。SMB 肯定有,但我觉得主要是 streaming 这个概念相比于 batch 还没有那么普及。当然我觉得有一些是市场教育的原因。

总体来讲,我觉得现在整个数据市场都在变得大众商品化。之前我们想做一个数据库,Dev tool或者Oracle,这些都是不是一般公司能买的。fortune five hundred  60 年前 50 年前,可能就那么几家公司会买。但是到现在的话,真的是每个开发者人手一个postgres,像SQLite可能更普及了。所以这些数据库都被大众商品化。

我觉得 AI 比较好的一点是,被变得大众商品化的速度非常快,就像我们前几年可能没有ChatGpt,但是今天所有人都在用ChatGpt,这就是被大众商品化非常快的一个case。我觉得对于 enterprise 来说,我们没有见到特别大的公司完全不做数据的只做AI,我觉得它该做数据还是会做数据,该做 AI 还是会做AI。只不过他们可能现在有些钱做探索性项目的话,会去看一下AI。我也听说过其实有一些公司,就像我们 prospects 有些公司就会跟我们说现在可能要把这个项目暂停一下,因为我们要去看一下AI。但是对于绝大多数 enterprise main market,我们还是觉得是数据还是数据, AI 还是AI,没有那么多的融合。

当然我觉得可能国内不太一样了,我有听说国内可能一直在说数据上面还要做 AI 。但是对于我们来说,我们没有看到特别大的融合。但是对于应用开发者来说的话,的确会同时去看,今天我的确要用一个数据库,我明天想去探索一下AI,我这两点是完全会去同时看的。

我觉得对于做数据的公司来讲的话,没有必要太多地去关注今天是不是要去搞一个 Vector database,搞肯定会有一些attraction,或者说会有一些流量,最终 at the end of the day大家都是拼流量。但是我们必须想的一件事情是,我觉得对于我们公司说我是这么认为的;市场上的钱就这么多,如果在没有 AI 的情况下,可能你只要考虑数据库方面你的竞争对手,或者说其他一些赛道会怎么样,但今天 AI 过来的话,我们可能需要考虑的是 AI 和传统业务最大的不同点是它的资本利用率特别高。那么作为一个数据库厂商怎么把资本利用率提高,而且是显著提高?这是非常重要的一点。

像我们公司会禁止员工 manually 做一些事情,只能用 AI 来做。就这就是严格限制,不能让人工做事情,必须转成机器来做事情。我觉得这点才是对于数据公司来说最需要考虑的问题,就是怎么大幅提升自己的资本利用效率因为 at the end of the day 大家都是做公司的,不是在做福利的,我们都是在赚钱的。


Q4:

今天相对比较新、成熟度最高的 Niche market是 Jeff 在做的LT和制造的industry。Jeff 可以聊一下现在在你在的市场前线对LLM 的 adoption 程度吗?

A4:

TDengine 创始人CEO 陶建辉

我无论是在中国还是在美国,接触的大部分都是传统制造业,包括电力公司、石油公司,这些公司也在讲AI、讲大模型之类的。但是对于制造业还有这些传统产业,目前来看 AI 对他们的提升极其有限而且好多人都认为这是乱花钱。因为以前在 16 年、17 年的时候他们搞了一次AI毫无收获,现在又来一波,所以觉得有点犹豫。因此从整个传统工业界来看,我讲的就是制造,包括石油、电力,对这个东西没有那么热忱。

我最近在湾区见了至少五六家公司想把AI、把大模型用到工业数据上做处理。我不看好任何一家,因为他没有给客户带来真正明显的价值。不像生成式AI做个视频、改个PPT,效果太明显了,但工业的那些,比如电力行业、石油行业,它带的效果极其有限。


Q5:

RWKV现在的商业化主要是做什么?

A5:

RWKV 联合创始人  罗璇

我们不是一家大模型公司,我们是一家神经网络架构公司。我们做的是替代 Transformer 的一个神经网络架构。所以我们可以做生成式AI,可以做大语言模型,也可以做其他的。我们可以做很多东西,不一定要做生成式AI。我们现在商业包括两块,一个是ToB,一个ToC,其实现在都有收入。具体讲来说我们在做时序预测,它不属于大语言模型。我不需要拿到生成式 AI 的备案。


Q6:

跟其他做大语言模型或者 AI 的公司,还有聊到别的商业化的产品或者服务形态吗

A6:

RWKV 联合创始人  罗璇

当然,现在有很多出海的,大家认为国内的 PMF 不好,那我做海外是不是也有机会呢?比如说大家再调 GPT 4 去做一些,比如说角色扮演,可能能够拿到一些商业化。
还有一点,如果你把数据交给一家云平台公司,那就意味着你自身并没有产品,因为在未来 AI 新的市场上面, AI 或者说大模型的应用本质是一个 fine tuning 的模型,如果你不掌握这个 fine tuning 的模型,数据不在你的服务器内自己闭环的话,你本身不是做应用的,你本身是帮人做流量的。
所以我认为现在出海的一帮人,如果你的数据不在自己体系内的话,是很危险的,你只是做流量分发。如果你的数据在自己的平台里,并且能够跑出正向循环的话,我觉得是有机会的。



PART.03

应用层面研讨



应用层对Open source software、Infra service和大模型有什么理解和期望?




Traini Arvin

我是Arvin,我们公司叫Traini,我们专注解决宠物领域的问题,现在主要专注在宠物的行为问题。
这个问题,我觉得对于如果我们不去涉及,只是在应用上去考虑的话,其实我们不太 care它是不是开源。哪个效果好、成本低,我们就会用哪个,准确地讲很多的时候我们重点考虑的是:第一,工程往里接的易用性,让我们减少开发的成本;第二是这个大模型本身的能力怎么样比如现在像OpenAI,像包括现在 3.5 或者4,虽然它有优劣势,有的小模型可能比它的优势还好,但是像我们可能没办法一下把所有的都接进来,可能我们也不会把所有的都接进来,因为中间很多的工程过渡,对于我们来说是一个很大的挑战。我们公司规模特别小,现在有很多做中间件的公司,我们有可能会考虑跟他们合作。
另外一个就是大模型虽然能力很强,但是它到了垂类有很多的 dominology或能力不足的时候,它可能输出不了你想要的东西。那怎么样去保证用户体验?这就成了我们另一个要思考的问题,比方说服务怎么推荐?除了文字的 solution 之外,有没有别的交互方式或别的 solution 可以帮助用户?这些就是我们会重点考虑的。
最后一个就是,我们会考虑大模型会不会对创业公司有支持,例如有没有credits?有没有免费的东西?以及它这个社区的生态是不是成熟?对我们会不会有很多可能包含产品的传播、技术的引导指导?就像为什么大家语音可能都喜欢用AWS,是因为它的生态很成熟,用起来也比较简单。如果真遇到什么问题,可能到网上一搜就有很多solution,就不需要去为了一个新的东西花很多的时间,这是我们考量的。
另外一个我们自己也在考虑,一个是要不要做垂类的模型?第二个是垂类的模型怎么做?第三个就是做了如果起来了之后,要不要开源?如果开源要怎么开源?我们自己最终还是决定做一个小的垂类的模型。因为现在的大模型虽然在数据处理上能够支持,但其实到具体的应用方向,或者说想输出的结果的时候,他可能就达不到我们的预期,这种时候我们还需要自己去做。与其这样,我们不如做一个自己的模型,形成独特的优势。例如狗狗的叫声、身体的语言、行为,以及跟产业比如跟医生、跟药、跟服务、跟用品的采购,所有的东西都搭建在一块。目前这一块是缺失的,那这里边怎么构建?这其实是我们在想的。
我们从来没有想过说非要把它做成像OpenAI 一样,必须得是Transformer,要影响全人类。我们觉得能影响全球养狗养猫的用户,让他们更好地和宠物去交流,能有前后的交互,我觉得我们就成功了。


大厂游戏项目AI负责人

实际上对于大厂内部,包括其他公司的其他业务应该也是类似的,包括字节那边都是,我们不是很在乎到底用谁,核心还是在于说得先把产品本身的功能体验给做出来。
其实刚才大家已经讨论到了,不是真的要求很严格的场景,小模型已经够了,而且小模型有定制化层面的一些优势。所以我们现在本身在做业务的时候,对模型的选取,或者说一种技术栈的逆推,更多是说先从业务端去逆推一些产品原型,然后从产品原型去逆推agent架构,这边我专门提agent架构这个词,agent架构基本上就能决定哪一个模块要用到多大size的模型,哪一个模块可能小模型就够了,然后这个小模型它所属的模块的输入输出是怎么样的格式?然后你可能需要去做什么样的SFT?这些都会在产品那边去推算,因为我本身是算法跨产品,其实这个架构是基本上是我来推。这个确认之后,还是得找正常拉大模型的 API 去做接入。当然这些部分一般都专门得选那种对延时性要求不高的,因为现在哪怕包括微软那边的 GPT API,实际上它的延时也不能完全保证。尤其考虑到并发性的情况下,虽然现在在加产品原型的时候可能并发性还好。然后小模型这边就正常,我们会自己来搞。
所以我们现在基本上在业务端对于开源模型的需求还是挺旺盛的,主要也是因为现在闭源厂并没有提供足够鲁棒的 SFT的 SaaS 服务。前几天我本来专门还升级了他们的 SFT 服务,那个东西反正之前是不够好用。所以我估计在相当于一段时间之内,即使我们作为大厂业务端,也没有办法完全摒弃对开源生态社区的需求。而且我更我也很赞同刚才几位老师提到过的一点,开源小模型应该会成为一个独立生态,他不会是针对完全一样的需求场景去做。

AGI降临派 Founder 孔祥来Tom

我觉得开源社区还是要看能力你觉得自己是超一流的开源社区的人的话,那么你可以做模型。比如说我们所看到的 Pika,然后Kimi,或者是最近写歌的Suno。但是我接触的很多的开源,像刚才有一位嘉宾说了,它是一个数据科学,它it不行,这方面限制它应用的落地。

但是有一类开源社区的人,他有很强的 it support,迭代了很多应用,就是包括 stable diffusion和其他一些应用,他们迭代了很多APP放在网上,因为他们没有很强的产品的人,所以他们做快速迭代,两天做一个,确实有很火的应用出现。他们迭代能力强,所以赚了很多钱,比如说几十万刀一个月。
还有就是如果技术能力很强,就是做support,但是做 support 的人我们也聊过,总而言之就是很苦,上下游都在挤压,然后你要做生态,做各种插件,然后做各种生态整合,还要到开发者中不断地宣传自己,这些人都非常苦,所以大多数人都在开始往应用方面走,去某个行业的具体应用。
我举几个例子,我们降临派有各个行业的定期讨论,以教育为例,比如说数学,这个其实也基于一个原理,就是现在闭源模型放上去还没有那么强的能力,这是可能是有机会的,以小学为例,小学数学最难的是应用题,它有逻辑,比如说甲和乙来回地走、谁先走 3 秒钟、速度是几倍、又在哪里碰头这种,这种数学不难,但是理解难。这种需求很多,就有人在做很多微调模型嵌入到这个场景当中,然后整合到教育系统里面去服务于 primary school。还有比如说 e Commerce 方面,最近美国税法改了,结论就是亚马逊原来允许用户寄 letter 到客户的 address 去,很多人是拿这个做评价的,但是现在 address 都不公开了,所以很多人评价就下来了。但评价是电商能卖多少的唯一指标,所以大家做加强客服,就是说我怎么样在产品上让 AI 能够让用户更好了解我的产品怎么用。很多 customer service 最近的需求非常之大。但是如果你不是很了解亚马逊卖家的这一套操作 SOP 的话,你是不可能做出很符合他们胃口的应用的。
那么所以我们聊了很多开源社区的 engineer,他们的痛点还是在与跟产品经理过于遥远,就是没有产品思维。如果你的技术能力只是average,那么很可能你往某个领域跟产品经理多聊,是一个很好的方向。所以我们也是致力于把这个开源的人和产品经理接在一起,做很多讨论。确实我们也看到在一些行业,不是那么 critical 的行业,是 creative AI 的行业,有一些落地的迹象,这个是我们所观察到的。

PlatoX.Ai  Hunter Wen

基本上前面 Tom 和 Arvin 说的,我个人基本上完全同意,或者说我可能换一个角度,补充上我自己一些真实体会跟真实的案例。第一就是,不管你是开源还是闭源,可能对于我们目前做应用而言,你的能力是最重要的。道理也很简单,就是没有人愿意被你的用户觉得你就是一个 GPT wrapper。当你的应用看起来不聪明的时候,你不能去怪模型不聪明,那用户跟客户只会怪你的应用不聪明。所以我们天然的一定会去选择目前比较聪明的一些模型,或者能力更强的。那能力更强的目前基本上毫无疑问 Open AI 是还是比较领先的。所以我们现在应用底层还是会比较优先去用 OpenAI 的一些模型。这是第一个,基础的能力。
第二个是创新速度。因为像刚才说的,你底下要依赖LLM 能力,现在我每天晚上都睡不好,因为很多事情 changing overnight,你不知道今天晚上亚洲时间美国白天又发生了一些什么事了,并且我们做应用现在大家又挺卷的,因为现在很多东西门槛拉下来,大家就跑得很快。所以说你的整个创新迭代速度某种程度依赖于你的模型的创新迭代速度,那么现在谁比较快?我个人也比较认可,刚才我记得 Jeff 和东旭都有提到过,开源可能在某一个阶段爆发力没有那么强,可能它逐渐会释放出这种社群以及聚合大家的能力,去 fix 他自己的一些问题,或者说持续创新的能力。但说实话这是一个比较慢热的过程。所以说句不好听的,我们现在如果在短时期内要非常快地去卷其他竞品,你就要依赖于、或者说要去跟这些也比较卷、也进化比较快的模型走在一起,那现在看起来还是闭源确实跑得更快一点。这是第二件事,就是创新速度。
第三个就是你的整个 learning curve 和你 deployment 的复杂度。小狼刚才问的一个问题,我个人觉得是值得商榷的,就是说你刚才问线上有没有做engineering的?我们现在团队的结构再往下发展会进入一个很邪门的状态,就是我们的产品经理逐渐开始比工程师更多。因为你会看到利用模型做应用的话,你不管写 prompt 或者说将来 prompt engineering 这个门槛逐渐往下走的话,你真正最重要的是提炼、总结跟表述你的商业需求,并不是工程化的实现能力。我说从做应用的角度,不是说从大模型的角度。所以从这个角度而言,什么东西变成了一个我们不愿意去背负的一个壁垒?就是模型,特别是开源模型前面的deployment。比如我问团队说我们为什么不试一下drop?团队说那么大,我们现在不愿意付这么大的成本去 deploy 这样一个开源模型,甚至连测试的成本我们都不愿意付出去。而且随着我们整个做应用这个团队的结构变化,可能更加面向应用、更加面向商业的产品人员比重甚至要多过工程人员比重的话,我们做这个事是越来越不可能的。这是第三件事情,是跟着你做应用的团队结构,导致在一些比较高门槛的 deployment 或者特别 engineering 的部分越来越难以去投入。
第四件事情是,我们从商业的角度算 ROI比如说我们自己在好几个领域都在快速地用 MVP 去测试用户、客户以及市场需求。那么当我搭 MVP 的时候,我左边是快速的、比如OpenAI 的 API 调用,右边是我可能要去 download 一个巨大的模型,然后去 tune 它,去把它 run 起来,然后去看它的效果,去测试或者怎么样。其实去搭 MVP 哪一个 ROI 会更高?或者哪一个整个见效时间、前期投入更短?目前对于我们做应用的角度而言,它也是显而易见的。
这边其实还有另外一个事,就是关于整个技术的支撑和技术稳定性的问题。我们曾经有一段时间一直在跟微软谈,为什么呢?其实连 OpenAI 本身提供出来 API 的稳定度都不一定能满足我们做应用的前端用户的需求,所以我们也一直在等类似于 ChatGPT 4 的对等模型在 Azure 上面什么时候出来,以及什么时候能有各种能力?多模态什么时候出来?等等。我们就想快速切换到微软的 Azure 版本上,因为这个从工程的角度稳定性更强,这是做应用很现实的诉求,因为最终我们的应用面对用户跟客户的时候,整个稳定性、聪明程度、跟这个市场的匹配程度要最高,而不是说去测试一个开源的或者一个新的模型它到底有多么好用、technical 里有多么advanced。
最后一个,纯属个人感觉,开源在什么地方可能比较快地应用上去?就是可能这些比较小的模型有可能快速应用到端侧。在一些垂直的领域,以及说在比如高合规或者高隐私保护等等这样一些领域,我个人现在感觉可能开源社区里面一些更小的模型会比较快。
但反过来更加通用的大模型,我刚才就说的四个点,就从我们做应用的角度,你的选择甚至不会太难。第一是模型现有的能力,包括说你聪不聪明,以及整个多模态的能力;第二你的创新速度;第三你的整个 learning Curve 和部署的复杂性;第四你做 MVP 的现实的 ROI 测算。


追问

Q1:

业务侧在 adoption 模型时,在你 agent 架构下对 Infra 或者 Data 有什么不一样的诉求吗?

A1:

大厂游戏项目AI负责人

其实在这个阶段可能不明显。因为在应用端,在大模型应用形态上到目前并没有一个很好的解,因为如果有的话肯定大家都赚钱,但现在大家都在疯狂地去找应用场景。已经确定的基本上就两大类,一个是 Copilot 一个是character,没有出现太明显的细分领域。
现在在应用端,大部分公司和团队还没有到需要考虑太多量的阶段。甚至包括我自己在内都还是在恰原型,最多是 Alpha 版本,所以对 Infra 这边的需求实际更多是数据的需求,数据管线的需求,包括你怎么获得、怎么洗、怎么迭代、甚至包括标注,因为真的到业务端很多数据是合成不了的,我们也用过,不管是用 Gpt4 也好,还是其他 API 也好,去尝试合成,真的不能直接用,这跟以前那个时代不太一样。SFT 是一个对业务数据极度敏感的一个阶段,它跟 Pre train 阶段还不太一样。
所以说这一块你会感觉特别像产品活,还不这么像一个工程活。在训练阶段,因为是小模型,我们以 20B 为一个分水岭,20B 以下即使是做 SFT ,充其量也就是并行四五台、三五台独立的 GPU 服务器就够了,甚至像再小一点场景,如果你是 14B 以下的,只是做Lora,那单G都够了。所以说很多时候底层的Infra,它在模型这个阶段并没有太高的需求,主要是在数据管线阶段。
还有一个就是,应该有一些创业公司应该已经在做,有甚至做得不错的,就是部署阶段,应该还是比较吃工程的。部署阶段还是有可能出现对模型架构的改造,以及一些数据问题,就数据query的并行, dynamic batching 这种方法,这个其实比较偏后台和机器学习工程师结合的智能。


Q2:

以前大部分业务无法 adoption AI 的原因可能是数据量不够和原先数据比较脏,大模型出来之后是不是部分填平了原先数据量不够的问题?

A2:

大厂游戏项目AI负责人

填平了绝大部分。我直接说个结论,这个在应用端工程师应该是个共识了,就是大部分的小场景,尤其是如果你们有一个不错的 AI 产品,因为有 agent架构的关系,实际它会把整个业务流程对 AI 这边系统的模块拆分得相对比较细,拆成 agent 的一个 workflow 流。单个 LLM 输入输出的需求是相对比较高内聚低耦合的状态,所以说这一块实际上我不会要求模型本身特别泛化的功能。SFT 的一个 knowhow 是在这类场景里面,实际上它不太需要太多数据。像我们几乎就是千量级的一个数据集,就已经可以做第一步的 SFT 了。当然有一个要求是这个千量级的 SFT 数据集它得足够的denoise,所以它必须要人去过滤,哪怕它是合成的,它也得人去过滤以及做后处理。
因为在 SFT 阶段,是一个算法层面的knowhow,就是 SFT 阶段相比以前纯粹的 from scratch 去训练神经网络,模型会变得特别的敏感。一个 nice sample 可能得 10 个 good sample 才能把它给掰回去,所以 nice sample才是在创建 SFT 阶段的核心。说白了quality is far more important than the quantity, 就不再和以前一样了。所以从这角度来说, SFT 阶段实际上对产品 sense 或者说业务 sense 的需求,实际上远高于工程层面的合成产量,所以这也加速了我们作为业务端能够快速把这种先进技术给用上的进程。



PART.04

附加讨论



为什么要开源




MeridianLink Director of IT Security Audit Wickey

我是Wickey,主要是做合规创新这一块。我今天想问一个问题,就是在做大模型应用层的话,大家为什么对这个开源这块比较感兴趣呢?因为如果说是做 wrapper 或者说是用 API call 的话,其实做 MVP 的话可能更成本更低一点,而且迭代会更快一些,更加能很快地验证市场,又便宜,所以我这块没有想太明白,想听听大家的意见。


PingCap 联合创始人 黄东旭

我稍微说一下。比如简单来说,我现在自己在做的一些 AI 的应用,我让他帮我发邮件、帮我聊天、帮我总结日历等等。这些都回避不了一个问题,就是我一点都不想让 Open AI 知道我个人的数据。我觉得这是我核心的出发点,就从我自己作为一个应用开发者的角度来说。


MeridianLink Director of IT Security Audit Wickey

但是这个问题其实  Open AI 已经解决了,就是你去用它的时候,你可以告诉它你的数据不用在他是以后的用途里,但是你的问题在开源是也是解决不了的。


Datastrato 创始人CEO 堵俊平

很有意思的是,从我们前段时间在美国服务几个最大的客户的经验来看,他们并不像你们想象的那么信任第三方的大模型公司(包括Open AI)。基本上Global 500 的公司没有人会把自己生产环境中的业务数据喂给外部大模型,大部分大模型公司的客户都是个人行为。真正的企业应用application,大家是不会把自己的数据喂给OpenAI,虽然 OpenAI 承诺保护隐私之类的,但是真正的big name还是选择用自己train或者fine-tune的大模型。
为什么大家要用开源呢?因为它会基于Llama 2或3以及一些其他模型来训自己的模型。这对于开源大模型生态的成熟,反而是一个很好的机会。因为这些头部公司真正最核心的生产系统不会用这种 API call,反而会快速接纳和吸收开源大模型的能力。当然,startup认为用OpenAI无所谓,或者个人开发者也并不介意。


大厂游戏项目AI负责人

我说一个除了合规以外的一个点,这个可能会更偏研发层面一点。首先我先补充一下我个人背景,我是某大厂游戏项目负责人,我专精的领域是应用里面的 AI 游戏。游戏在这个问题上面可能会更加突出一点。实际上刚才有人也说过了,其实在做MVP,或者按我的语境就是做一些产品、包括游戏到 Alpha 版本的时候,包括我也跟国内外很多 AI 游戏的创业团队都很熟,其实我都个人personally跟他们建议说 Alpha 版本就不要管自研,因为那个时候不太可能会直接起量。而且像游戏这种本身产品架构就复杂于一般产品,它更加需要快速迭代设计层面的一些东西,你再去折腾那个是不太可能的。

所以我也比较认可,你构建 MVP 或者原型验证的时候,可以直接先用公有的API,不管是用 Claude 3还是用GPT4,但是当你进入到实际要考虑成本,考虑延时性,考虑可控性,会马上遇到一些明显的问题。在游戏这边,甚至这个问题会出现在 Pre Alpha 阶段,也就是你在做原型的时候就会感受到,(这是我个人的一个理论)首先prompt 不是一个资产,而游戏或者说我们的产品迭代要基于资产。什么叫prompt不是资产?当你 fix 了一个 bad case 之后,或者说在其他模块做了调整使 LLM 模块要做对应调整的时候,它没有办法很好地迭代之前的东西。它更多的是操作过程的具体化、数据化,很难去做增量的价值更迭。
在这个角度之下,尤其是在游戏里面,因为游戏的场景实际上跟现有大部分公开的 API 对齐方向不太一样,尤其是我们自己本身的 agent架构 相对比较偏复杂,中间会很少的 human loop,这就更加要求LLM在输入输出端要有比较稳定的、比较可控的范围,这个时候这个问题会进一步放大。所以我们实际上是做着做着就自然而然过渡到得在某些模块用开源,这是逆推的一个结果。


本篇内容完整版也可以点击阅读原文进入出海同学会知识库阅读




本期笔记整理员:莎莎、Xinyun


编辑:李小明
@明说开源
继续滑动看下一个
明说开源
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存