进了VC这行你会很快了解到一件事,那就是投资就是寻找护城河的过程。为什么?我找不到比Gil Dibner的这篇文章更好的诠释了。
简而言之,VC要寻找未来5到10年有可能价值数亿乃至数十亿美元的公司:
预测未来现金流是预测估值的代理,
产生利润的能力是预测未来现金流的代理,
护城河是产生利润的代理。
为什么护城河是产生利润的代理?很简单,因为护城河提高了机构对供应商和客户的议价能力,帮助该机构提价降低成本一边产生更高的利润。这个简单的推理的结果就是VC要找能挖护城河的公司。
在市场(marketplaces)发挥作用的网络效应就是护城河的很好例子。AirBnB上面待出租的地方越多,需求跑到这个平台的可能性就越高,然后又会吸引甚至更多的屋主把自己的住所放到AirBnB上面出租。形成闭环。
这种机制导致了赢家通吃的状况,这种情况下通常市场的最大玩家要比竞争对手大很多。简而言之这就是投资者如此钟爱市场(marketplace)的原因。如果你足够幸运选到了市场赢家,就有很高的机率拿到高回报。
AI公司为什么如此特殊?
有趣的是,AI带来了一种新型的网络效应,有人称之为“数据网络效应”。机器学习算法需要数据才能工作。尽管这种关系不是线性的,但机器学习算法完成的预测/分类的工作随着消化了更多的数据而增加了准确率。
下面的机制是这样的:随着公司增加了更多的客户,它就可以从每一位客户那里获得更多的数据来训练和调整其算法。有了更多的数据,预测的准确度就会上升,产品整体质量也会水涨船高。一个更好的产品帮助说服新客户购买自己并为之贡献他们的数据。闭环形成。
很好的一点是这种机制帮助AI公司朝着客户采用周期前进。早期采用者对最初的bug或者次佳性能容忍度更高。通过贡献他们的数据和反馈,早期客户帮助AI初创企业开发出更好的算法并且将后期阶段采用者发展为客户。
起作用的还有另外一个自我强化的反馈回环,我们称之为“人才吸引回环”。公司拥有的数据越多,对数据科学家过来这里为该公司工作的吸引力就越大,因此团队吸引好人才帮助开发出最好ML产品的机率也就越大。
Yoshua Bengio的这段话就是很好的总结:
AI技术本身就适合赢家通吃,[……]主导该技术的国家和公司会随着时间获得更多的权力。更多数据以及更大的客户群会赋予你难以的驱赶的优势。科学家想去最好的地方工作。有着最好实验室的公司会吸引最好的人才。然后变成财富和权力的集中地。
问题是初创企业一开始并没有(或者很少)数据,只能靠少量的有才之士,大多数情况下只能靠创始人单打独斗。就像市场的网络效应需要时间和资源才能生效一样,AI公司的强化循环要想发挥作用也需要原始数据。
那么谁拥有数据呢?
既有者。
所以一些产业观察者已经指出,既有者拥有驾驭AI浪潮的不公平优势(更多参见对Marc Andreessen的采访)。
对于AI投资者来说好消息是情况并没有这么简单。接下来,我会简要描述一个思考既有者AI优势的框架。
I. 思考既有者优势的框架
一个简单的方程式也许可以解释AI公司成功之处在于:
AI成功=数据+ML人才+算法
说白了,成功且具备防御性的AI公司拥有“足够大的数据集使得ML人才能够用来创建最好的算法。” 美股人工智能公司 bubq.com
思考既有者在AI方面的优势有一个办法很有用,那就是看看下面这个2X2矩阵,横轴是每用户案例的数据量,纵轴是处理该案例的公司的性质(技术还是非技术)。其想法是看看既有者和初创企业应用这个公式的结果如何。
如果用例是由大型技术公司处理的,而且每一位潜在客户都有大量数据,这种情况下既有者的优势是非常强的。除了典型的既有者优势以外(接触客户,投资能力更大,更输得起),大型技术公司还坐在需要好几年才能积累出来的数据堆上面。
他们还受益于自身品牌和庞大的财政资源,可以付得起聘请最好的机器学习人才,后者再给他们开发出最好的算法。既有者得分:3/3。
这种情况下新的初创企业很显然不应该跟技术既有者硬碰硬。这就好比是从0开始追赶Google。
但既有者的优势不只是强在这里。再看看矩阵右下角。这部分是由非技术公司来做但每一位潜在客户也已经坐数据堆上的。比方说高速公路运营商,手上就掌握了多年的收费数据。
历史已经证明,数据甚至比算法本身还要重要,尤其是自打深度学习出现以来。这方面Edge的这篇文章给出了有趣的证明:
关键算法与取得相应进展之间平均要经过18年,而关键数据集与取得相应进展之间平均只需不到3年的时间,也就是说取得成功要快6倍,这说明数据集可能是取得进展的限制性因素。
此外,大型技术公司在继续开源新的ML包,因此将算法商品化,尤其是对象识别、语言建模或者语音识别等——我们称为泛化ML这些算法。由于由于泛化ML,坐在数据堆上的非技术公司利用技术公司数据集预先训练过的开源软件包也能取得重大成果。
概括一下,大型公司,无论是否技术公司,可能内部也没有顶尖的机器学习知识,也是可以比拥有最好ML专家的小型初创企业做出更好的AI产品的。这只是因为它能比小型初创企业访问到更多的数据。
比方刚才的例子里面,高速公路运营商就可以从很多竞争性优势种获益,可以保护它防御原始数据很少的小型初创企业的攻击。
因此,我们在这个公式里面也许应该赋予数据以比ML人才更高的权重:
我们再来看看矩阵的左上角:每位客户只有少量数据,但这些板块是由大型技术公式负责的用例。一个好的例子是预测销售线索成为客户的可能性(lead scoring),销售线索得分)。每一位潜在客户并没有足够的数据来用泛化ML做出足够好的预测。
他们每一位都有数百个数据点以及数十个预测因子摆在CRM或者营销自动化工具面前。这个有可能是不够的,或者会导致对公司数据过的拟合的风险。
他们因此需要购买基于大数据集开发的产品。然后问题就是CRM提供商是否销售这一产品的买家,还是说初创企业更适合。
这里既有者的优势就没那么明显了,而对于初创企业来说可能仍然有许多机会。
尤其是如果他们能够:
组合大型技术公司所没有的不同数据源(比如Salesforce就访问不了Hubspot的数据),或者
生成额外的专有数据(下一部分进一步讨论)
矩阵的左边区域也许是最大的机会所在:就是没有大型技术公司涉足,客户也访问不到足够大的数据集用泛化ML足够好地进行处理的左下角。农业和医疗保健就是很好的例子,这些领域大型技术公司还没有统治市场,每一位客户都只有少量的数据。
接下来,我会进一步讨论矩阵的左边,尤其是左下角的情况。
III. 新的护城河
好消息是,因为新公式“成功=数据*数据+ML人才+算法”的关系,当数据量还很小的时候(比方说,小于1时),其影响就要比原先的公式更有限。ML人才和算法也会对输出产生更大的影响,而既有者的不公平优势也要少一点。
其直接后果是有了合适的机器学习人才以及创新算法的初创企业有机会在数据稀缺的市场中成长起来。
以下是克服这种稀缺性问题的三个办法,值得注意的是它们并不互斥。
#办法1:从很多客户处收集数据
虽然单独来看每家公司未必拥有足够大的数据集来开发出很好的AI产品,但是可以将来自若干客户的数据集池化的AI初创企业也许会成为唯一一家能够开发出符合其期望产品的公司。每一个玩家都会交出他们的数据,从而受益于经过更大数据集训练的算法。
可以把SaaS解决方案视为组合多个温室数据并从中得出最佳预测的温室。每一位温室主人可能都没有足够大的数据集,但却能从做出更好预测甚至控制整个温室的AI代理中获得巨大好处。
Tom Tunguz提出了一个有趣的对照,应用了广告技术界的一些经验。
#办法 2:智能系统
如果我们再进一步推理一下,大型数据集之所以不具备的另一个原因是因为不同客户之间不仅是相互孤立的,而且在不同的SaaS工具(其中一些是互动系统如网站、Slack,一些是记录系统如营销自动化工具、CRM)之间也是互为孤岛的。
AI初创企业可以在不同的数据集之间牵线搭桥,占据做出最佳预测的最好位置,就像Greylock 的Jerry Chen 在一篇文章中所说那样,成为智能系统(System of Intelligence)。
我们可以再考虑一下CRM的用例。难道销售线索对市场宣传资料的反应方式不是购买可能性很好的预测因子吗?问题是Salesforce并没有这方面的数据因为被锁进Hubspot的数据库里面了。
类似地,Hubspot也不知道销售线索在销售管道中已经发展到哪一步了。因此,鉴于在这个市场数据是稀缺的(矩阵的左侧),Salesforce或者HubSpot都没有处在做出最佳预测的合适位置。而基于这两家的数据库进行预测的AI初创企业就可以用这种策略击败Salesforce和HubSpot。
思考这个的一个好办法是将数据集视为价值链的补充资产。新的,似乎无害的AI初创企业可以跟既有者永远也不想合作的公司合作,从而打造出保护自己的互补资产。
或者换种说法,任何依赖于单一来源的非专有数据的公司其防御性要比集合了若干来源的公司要低。
到头来,一切都回到这个问题的回答上来:“谁用我的数据赚钱?”是生成数据的公司吗?还是存储数据的公司?或者在这些基础上作出最好ML产品的公司?
对于AI初创企业来说这并不是什么新鲜事,但随着大家意识到自身数据的价值后,大家对AI的看法就会完全不一样了。就像Twitter干掉了所有开发替代性Twitter客户端的公司一样,Salesforce也可能会干掉任何从自身存储的数据获取太多价值的初创企业。
最后一种情况可以解决这一数据所有权问题。
#办法 3:拥有用户生成数据的独特数据集
如果一家公司无法从多位客户或者从多个SaaS工具收集数据,或者光收集这些并不足以做出足够好的预测的话,则可以从自己的SaaS产品生成额外的数据。这是开发出奇特既有者没有的专有数据集的独特机会。
IV. 学习曲线
整个推理都可以通过绘制学习曲线来概括。这条学习曲线描述的是:“需要多少时间、努力或者资金来实现足够精确度,从而满足客户的‘期望’?”
当数据并非稀缺的时候,学习曲线是这样的:
公司只需要很少的时间、努力以及资金就能得到足够多的数据来满足客户期望。因此防御性相对受限。当使用数据已经公开时尤其如此。
相反则是数据稀缺的情况,这种情况需要大量的时间、努力以及资金,曲线可能是这样的:
在这种情况下,需要大量时间、努力以及资金才能获得足够高的精确度,所以防御性也很强。
由于客户可能不愿意贡献自己的数据,数据网络效应要经过很长一段时间才见效,所以防御性会更强。
但要强调的是,这些情况均属于非常理论化,只是为了提供一个思考源自数据网络效应的防御性的框架。
数据稀缺这种情况也许会带来很强的防御性,但可能也会比较难熬,因为公司需要等到A轮之后才能满足客户期望。
作为种子轮投资者来说情况也比较艰难,因为我们不知道种子轮之后曲线会怎么发展。这些曲线看起来像是S-曲线,但实际走势可能不一样。产品是否足够好到为客户提供价值的不确定性依然存在。
最后一点是ML防御性和SaaS防御性不是互斥的。除了源自数据网络效应的防御性以外,非常长的产品路线图以及出色的UX或者用户/数据锁定仍然是一家公司防御性非常重要的贡献者。
NVDA AMD INTC AMZN VERI 美股人工智能公司 bubq.com