几年前,大数据还只是新兴概念,现在数据早成行业和公司眼里的香饽饽,从底层基础平台,中间层通用技术,到上层行业应用,大数据产业链条日臻完善。
作为马云口中构建未来智能世界三个最主要要素之一,大数据自身是衍伸发挥的生产资料来源,而对数据的存储、计算又是整个大数据生态的基石,底层基础平台主要就解决这个问题。
而论及底层技术Hadoop领域,就得说到明星公司Cloudera,今年4月底已在纽交所上市。代号 CLDR
Cloudera是首家将Hadoop商用的公司,以提供开源Hadoop发行版起家,通过解决部署安装过程中各样的问题盈利。如Cloudera Manager就是其核心付费产品,它能帮企业管理Hadoop集群,包括部署、和对节点、服务实时监控。约80%的营收来源是以这种软件订阅模式,订阅期通常为1-3年。小部分靠人力支撑的服务获利,如提供专业服务、培训等。
2008年成立的Cloudera可以说占据市场先发优势,但随着时间推移,入局者增多,市场竞争变得愈发激烈:同类Hadoop玩家有MapR、早于Cloudera上市的Hortonworks等, HDP 还需面对亚马逊AWS、微软Azure等云厂商,及传统数据库厂商的竞争。
对此,Cloudera首席技术官Amr Awadallahg的看法是,这块市场很大,IDC预测到2020年总规模会达到2000亿美元。他向着重强调了公司技术方面的优势,如产品方面持续创新,及有全球2600多家合作伙伴,有利共同打造垂直行业解决方案。
恐怕最让Cloudera忧心的还是像AWS这类云厂商,对企业而言,用亚马逊、微软提供的公有云或私有云服务,再延伸至底层基础技术产品,可能就是水到渠成的事,巨头布局生态就有这种好处。对此, Awadallah坦言云基础设施供应商既是合作伙伴又是竞争对手。
合作方面,Cloudera的客户是以云厂商提供的基础设施服务为基础,运行Cloudera软件,Awadallah透露这样的客户数量正快速增长。面对巨头同样涉足底层基础技术解决方案,Awadallah认为Cloudera的优势,一方面是公司技术的专注性,另一方面能将解决方案与行业客户具体实践相结合,更注重企业客户具体需求。若从长远角度考虑,Awadallah觉得企业客户会担心将人工智能等关键知识产权全然锁定在云服务供应商专有机器学习的算法里,有取而代之的风险,而Cloudera的好处是平台可迁移、移植,跨云甚至是跨环境,另外开源算法有助企业客户加以分析、甚至改进,以确保差异化竞争优势,把核心掌握在自己手中。
大数据行业正处在风口,有不少创企在此聚集。以底层基础平台为例,国内做该细分领域的有专注Hadoop发行版的星环科技、红象云腾和天云大数据,有传统数据库厂商人大金仓和南大通用,有研发新型分布式数据库的巨杉数据库,还有唯一来自中国的Apache社区顶级项目Kylin背后公司Kyligence。硬件厂商巨头华为也提供Hadoop发行版。
Awadallah是Cloudera团队创始成员之一,他指出创业是有难度的事,任何创业公司都有三点需要考虑。
首先,创业之初必须找到切实可行的使命和目标,解决一个非常真实的问题。如Cloudera就希望利用数据解决今天无法解决的问题。其次,正确的团队很关键,除了有行业优秀人才、努力工作的必要条件,还得注意团队文化的契合。第三,有非常清晰的发展目标和阶段性目标,月度或季度评估目标节点,灵活变通调整。
针对大数据、机器学习、人工智能领域的创企,Awadallah则建议不要再做像Cloudera九年前已经做过的事,即别创建底层基础技术平台。而是要把注意力放在已有平台基础上,利用机器学习、人工智能去构建各种各样的应用,服务如医疗健康、农业、制造业、金融服务等行业需求。
Cloudera2014年已进入中国,目前有中国联通、中国银联等客户。
以下是对Cloudera首席技术官Amr Awadallah采访整理:
Q:现在Hadoop应用比较多,怎么让客户在使用Cloudera产品上更有黏性?目前国内也有一些像星环这样做Hadoop架构的企业,Cloudera有哪些竞争策略?
A:首先,现在Cloudera的解决方案和技术绝不仅限于Hadoop,Hadoop是我们起步之初的解决方案。公司在2008年创立一开始的时候我们就有Hadoop产品,主要是基于Hadoop的文件系统和MapReduce,现在已经至少有了25个解决方案,而且在我们已有平台的基础之上,还在不断地添加新的产品和解决方案。
比如说Impala,它是一个SQL分析解决方案,它的竞争对手主要是传统的SQL领域的公司,比方说Teradata和Oracle。另外主要是用于机器学习和实时流处理的Spark技术,这样的技术对物联网和人工智能有着非常好的用途。另外是Hbase是用于实时处理的。去年刚刚发布的kudu在今年年初的时候,实现全面商用。kudu主要是用于实时物联网数据的摄取和处理。
所以大家可以看到今天的Cloudera在技术和能力方面,绝不仅限于Hadoop,已经有了非常大的扩展。
至于我们如何与竞争对手相比保持竞争优势,这样的竞争对手绝不仅限于在中国本土的竞争友商,也包括美国、欧洲及全球的竞争对手。我们的优势主要表现在以下几个方面:
首先,要继续确保拥有最好的平台,在我们平台的基础之上不断进行创新,不断推出新的东西。比方说kudu和Impala,在同类的产品当中处理速度是最快的。
第二,我们要继续确保能够提供卓越的体验,并且把我们的平台打造成一个知识的中心,以便在各个垂直行业实施,比如医疗、银行、农业、制造业。
第三,我们也开发了很多付费版本的创新组件和产品,比如Cloudera Data Science Workbench,就是我们专有的一个技术。
再如:当我们的客户在运行Cloudera产品、软件的时候,我们具备一系列的像遥感、遥测的远程监测能力,能够把客户运行的集群当中的各种信息实时加以了解。其中包括在客户实时运行的集群当中还有多少内存,CPU情况怎么样,系统配置状况如何,能够涵盖现在发行版本当中的所有29个项目,以及客户在完成任务过程当中,监测他们的可管理性、难易程度。
通过这样的数据的遥测、远程监测,Cloudera自己也有一个集群。在我们的集群当中把所有的遥测信息给存储下来,然后自己有一个专门的机器学习的算法,能够在我们关于客户集群运行信息的基础之上来进行计算。这样就能够实现一些预测性的故障警告。
比如我们可以给一个客户发出提醒,两周以后你们集群可能会宕机,如果不换掉现在的服务器、不改变系统的参数,或者不改变目前来进行查询的算法的话,两周以后你们的集群会出问题。而且在这样的服务模式当中,我们的客户数量越多,积累的信息和数据越多,我们这种预防性故障警报的能力也就越强。目前我们在给客户提供的维护服务当中,有20%都是有我刚才所介绍的通过预警而自动生成的。
Q:创新之后给用户体验情况究竟如何?Cloudera服务的垂直行业有些什么样的侧重呢?
A:在回答这个问题前首先再去强调一下Cloudera的使命和长远的目标,那就是通过正确的方式来利用数据,把今天不可能解决的一些问题变成明天可以加以解决的问题,这是我们终极的使命。完成这项使命基础性的工作是收集和存储数据,而从长远来看我们是在这些数据的基础之上要通过机器学习、先进分析和人工智能来帮助解决世界上最富有挑战性的一些难题。
举一个具体的例子,像摩根大通集团是全世界最大的银行集团之一,他们多年以来一直是Cloudera的客户,也是我们早期就发展的客户之一。这些年来,我们看到他们在Cloudera的技术使用方面以及在整个技术堆栈成熟度方面,从初期基础性的数据收集、存储和处理,已经进入到了机器学习和人工智能阶段。
比如,他们不久前部署的一个应用,就是对于摩根大通在过去几十年当中和合作伙伴签的各种各样的法律合同进行分析,把合同的输入要素和产出的结果来进行分析。通过这样的智能分析之后,他们现在的人工智能系统已经能够以非常高的精确度来复制律师的工作。这样数以十万计小时的人工律师的工作,现在用他们的人工智能的系统、用计算机来处理的话10分钟就可以完成这些任务。也就是说,他们的人工智能律师现在是能够处理大量传统的特别是常规性的法律问题,而他们的人工律师的精力现在就主要集中在处理例外情况和真正棘手的难题。
再来举一个例子,在美国有一家做医疗软件的公司叫Cerner,他们的软件主要是为手术患者提供服务。当一个患者到医院去做手术的时候,如果在手术过程当中,他的血液受到感染并且没有得到及时处理的话会有可能形成败血症,而败血症严重的话会造成患者的死亡。但一些患者出现败血症是比较难被发现,如果不能够在最初的两天之内被发现并且得到处理的话,就会非常难控制,可能会导致死亡。
现在这家公司通过使用了Cloudera的解决方案,通过数据的收集和分析,对于患者的术前、术中、术后数据的收集和分析,能够以非常高的准确度来预测患者会不会出现败血症。如果我们对于收集到的数据认为风险很高的话,那这套系统会提出建议,就是术后这个患者不能够出院,要留在医院当中进一步处理。美股投资网 Tradesmax.com
接下来再举一个例子,这家公司叫Navistar,它是一个整车厂,主要是生产巴士车和卡车。目前在他们已经出厂投入运行的30万辆车当中,已经装上了传感器。通过传感器能够去收集发动机的参数,以及驾驶员驾车速度的信息。
Cloudera的软件能够帮助他们做两件事,第一件事是通过传感器收集数据进行分析,能够去预测故障,比如车辆的哪一个部件有可能到什么时候会发生故障。第二是一旦预测到即将发生故障之后,他们会把所有的信息再放到Cloudera的优化算法当中,通过优化算法能够给卡车定一条路线,以便路途中排除故障。因为是一个预测性的故障,所以不需要改变正常工作。当卡车在下一个卸货点停留,同时维护、维修团队也向路线最优的下一个停留点出发,时间是协调好的,然后对卡车进行换件或者是维修。
这样的一种维修,节约了大量时间,对于这辆货车的工作没有太大的中断和干扰。通过实施这样的解决方案,这家公司得到的结果是他们车队汽油的消耗量和维修维护的成本下降了5倍,也就是500%的提高和改进。
关于第二个问题,我们重点的垂直行业有以下几个,首先是金融服务业,金融服务业当中又包括几个子行业,例如像银行、保险公司、证券公司。然后是电信行业,电信行业既包括像中国联通、沃达丰、英国电信这样的电信运营商,也包括手机移动终端制造商,比方说小米用了我们的kudu。用kudu对于小米手机当中的数据进行分析,特别是对小米部署到手机当中的软件进行分析,然后去提前发现软件可能会出现的一些缺陷,这样小米公司就能够及时向手机用户发布补丁,让他们及时打补丁。
另外一个垂直行业是制造行业,刚才举了Navistar的例子,像医疗行业举了Cerner的例子。还有一个非常广泛的行业,也就是网络安全预防黑客入侵。
最后要讲的一个垂直行业,对于我们来说是非常重要的,那就是政府行业。政府行业可以分为两类,第一类是像智慧城市、智慧政务的项目,例如新加坡在智慧城市方面是Cloudera最大的客户之一。另外还有安保,比如在反恐方面的应用。
Q:Cloudera把AWS和微软的Azure基础设施供应商也列为竞争对手,Cloudera的竞争点在哪?
A:像亚马逊的AWS和微软的Azure,也包括像谷歌云和阿里云,既是我们的合作伙伴,也是我们的竞争对手。
首先,在合作伙伴的层面,因为这些云基础设施供应商都向客户群提供IaaS服务化基础设施的服务,在客户群当中有一部分客户就是在这些云供应商的基础设施的平台之上来运行Cloudera的软件。在Cloudera目前的客户当中,有20%是在这种不同的云环境当中来运行Cloudera的软件,另外有80%的客户是在现场安装Cloudera的软件来运行的,比如刚讲到的小米。
但是有一个现象,在公有云运行Cloudera的软件,把基础设施当作一项服务来获取的数量在快速增加,这是我们和他们为合作伙伴的一面,因为我们的客户在他们提供基础设施服务的基础之上来运行使用我们的软件。
另外一方面,他们也是我们的竞争对手,因为这些云服务供应商也开始推出了一些服务,这些服务在外观上、使用感觉上是有点类似我们的软件。比如他们提供的一些服务具备了数据的收集、处理以及一定的机器学习和人工智能的能力,所以从这个意义上来说,我们也是竞争对手。
至于为什么我们同类的解决方案优于他们的解决方案。因为Cloudera从第一天开始就在专注于解决机器学习和先进分析的问题。我们这样的一个优越性不仅仅是体现在技术上,我们能把这样的解决方案和行业客户具体的实践结合在一起,包括客户的系统管理、安全性、资源分配、调度、协调、治理,所有的这些层面。我们更专注企业级客户的具体需求。
还有点关键的差异化竞争优势,我们一直着眼于未来。刚说的摩根大通用人工智能代替部分律师的工作;医疗服务行业也会看到人工智能取代部分人类医生;保险行业当中的保险精算师的工作会由人工智能来取代。这样对于一家走向未来的公司来说,实际上人工智能和机器学习就构成了核心的知识产权。
如果一家大的银行、大的医院,或者是一个大的制造企业把这种人工智能和机器学习的解决方案百分之百地依赖于像亚马逊、阿里云这样的云服务供应商的话,经过一段时间之后,特别是把他们所有最关键的知识产权锁定在这些云服务供应商专有机器学习的算法之中,在这样的条件下也许若干年之后,可能这样的云服务供应商会想我为什么不自己来做保险、不自己来做垂直的行业?就会有一个取而代之的风险。
而Cloudera软件有两个关键的优势,我们能够帮助客户保住自己的知识产权,把核心的知识产权掌握在自己手中。
首先Cloudera的平台是完全可迁移、可移植,是跨云甚至是跨环境的平台,可以使用亚马逊、微软或者是阿里云任何一个公共云平台,也可以把Cloudera的平台放在自己现场部署的私有云环境当中。
第二,Cloudera平台是开源的,对于机器学习和先进分析的算法,它作为开源的本质我们的客户是可以看得到,可以对之加以分析,甚至加以做一些更改来确保自己差异化的竞争优势,这样我们的客户就能够把自己的命运掌握在自己手中。
Q:关于人工智能和先进分析方面,Cloudera之后会有怎样的发展?
A:我先总体笼统讲一下,Cloudera公司的使命,就是通过正确地使用数据来把今天不可能解决的或者非常难以解决的问题变得可以解决,所以我们会继续在平台的基础之上增加各种能力。
具体的例子,比如不久前刚刚发布了一个新的产品叫Altus。Altus是把我们的软件以一种平台即服务(PaaS),而不是以基础设施即服务(IaaS)的方式交付给用户。
在过去三到四年当中,很多在云当中来使用我们软件的客户,他们都必须要自己建一个集群,比方说10个节点、20个节点的集群,用这个集群来处理各种各样的任务和查询。有了Altus之后,不再是一种基础设施即服务,而是平台即服务的模式,这意味着当客户有一个具体的查询或任务的时候,他把这样的查询和任务交给我们的软件,Altus软件就能够根据这项查询或者是任务自动地对查询和任务进行分析之后,动态地生成一个集群完成这个任务,然后再关掉这个集群,这样就具备了更高的弹性和动态可调的特点。
这样的一种模式或这样的产品能够带来多方面的好处,首先是增加了灵敏度,而且从开发者的角度来说不需要再去关注集群,把注意力放在任务、查询和算法之上就可以了。毫无疑问,这样的一个经济性、节约成本的效果是非常显著的,我们不需要长期地去运行服务器和节点,只需要在需要完成任务和需要完成查询的时候动态地去形成集群运行服务器和节点。
Q:Cloudera财报,订阅费是主要营收来源。在最新公布的财报中,服务成本是较去年同期提升了将近3倍的情况下,服务的营收反而下跌了,这里面主要是有哪一些的问题?Cloudera打算怎么提升运营能力?
A:首先我是首席技术官,不是首席财务官,不适合详细讲财务上的问题。
收入有两部分,一部分称之为软件订阅,另外一部分是服务。两者加在一起总收入是同比增长了41%,软件订阅的是增加了59%。实际上从投资者、从市场的角度来说,他们主要看重的是软件订阅的增长。因为服务的业务是需要靠人力来支撑的,服务做得越多,公司用的人就越多,所以服务本身并不是对公司很健康或者是很盈利的指标。市场更加看重的软件,我们的收入是同比有了59%的强劲增长。
现在唯一产生混淆或误读的,就是对于计费账单这一块。账单计费是指把账单发给客户,然后客户签字确认,是我们和客户之间的账单或文件交换的过程。在一季度,我们及时把账单发给客户并且得到签字确认,这项工作做得稍微有一些缓慢,但是这绝不等同于收入,我们的收入保持着强劲增长。市场上对于我们的计费或账单指标有一些误读,现在我们的首席财务官也是在做解释。
根据IDC的预测,到2020年我们做的市场的总规模会达到2000亿美元的规模,我们的方针就是在这样的一个市场当中要不断地去推动自身的发展,而且我们的结果将会证明一切。
Q:Cloudera是从一个创业公司慢慢做上来的,现在创业公司做大数据底层基础平台创业是否还会有机会,如何完成从0到1的冷启动呢?
A:首先创业是有难度的,就是在创业非常成熟的硅谷只有十分之一的创业公司能够得到良好的发展。我所讲的良好发展,是能够把规模做大,将来或者是上市或者是被大公司收购。只有千分之一的创业企业,最后能够做到几十亿美元的量级,就像Cloudera今天这样。Cloudera上市以后,市值是在20亿到30亿美元的区间。
要做到这一点,主要是强调三点:
首先,在创业之初必须找到一个非常切实可行的使命和目标。创业者所要找到问题,并且要去解决的问题,必须是一个非常真实的问题。就Cloudera而言,我们认为如果能够对数据进行正确地搜集和利用的话,能够解决很多今天不能够解决的问题,这就是一个非常现实的问题,也就是说你要围绕着一个非常真实的问题来进行创业。
第二,要有正确的团队,团队当中比如说要有行业最优秀的人组成,工作要非常努力,而且创业企业在团队的文化上也要能够契合。
第三,要有非常清晰的发展目标和阶段性的目标,即使作为一个创业企业也要月度或季度地对于自己的目标的节点进行评估。一旦发现多次达不到目标之后,也要具有一个很好的灵活变通性,或者是调整目标,或者是调整你的策略。
另外一点,我是专门给大数据、机器学习、人工智能领域的创业企业给的建议。不要再去做像Cloudera做过的同样事情,再去创建一个平台。这个平台已经创建了,有这样一个平台是已经得到解决问题了。而是要把注意力放在在已有平台的基础之上,利用机器学习、人工智能去构建各种各样的应用来服务于像医疗健康、农业、制造业、金融服务业行业的需求。运用已存在的底层的平台、底层的能力来打造智能的解决方案、智能的应用,而不是再去发明一个九年前已经创建出来的平台。
Q:在行业这一块,刚才了解到关注的许多垂直行业,比如金融、银行、保险等等。在国内外接触的客户中,对行业专业性的需求包括数据分析等等专业性的需求,客户能清晰描述出来吗?
A:两种情况都有,有一些客户在技术上更加成熟,他们了解这个技术,所以能够更加清晰地去沟通和讲述要求。另外一些客户,接触技术还是时间比较短,他们提出的要求比较笼统,比如帮我们上AI,对什么AI就不是很清楚。碰到这样的情况,Cloudera自己也有各个主要行业的行业专家,包括金融、保险、电信、物联网、制造、医疗方面,碰到这样的客户会让行业专家过去给他们做一个介绍,去讲讲同行业的客户是怎么样做的部署实施以及解决什么样的问题。
Q:对于行业专家这一块,过去我们对行业理解像传统的IBM,对传统金融行业理解比较深,在趋势把握上具有前瞻性。Cloudera成立时间不是特别长,有9年左右,在行业积累上现在是什么样的水平?能够给到客户真正达到趋势性产品的咨询或服务吗?
A:对于这个问题,我们如何向客户去提供更好、更高质量的建议和方案,这里面有两个方面。
首先是行业的知识、行业的能力,但是第二方面更加重要的是你的技术、平台能够具备的能力。对于IBM,我是非常尊重的,像Cloudera在将来在某种意义上希望有些方面发展成类似于IBM。从技术角度来讲,IBM技术还是过去传统的技术,IBM数据方面的产品和平台并没有及时发展演进达到Cloudera已经达到的灵活性、灵敏度和强大的性能。所以说在机器学习、人工智能、先进分析方面,Cloudera的技术是优于IBM的。
另外在行业知识、人员方面,Cloudera招聘了大量的具体行业的专家,比如来自医疗、金融等行业。这些专家在加入Cloudera之前,在相关的垂直行业已经有了长期的工作经验,比如说长达30年、40年的工作经验。我们现在所招聘的金融行业的专家,过去也为IBM金融客户工作过。到了Cloudera之后,在金融方面有非常深厚的背景,我们把Cloudera的技术和解决方案介绍给他之后,他会相当容易地把金融行业客户的需求和Cloudera解决方案的技术能力结合在一起。
Q:未来在产品路线图上,我们会更加专注通用性的产品,还是会通过行业的需求去做更深入地探索?
A:首先从Cloudera的角度来说,我们会继续专注于打造和演进平台,这是一个跨越行业的横向非常宽广的平台,能够尽可能多地去满足各行各业的需求,这是我们的使命,这也是我们的专注点。
与此同时,要能够为每个客户更好地去服务,我们也非常注重解决方案的垂直行业化。在做垂直行业解决方案的过程当中,我们也并不完全是自己在做,我们有一个非常丰富的合作伙伴的群体,在全球范围之内Cloudera有2600多家合作伙伴,这些合作伙伴有些是系统集成商、解决方案集成商,有一些是软件公司ISV,他们在Cloudera平台基础之上针对具体行业,例如金融行业、电信行业开发软件解决方案。我们的行业专家到了客户当中去,了解到客户的具体需求之后,能够把Cloudera产品优势与最合适的合作伙伴结合在一起共同满足客户的需求。
Q:Gartner将Cloudera列为挑战者,目前Cloudera面临的竞争其实还是蛮激烈的,可能有像Hortonworks、MapR,还有云厂商、传统数据库的厂商。您对这一块市场的竞争格局是怎样的看待?
A:IDC预估2020年整个市场的体量能够到2000亿美元,这是个有着巨大前景的市场,毫无疑问会有多家公司在努力成为这个市场的领军企业。如果这个市场只有Cloudera在主导的话,没有Hortonworks、MapR,也没有中国的公司星环,这只能说明这个市场本身很小。目前的竞争格局,恰恰说明了这个市场的规模非常大、非常有前景。
当然我是Cloudera的共同创始人之一,我的观点也许是有一些偏颇,但是我认为Cloudera已经是这个行业当中的领先者,主要是基于三点。
首先,Cloudera的技术是最先进。有了我们的平台,有了我们平台之上支持的29个项目,特别是陆续发布的像kudu、Cloudera Data Science Workbench、Altus,使得我们的平台在技术上是最先进、最优越的。
第二,在这个领域的解决方案和系统构建方面的知识和专长是最优的。在过去的九年当中,我们陆续为像摩根大通这样银行业的客户,以及中国联通、英国电信的电信业客户,以及Navistar制造业客户,以及大医院,为各行各业的客户打造解决方案过程中,我们积累了非常丰富的知识和专长。与此同时,我们也同时对客户在使用我们产品当中的大量数据不断收集和分析,对于Cloudera的技术他们是怎样来使用的,有了这些数据、分析之后,我们能够更好地对于客户的系统、对客户运行我们产品的过程进行维护,所以我们在帮助客户实现的可靠性方面也是优于他人的。而且我们客户用得越多,收集到的数据越多,我们维护和服务的能力越强。
第三,我们具有庞大的合作伙伴生态系统。我们在这个行业当中的合作伙伴的规模是最大的,在数量上是最多的,有2600家。像其他的一些竞争对手,像MapR和Hortonworks,他们的合作伙伴的数量是非常之小的。另外,正是由于我们的成功和我们的领先,像Oracle在这个领域和Cloudera是独家合作。
Q:Cloudera2014年进入中国,目前中国的企业客户大概有多少?
A:对于在中国客户数量的总量是不能披露的,之前举过一些案例像中国联通、中国银联都是我们的客户。