来源:Career In 投行PEVC
10月21日,一篇名为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》在社交网络广为流传,该篇文章作者乎睿数据团队直指在线旅游网站马蜂窝存在点评大量造假的情况,包括从其他网站如大众点评、携程等抓取相关点评,及自建团队撰写虚拟点评。
根据马蜂窝官网提供的数据,目前,马蜂窝全站拥有超过2100万条点评,是马蜂窝对外展示的核心竞争力之一。如果乎睿数据团队的指控被坐实,马蜂窝一直以来强调的用户PGC神话将被打破,或将严重影响这只旅游独角兽的估值。
马蜂窝成立于2006年,创办初期,马蜂窝是一家让旅行者分享游记感受的旅游攻略社区;2012年开始,马蜂窝对积累下的旅游数据进行结构化处理;2015年初,马蜂窝发布自由行战略,开始尝试“内容+交易”的商业闭环。
回顾马蜂窝的发展历程,无论是最初的旅游攻略社区定位,还是如今正在打造的商业闭环,内容都是马蜂窝区别于其他在线旅游网站最大的竞争优势之一。而马蜂窝背后集聚了市场上最牛逼的一线PE和VC基金们。
微软雅黑, 宋体, simsun, sans-serif; white-space: normal; background-color: #ffffff;"> 2006年01月:蚂蜂窝网站上线;
2010年03月:正式成立公司投入运营,注册用户数15万;
2011年04月:上线首款APP客户端旅行翻译官;
2011年10月:获得今日资本500万美元A轮融资和200万美元无息贷款;
2012年06月:开始商业化,半年收入超千万,主要来自广告及佣金分成;
2012年10月:注册用户数超过400万,PC端用户数在3年内增长40倍;攻略累计下载量6000万次;
2013年04月:获得启明创投领投的1500万美元B轮融资;
2014年06月:注册会员数突破5000万;
2015年02月:获得高瓴资本、Coatue、CoBuilder、启明创投的C轮融资,累计融资逾亿美金。
2015年09月:蚂蜂窝用户数1亿,其中80%的用户来自移动端(蚂蜂窝自由行APP);月活跃用户数达8000万。
2017年12月:获得鸥翎投资、美国泛大西洋资本集团、淡马锡、元钛长青基金、厚朴基金共同投资1.33亿美元。
2018年8月17日:外媒报道称,两位知情人士透露,蚂蜂窝希望在新一轮融资中筹集至多3亿美元,此轮融资对该公司的估值定为20亿至25亿美元。
马蜂窝丑闻事件不禁让CareerIn君想起了前不久的红芯浏览器事件(点击下方蓝色字体可直接跳转阅读):
原来红芯浏览器就是靠这份PPT融到了2.5亿!
为什么IDG、晨兴、达晨等知名VC会投资深陷造假丑闻的红芯浏览器?
在今年上半年的博鳌亚洲论坛期间,马蜂窝联合创始人、COO吕刚在接受媒体专访时便曾表态,在从内容切入交易的过程中,马蜂窝的最大优势在于之前几年对社区的运营积累了大量数据,数据的积累非常重要,因为“内容是决策的依据”。对数据结构化的处理帮助马蜂窝推出交易平台奠定了基础,让马蜂窝拥有了更大的商业想象空间。
以旅游攻略起家的马蜂窝站内用户PGC内容可以分为如下几大类:旅游攻略(多为长图文形式)、用户对旅游目的地(包括景点、酒店、饭店、商场等旅行常见POI)的点评及问答、交易类点评(对马蜂窝商城内具体商品的评价)等。
此次乎睿数据团队指控的对象主要指马蜂窝用户对旅游目的地点评的真实性。
在马蜂窝现行的商业逻辑下,经过前几年对站内数据的结构化处理,目前,马蜂窝能够将旅行相关产品与内容进行较为细颗粒度的关联,而内容在用户做交易决策的过程中拥有很大影响力。
正因如此,高质量的内容生产者及内容是马蜂窝的核心资产之一,马蜂窝也在官网上列出了其拥有超过一亿的旅行者及超2100万的真实点评等数据。
但根据乎睿数据团队提供的信息,马蜂窝2100万条真实点评中,有1800万条是通过机器人从点评、携程等竞争对手那里抄袭过来的;其在马蜂窝上发现了7454个抄袭账号,平均每个账号从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点评,占到马蜂窝官网声称总点评数的85%。
另外,乎睿数据团队表示,其在马蜂窝的所有账号中,刨除了7554个账号后,选择了1万5千个最活跃账号,发现这些账号的活跃时间一致,与点评及携程等网站相比,存在严重的不合理。乎睿数据团队总结称,马蜂窝的主流用户是一群每天朝九晚五、在午晚饭以及周末干正事、能够同时出现在地球的不同地点,且可随意切换身份的人。暗指马蜂窝账号造假。
近两年,马蜂窝由单纯的旅游攻略社区,转变为一家集数据处理及交易服务于一体的在线旅游公司,成功从内容环节切入交易。这一商业模式的建立,让马蜂窝获得了资本青睐,去年年底,马蜂窝完成了1.33亿美元的D轮融资。随后在春节假期及今年世界杯期间,马蜂窝投放了大量广告。吕刚曾对媒体表示,马蜂窝今年的主要任务是做大规模,年内暂不考虑上市问题。
然而此次乎睿数据团队的公开指控直击马蜂窝要害,对此有旅游行业资深人士认为,点评数据造假的真实状况,关系着马蜂窝这家公司到底是靠传统商业模式——卖广告活得好,还是因为交易做得好,抑或是因为点评数量引来的融资花不完活得好,这才是重点。
目前乎睿数据团队对马蜂窝点评造假的指控已经引发行业的广泛关注,对于相关指控,马蜂窝一位市场经理称,“我们现在正在核实相关情况。我们正在等结果,然后将对媒体反馈。”
根据普华永道的数据尽职调查经验显示:在不断演进的网络和数据技术背景下,应运而生的互联网企业以其理念引领优势、有别于传统商业运作模式的业务整合能力以及市场覆盖潜力,成为投资界的热门标的。不断变化的市场环境与水涨船高的业绩压力,往往导致部分公司出现各种数据质量问题、甚至是数据造假或业绩虚增的行为。传统的数据尽职调查手段已不足以支持投资人在业绩评估和投资风险揭示方面的需求。
投资人头顶的达摩克利斯之剑
2018年,互联网行业继续成为投资者所关注的焦点,其中,互联网及移动互联网行业的投资金额依旧位居首位。
不幸的是,纵观国内外各大新闻网站,因为企业数据问题被曝光而对企业形象带来巨大影响的新闻不绝于耳;而互联网行业由于其本身的业务特点,成为了数据质量问题的“重灾区”。基于普华永道对过去3年相关行业尽职调查项目情况所做的统计,有65%以上的目标公司在业绩统计指标方面存在问题。
踩过的“坑”
由于互联网行业尚未形成通用的业绩比较标准与完善的指标分析体系。且又处于未盈利的初创阶段(有些甚至可能还没有形成稳定的业务收入),投资人往往需要基于管理层提供的注册用户数、活跃用户数(DAU/MAU)、转化率或交易额(GMV)、业务增长预测数据对标的公司的商业价值和估值进行研究。因此,业务数据的准确性、合理性以及尽职调查过程中揭示的潜在风险因素和业务影响,将会对投资人的价值判断和公司估值产生直接影响。
在一轮又一轮的互联网狂潮下, “刷单”、“羊毛党”、“养号”、“自冲”等新名词也随之出现,并且俨然成为了一个数据造假的“新产业”。根据我们的过往经验,在短短几年间,这个“新产业”已经经历了四次重大的“产业”升级。
及应对方法
随着一次又一次的“升级完善”,如今在互联网世界已经产生了一个 “堪称完美”的造假体系。通过以下的比较可以看出这套造假体系如何“完美”:
由此可见,数据造假的传统特征被逐个突破,刷单与实际业务产生的数据特征界限正在变得模糊。想通过传统的数据尽职调查手段在运营数据中发现真相已经变得越来越难。
本篇我们将列举互联网行业的三个典型场景,以及针对行业新的变化趋势,如何有效通过数据挖掘、机器学习算法看清数据背后所隐藏的交易风险。
场景一
聚类算法定位新型“羊毛党”
在传统B2C的商业模式中,交易信息的流动是单向的,平台上的用户被清晰的分成买家和卖家。但在C2C或社交电商模式中,平台用户可以同时以买家或卖家的身份出现,从而产生了“循环交易”的可能性。而这些循环交易中,可能存在着以获取平台交易补贴、优惠等“薅羊毛”为目的的异常循环交易。从投资人角度而言,这些异常的循环交易会拉高平台真实GMV、交易量、用户活跃等运营指标,从而对交易估值产生重大影响。
如上图所示,我们可以通过引入机器学习聚类算法方式,无需借助已做出标记的训练数据集 (x(1),y(1)),(x(2),y(2)),…,(x(m),y(m)) 来学习目标函数,用以对交易数据做出决策分界,而是直接针对未进行标记的交易数据集来进行优化迭代,形成聚类。
适用于海量交易数据的Clarans+算法原理:
这种无监督学习方式基于PAM算法增加样本集抽取步骤,优化了模型性能,尤其适用于海量交易数据环境下,运用多种弱规则识别在单个规则下难以发现的可疑交易,提高识别准确度及效率,来有效区分正常或异常交易行为。
场景二
通过社交网络算法识别潜在欺诈用户群体
对于P2P网贷平台对于贷款用户的贷前风控、贷后催收都是平台能够持续运营,不发生“爆雷”的关键。除了“假标自融”外,虽然不少平台对贷款申请用户做了基础的风控审核,但往往存在各种缺陷,导致骗贷、欺诈团伙有机可乘,逾期率上升并最终对平台的资产质量产生显著影响。然而,这些风险往往有很强的隐蔽性,随着时间推移,才会逐渐显现。骗贷、欺诈的手段非常多样,并不断演进升级。通过更为高效的机器学习算法,在尽调阶段对相关风险的识别,可以有效规避投资人的风险。
通过社交网络分析算法(SNA),研究节点(人)和节点关系(边,也就是人与人之间的关系)的算法,对节点关系梳理并形成聚类,可以做到识别贷款人之间的关系网络及社区,有效识别潜在的骗贷、欺诈用户群体。
在社交网络算法结果的基础上,还可以结合历史逾期数据,通过机器学习建立随机森林模型进行用户逾期预测。相比决策树模型,随机森林拥有更强的抗干扰能力及模型泛化能力,能够实现对于不同群体的Vintage逾期率差异分析。通过以上分析结合历史Vintage分析,可以据此预测未来可能产生的贷款逾期水平。
场景三
RFM模型与GIS处理技术结合定位O2O虚假交易
在O2O商业模式中,用户交易需要经历线下、线上两个环节,例如:团购预定中的线上下单,线下消费,二手车交易的线上撮合、线下验车、过户等。因此,通过地推团队将线下订单向线上“转移”是典型的运营数据造假的手段之一。在这种造假方式下,需要引入对用户行为进行聚类分析的机器学习模型,并结合其他维度才能有效识别出虚增平台线上交易数据的行为。
以典型的O2O交易平台为例,可以通过根据用户行为数据建立包括最近一次交易时间(Recency)、交易用户交易频次(Frequency)和交易金额(Monetary)的聚类分析模型。此外,可以结合GIS技术分析,通过基于LBS地理位置的Geohash算法,将二维的经纬度转换为字符串来代表特定矩形区域,并对字符串建立索引,从而实现海量地理信息的快速匹配。通过这一算法可以实现自动检测出交易、服务、配送等位置的集中度。在此基础上,结合交易凭证信息,能够识别出存在的平台通过购买线下交易数据,虚增平台交易量的行为。
Geohash算法原理示例:
随着互联网与细分市场的发展越来越深入,细分行业所呈现出来的场景变化其实远不止上述三类,我们仅基于历史项目经验中总结部分典型案例,帮助投资人对相关问题有一个更为感性的理解。
本文地址:http://houdi.cs-ej.cn/quote/11030.html 成事e家 http://houdi.cs-ej.cn/ , 查看更多