2018年7月10日-12日,2018中国大数据应用大会在成都召开,大会以"大数据赋能数字中国"为主题。由成都市人民政府指导,中国大数据专家委员会、中国电子信息产业集团有限公司中国电子学会、四川省经济和信息化委员会主办,世界工程组织联合会工程技术创新委员会(WFEO-CEIT)、成都市经济和信息化委员会、成都市博览局全力支持,中国电子器材有限公司、中国电子学会科技交流中心承办,业内知名媒体至顶网与科技行者协办。
大会现场,小米大数据产品总监赵辉华做了《亿级大数据应用》的主题演讲。他重点谈到大数据在小米的典型应用场景,以及其在搜索推荐、新零售、消费金融和智慧家庭领域的众多实践。
以下是赵辉华演讲实录:(内容根据现场速记整理,未经发言嘉宾确认,仅供参考,谢绝转载)
各位领导,各位专家大家好!今天我分享的题目是小米的《亿级大数据应用》。内容包含三个方面:是小米的业务和大数据积累,还有大数据在小米的典型的应用场景,最后是用户都非常关心的隐私保护策略。
我们是从一个小的团队慢慢成长起来,从一个小公司逐渐做大数据的一个历程。在小米“铁人三项”(硬件、新零售、互联网)里边,每一个都有我们大数据的支持。
小米上市,资本市场在争论小米到底是什么类型的公司,小米应该跟哪个公司来对标,对它进行估值,它有一些互联网的服务,有手机,有自己做的新零售的东西,还有硬件的一些产品,这对小米多元化的经营,对小米的公司定位来讲会引起一些困惑。我们自己怎么看,作为公司的技术部门,一个技术中枢我们是这样定位,我们认为小米不仅仅是一个手机公司,雷总把小米描述成一个移动互联网公司,我们也是一个智能设备的公司,我们还是一个新零售公司,它归结到最后我们是一家数据公司。
对小米来讲我们的三亿的小米用户,如果没有小米的用户那么我们小米后续所有的业务来讲都无从谈起,所以对手机的硬件平台,具有入口具有流量的入口。在三亿的用户当中,我们有超过日活21个的千万小米应用,这些都应用都沉淀在我们的云服务中间,数据量的话,比如说像小米生态链,我们还有合并77家生态链的公司,当然现在这个数字要比这个大一些,具体数字是多少呢?我来之前跟我们公司的公关部门沟通过,他们的意见说最新的数字还是暂时先不要讲。
对生态链来讲有丰富的产品线,主要是围绕家居产品来展开,我们知道有小米手环这个也是有千万的级别。我们为了支持这些小米的业务和硬件业务,我们的云服务在背后有了大量的成本和人力来建设云服务。这里边给出的数字来讲稍微陈旧一些,目前我们的总存储量已经在两百PP以上,远远超过两百PP。
用户产生的文件的数量大概有这么多,对于小米的生态数据来讲,有这么多的生态链的数据,我们的多样性的数据是一个特色,我们看到有来自手机端用户使用的数据,还有围绕智慧家居场景,日常生活汇集起来的数据,在我们看来是用户通过小米的平台所产生的这些行为数据是我们后续在大数据建设的核心竞争力。这也是给我们大数据带来的挑战,怎么把这些异构的数据,以及半结构化的数据整合起来一起来支持核心业务,这也是我们技术上面所面临的挑战。
为了支持公司的发展,我们大数据有这样的规划,现在的高级能力一般都成为AI,我们有一个高级AI层,B就是指大数据这一层,还有下面的基础能力和基础架构,是C,在云计算这个层面,对于我们的这样的技术团队大多数的人力和资源都放在了基础能力就是C这个层面。在大数据的业务中间,我们的工作来讲主要是为了支持公司现有的业务,现有的核心业务,比如我们的销售,我们的手机,我们的手机生产,还有刚才李杰老师提到一个观点,如果雷总听到的话他一定会非常支持,就是说品质革命。在过去的2017年,如果说整个小米只有一个核心关键词的话,那就是品质,雷总对我们的要求也是说大数据在品质上面能够为公司,为手机的生产,为手机的使用能够做什么贡献,这也是我们团队的一个主要的任务。
我在这里介绍一下大数据在小米典型的应用场景,首先讲一下大数据的全局搜索,我们现在已经有接入了16类的垂直内容,日均用户量是1600万,日均请求量是四千多万,这也是在去年前年这两年里边信息流里边发展非常快,小米的信息流的业务的增长速度也非常的快。
在新零售这个领域,在产品渠道方面我相信大家都会遇到一个共同的痛点就是在销售渠道的串货,在价格攻防战里边是最头疼的问题,小米刚刚进入的线下市场里边我们面对的挑战也是这个方面,所以大数据我们会支持公司里边在对渠道管理,对渠道的串货,乱价,刷机都做一些应对。除了这个之外我们还对用户群进行深度的运营,对我们的品牌和售后体系的搭建来做支持。
在小米的大数据里边一个业务块是现金贷,很多户金做的是用户来审核这样一个体制,小米是因为手里边有大量的数据,我们预先会知道每个用户风险,小米是通过邀请制,对他在信用方面状况比较好的人的话,我们会给他推送邀请,所以小米在现金贷方面的逾期率和防欺诈方面是非常非常低的。在金融风控体系方面,就是在邀请方面,我们在还款的阶段,催收这些方面我们都会对每一个环节来预控,我们会积累用户的行为数据来判断。
对金融业务来讲,征信数据是最重要的,对于小米来说我们是缺乏来自银行的数据,我们也缺乏向淘宝的数据,我们的数据是来自低层,量非常大,它没有那么密集的基层的行为数据,所以我们大数据的任务就是把这些低价值的数据挖掘出来做金融业务,我们把海量的行为数据对它进行分析,对一个用户来讲他的行为模式里边有各种各样的行为模式在手机平台能够记录下来,这些行为模式我们从中间通过机器学习的方式去寻找它与一个人的逾期风险,以及还款风险相关的特征。
比如说我们所挖掘的数据,这个不是根据专家或者说是业务员发觉的数据,一个人手机里边的金融的数据,手机是30天不激活,同时手机里边他会在三个小时时间里边会几台帐号上面有活跃,而且在排名前十名有包括三个的金融应用,我们就会看这三个特征关联性似乎是一个没有意义的场景,但是我们的数据发现三个数据关联起来的时候,就代表这个人的逾期和欺诈的风险特别的高,类似于这样的发现我们做了很多。
接下来我们会跟金融团队一起来配合,把我们的金融,所做的个人的应用,把金融服务整合到小米系统里边,包括像销售,包括像它的智能设备的使用,包括与我们在,特别是与健康相关的智能设备,数据的采集和后续健康服务方面都可以关联起来,来打造全生态的金融服务。
接下来就是大数据和AI,六千万是比较保守的数字,我预计这个量应该是在八千万或者是更高一些,这么多的联网设备在各个方面汇集了一个用户全范围的健康,跟他的行为方式相关的数据,在这些数据里边会构建千万级的场景,我们对这些场景如何进行融合来建立用户的行为模式,还有语音控制,交互等等这些都是具体的技术手段。比如在我们所做的智能助手的引擎是以语音控制作为切入点,你通过语音可以控制小米电视与各种智能家庭的设备,以及手机来做出互动。这个是由人主动操控的互动,在我们所理解的智能助理的生态里边我们更强调的是沉默交互,就是说对于用户下一个动作,他下一个动作是做什么,然后你事先我们的智能助理能够预测到,预测到以后你就事先为他准备这个服务,这样使人的体验能够大幅度得到提升。一个最典型的例子就是雷总刚刚发布的小米八,在这个里边我们根据用户的使用习惯我们会预测他在接下来半个小时之内有可能会打开哪一个手机应用,我们就可以让这个应用现启动,同样的逻辑我们也用在了智能设备的使用中间。
根据我刚才讲的这些,大家会感受到新的能力的诞生,当然也会有人担心隐私的泄露,小米是做系统的,不能像一些业界的互联网公司一样,他们的IP,有些互联网是采集用户的轨迹。对小米公司来说,如果让用户感知到我们在隐私方面有任何的漏洞,那么大家可以理解这对小米来说这是灾难,所以对小米的隐私控制来讲是公司级别里边是最高级别的一件事情。个人的隐私来讲是用户不愿意为人所知,对公司来讲本身他的风险也非常大,在大数据的使用和隐私这样的平衡中间我们的观点是我们需要寻求一个平衡点,使用户来得到数据分析,得到人工智能对数据的好处,同时又不损害个人数据的保护,大数据的创新不能对隐私的担忧得到停止。如何来实现这一点是今年在5月份刚刚发布的是欧盟的GDPR的这个政策,它与我们小米公司做的隐私保护的方面做的工作是一样的,所以我们投入了大量的人力来做这个事情,GDPR是面向欧洲的,但是我们也逐渐地引入到中国来。
我们去年在评比中小米的隐私保护得到了业界的认可,排在了手机类的厂商第一位。小米在所有大数据的应用探索,目的只有一个,就是让每一个人都能享受科技的乐趣。谢谢大家!
好文章,需要你的鼓励
AMD CIO的职能角色早已超越典型的CIO职务,他积极支持内部产品开发,一切交付其他部门的方案都要先经过他的体验和评判。
医学生在选择专业时,应当考虑到AI将如何改变医生的岗位形态(以及获得的薪酬待遇)。再结合专业培训所对应的大量时间投入和跨专业的高门槛,这一点就更显得至关重要。
我们拥有大量数据,有很多事情要做,然后出现了一种有趣的技术——生成式AI,给他们所有人带来的影响。这种影响是巨大的,我们在这个领域正在做着惊人的工作。