2014中关村大数据日于2014年12月11日在中关村举办,大会以大会以“聚合数据资产,推动产业创新”为主题,探讨数据资产管理和变现、大数据深度技术以及行业大数据应用创新和生态系统建设等等关键问题。大会还承载从政府主管部门到各行各业的需求和实践中的疑问,探讨包括政府、金融、运营商等部门是如何通过数据资产管理和运营,实现转型发展和产业创新的路径
2014中关村大数据日于2014年12月11日在中关村举办,大会以大会以“聚合数据资产,推动产业创新”为主题,探讨数据资产管理和变现、大数据深度技术以及行业大数据应用创新和生态系统建设等等关键问题。大会还承载从政府主管部门到各行各业的需求和实践中的疑问,探讨包括政府、金融、运营商等部门是如何通过数据资产管理和运营,实现转型发展和产业创新的路径。
百度大数据部总监薛正华参与并做主题演讲,分享了百度在大数据方面所取得的成绩与经验。
薛正华:尊敬的各位领导,各位来宾,各位朋友,大家上午好!我叫薛正华,来自百度,今天想和大家一起分享百度在大数据方面所作的一些工作。
百度是一家互联网公司,从这家公司诞生之日起它就是一个大数据公司,百度搜索引擎每天爬取大量的数据,并对这些数据进行加工处理,来挖掘和发现这些数据的价值。这张片子是百度大数据引擎的整体架构,从最底层的开放云,到中间层的数据工厂,再到百度大脑,这三部分共同构成了百度大数据引擎。开放云提供信息基础设施服务;数据工厂主要主要包括:大数据的存储管理以及查询分析。百度大脑更确切地说是一个基于大数据的人工智能系统,它会利用语音识别,图像识别、深度学习等技术,来分析和挖掘大数据的价值。
这三层所对应的系统和产品目前正在服务着百度的许多应用,今年4月份百度首席执行官Robin宣布大数据引擎对外开放,希望百度大数据引擎不仅能够服务百度,也能够服务更多的企业、机构和政府,也希望能够让普通大众也体会到大数据的价值。
百度开放云是最底层的信息化基础设施层。今天,百度的服务器已经到了几十万台的规模,分布在全国很多数据中心。同时,我们还有一个全国分布的CDN网络,CDN主要是对应用性能进行加速,以此来保障用户体验。我们在硬件方面也做了很多的努力、尝试以及创新,包括自研的核心万兆交换机以及SSD等硬件设备。众所周知,大数据面临一个非常大的挑战就是IO瓶颈,这是制约大数据分析处理性能的一个主要瓶颈。我们在网络以及SSD方面做了很多研发,让数据能够更快地加载到计算系统中,以此提升大数据系统的性能。我们也是第一家大规模采用ARM服务器的公司,它能帮助我们节能降耗,降低系统运维成本。在数据中心方面,今年正式投产使用的阳泉数据中心是目前亚洲最大的数据中心,它将更好地支撑百度各个业务稳定、高效、安全地运行。今天,百度也非常积极地要把这些能力开放出去,让更多的企业去使用我们的存储资源,使用我们的计算资源,使用我们的网络,这些技术和系统的开放,能够为企业带来的更低的成本,能够让他们的业务更稳定、更安全地运行。
这张片子展示的是百度目前在基础设施层所开放出来的服务能力。大家可以看到有虚拟机、CDN、存储、缓存等服务,还有基于Hadoop的大数据分析处理平台。数据工厂是百度的中间层,建立在基础设施层之上,这一层主要针对大数据的存储以及快速查询分析。百度现在的数据规模已经到了EB级,每天处理的数据量到了上百PB,数据量每天还在不断的增长。如何在海量数据中进行快速查找和分析是一个很大的挑战,百度通过多年的积累和探索,取得了很大的进展和突破,能够更好的服务于百度的各个产品,数据工厂的相关技术和平台也正在逐步开放出来,欢迎更多的企业使用。
百度大脑是一个基于大数据的人工智能系统,它利用一些前沿技术,如图像识别、语音识别、自然语言处理、人机交互、深度学习等进行大数据的深度挖掘和分析。百度大脑输入的是来自于百度许多产品线的数据以及第三方合作伙伴的数据,对这些数据进行加工整理后,利用我们IDL的深度学习系统挖掘隐藏在数据背后的价值,分析和计算结果服务于百度的搜索引擎、广告投放等业务,也服务于我们正在研发的机器人、无人驾驶等智能产品。
大数据到底能帮我们做什么事呢?我们也在和大家一起探讨这个问题,根据过去的一些经验和积累,我们把它总结成三个方面,即:感知认知,分析决策以及发现创造。这个案例是我们和一家民营企业医院合作的一个案例,就是皮肤病的识别,年轻父母对孩子身上的皮肤出现了一些状况,常常会感到很着急,她不知道是什么病症也不知道该如何处理。百度开发了一款APP,使用这个APP,只要你拿手机对着皮肤患处拍照片,这个照片将被传送到百度大脑,百度大脑对这张照片以及后台皮肤病图库中的上百万张图片进行分析比对,判断孩子得的是什么病。知道这个病种之后,接下来会从百度知识库里获取和这个病相关的详细信息,如:病症名称,症状,治疗手段等信息,并把这些信息发送到手机。这一系列过程需要在短时间内迅速完成。
这张图中的产品是百度在9月份发布的一款产品叫做百度Eye,它会利用前端的摄象头把你看到的东西拍下来,然后把图片传送到百度大脑上进行分析,分析完成之后,会从知识库中提取和这张图片相关的知识,并通过语音合成技术,以语音的方式返回最终的结果给用户,这一系列的过程也需要在秒级完成。
目前,我们在视觉、听觉、位置等方面进行了有益的尝试,也取得了很好的进展。接下来,我们会进一步在味觉、嗅觉等方面进行感知认知探索。我们认为,大数据除了有感知认知能力外,在辅助决策方面多我们有很大的帮助。百度目前EB级的数据,数据分析维度已经到了上亿维度,通过对这些数据的分析处理,我们能够发现更多的、隐藏在大数据背后的真相。
这款产品是叫做百度思南,主要是帮助企业进行市场分析和决策,它能够定位企业品牌在市场的位置,发现竞争对手,了解客户群等,这个产品是基于百度大数据面向商业应用的一款分析决策产品。下面我想和大家分享一个具体案例。
这个案例是我们和汽车领域的一个品牌合作的案例,比如我们要找到该品牌的某个车型在市场上的竞争对手是谁?我们会对搜索过该车型的网民,还搜过其他什么车型进行统计分析,通过相似度计算,找出与该车型比较相关的一些品牌,就是通过这样一个简单的逻辑,便可以发现这个车型的竞品。图中,点之间的距离代表的是各个品牌车型和该车型的相似度。我们继续以这个车型为例,我们能够知道搜索该车型的IP都是来自于哪个地区,我们发现在图中右上区域,搜索的人很多,根据合作伙伴提供给我们的市场数据,该地区的销售量也很大,那么可以判断,这个地区是一个现金牛市场,但是在下面这个区域,搜索量很大,关注的人很多,但是销量并不高,那说明这个地区是一个潜在的市场需要大力去拓展。通过这些信息我们可以看到,在海量的数据背后,隐藏了很多真相,我们需要把这些数据背后的价值挖掘出来。我们继续对这个案例进行深挖,探索一下搜索这个车型的用户,还喜欢搜索其他哪方面的内容,比如:金融财经、体育、娱乐、科技等,我们发现搜索该车型的用户,搜索孕婴育儿类的内容比例比较高,据此我们可以判断对这种车型感兴趣的用户,可能是一些生活到了一定层次的女性;再看看搜索另一款车型的用户,我们可以看到它的用户群体更多会去关注奢侈品,还有美容美体的相关内容,这表明,这类用户可能是一些有钱有闲的姑娘们。通过这些分析,我们可以清晰地告诉品牌主,你的受众人群到底是哪些人群。我们继续从另一个关注点来分析这个案例,搜索这个车型的人,喜欢搜索哪些、哪类明星,这样我们可以帮助这些品牌主找到哪些代言人或者哪一类特质的代言人更加契合他的品牌形象。寻找代言人的传统做法,往往是通过一些商业的调研机构去辅助调查。这种做法通过线下调研随机采访,它的样本量比较有限,人群覆盖度不够。百度通过对几亿网民搜索数据进行分析和挖掘,样本覆盖度很高;同时,这些数据往往是搜索者真实的想法,数据有效性很高,因此,它的结果相对就比较准确。对于图中某款车型,我们发现关注这款车型的人对王菲、吴莫愁等明星的搜索度很高,那么可能有个性的明星更容易被这款车型的关注人群所接受。通过对上述案例的种种分析,我们可以清楚地看到大数据在商业决策方面能够提供很有用的商业价值,通过百度大数据我们能够辅助企业制定更有效的商业决策,为企业带来实实在在的经济价值。
我们还做了一些其他案例,例如:我们通过对几亿网民搜索手机品牌的行为分析,可以知道哪些手机目前是网民最关注的品牌。同时我们还可以知道用户到底关注某一品牌哪些方面的指标,例如手机的耗电量、屏幕大小、像素高低等,通过对这些搜索和舆情数据的分析,我们能为品牌主提供高价值的商业决策。
大数据在预测发现方面也有很高的价值。这个案例是我们和中科院、工信部联合做的一个项目,研究全国和地区经济指数的变化,特别是中小企业行业景气指数的变化情况。数据来源以及分析原理是基于以下几方面。一是百度自身有很多的企业客户,这些企业客户来自不同的行业,不同的地区,他们在百度的广告投放从某种程度上能够反映出某行业或地区的经济景气情况;二是我们收集了大量与各行业和地区相关的搜索、舆情等数据;同时,我们也融合了能够反映行业景气指数的一些历史数据,通过对这些数据进行综合建模,我们就可以对行业和地区的经济景气指数进行预测。通过分析,我们能够提前三个月预测宏观经济走势以及行业和地区的经济景气情况。目前,预测的准确率已经达到了95%,通过这个案例,我们可以看到利用大数据技术能够更快、更好地对行业发展情况进行预测。
这个案例是我们和CDC合作的关于疾病传播的案例。首先,我们发现一个现象。当某个地区爆发了某种疫情后,这个地区的人群会到网上搜索与这种疫情相关的症状、治疗手段等信息。基于这一现象,当我们的搜索引擎实时统计分析出某地区某疫情的搜索量突然增大时,我们基本就可以判断这个地区爆发了疫情。与此同时,如果我们发现另外一个地区关于这种疫情的搜索量也在持续上涨,我们就可以判断疫情在向这个地区移动了。最后,我们根据疫情的搜索量和不同地区人们的搜索时间次序,就可以得到并且预测出疫情的完整的传播路径了。在合作中,我们了解到,疫情的传统做法一般是发现疫情后,各地上报,然后再派专人去做流行病调查,取样分析,确定结果,整个周期会较长,不利于疫情的及时控制。通过互联网大数据分析手段,我们可以第一时间得到并预测出疫情的传播路径,从而快速进行有效控制。
前面和大家一起分享了百度大数据引擎的构成以及具体应用案例。我们期待与来自各行各业的同仁们一起合作,共同挖掘和发现大数据的价值,共同创造新的商业价值,谢谢!
编辑:admin
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!