1 背景概述
1.1 大数据概念及发展历程
随着云时代的到来,大数据也吸引了越来越多的关注,Gartner给出的定义是“大数据(Big Data)”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中指出大数据具有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值):
1、数据容量大(Volume)。从TB级别,跃升到PB级别;
2、数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
3、商业价值高(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
4、处理速度快(Velocity)。1秒定律。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
自2005年Hadoop项目诞生至2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟(ComputingCommunityConsortium),发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。此组织可以说是最早提出大数据概念的机构。
2011年5月,全球知名咨询公司麦肯锡(McKinsey&Company)肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,大数据开始备受关注,这也是专业机构第一次全方面的介绍和展望大数据。
2012年1月份,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(BigData,BigImpact)宣称,数据已经成为一种新的经济资产类别,就
第 1页 共 15页
像货币或黄金一样。
2012年3月,美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。2012年3月22日,奥巴马政府宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,在次日的电话会议中,政府对数据的定义“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来。并表示,国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力;国家数字主权体现对数据的占有和控制。数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。
2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。
2014年4月,世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》。报告认为,在未来几年中针对各种信息通信技术的政策甚至会显得更加重要。在接下来将对数据保密和网络管制等议题展开积极讨论。全球大数据产业的日趋活跃,技术演进和应用创新的加速发展,使各国政府逐渐认识到大数据在推动经济发展、改善公共服务,增进人民福祉,乃至保障国家安全方面的重大意义。
2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》。报告鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这种进步的领域;同时,也需要相应的框架、结构与研究,来帮助保护美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。
1.2 互联网企业正大力推进大数据应用
优酷、爱奇艺、乐视等互联网视频网站的进入,以及BAT等互联网行业巨头纷纷进军互联网视频行业,使传统广电行业带来空前白热化的竞争,逼迫广电行业不得不采取必要的应对措施,改革自身,突破自我。2015央视羊年春晚爱奇艺全球同步直播,同时在全国共189个电视频道同步转播,多屏收视率(综合计算电视直播与网络直播)达29.6%,并且凭借超1400万的最高同时在线人数,创下了全球单平台网络直播纪录。互联网企业对于传统广电行业的冲击可见一斑。
互联网企业在视频业务拓展过程中,一贯注重新新技术的应用,所以大数据就成为他们重点突破的方向,各大互联网企业在大数据方面的尝试可谓不遗余力:
全媒体收视调查:
第 2页 共 15页
泽传媒、歌华有线“北京大样本收视数据研究中心”、北京秒针信息咨询有限公司等多个大数据研究机构加强了对各大卫视节目收视情况的跟踪分析,2014年7月,泽传媒发布“中国全媒体卫视收视率排行榜 ”。这是中国第一份电视收视、电视节目网络点击、微博转发等各项指标融合的动态榜单。
同样是2014年 7月,由央视-索福瑞媒介研究有限公司(CSM)与新浪微博合力打造的微博电视指数Beta版宣告上线,成为国内首个基于社交媒体评估电视节目影响力的大数据分析系统。微博电视指数是以微博上对电视节目的讨论为基础,重点考察口碑影响力和受众覆盖情况,经过大数据运算和关键词的系统优化,计算出相关电视节目在微博上的阅读量、提及的人数和次数,同时,深入的数据解读分析将进一步展现微博上讨论该档电视节目的热度和人群特征。
继2013年春节“百度迁徙”火了一把之后,2014年百度视频又联合湖北广播电视台(集团)公布了一组“全国网民的湖北印象“热搜词,让大数据的创新应用再次成为热点。通过大数据挖掘与分析网民在百度搜索、百度视频搜索等搜索引擎中高频次搜索与“湖北印象”相关的关键词,我们看到了全国网民心目中有趣的“湖北印象”。
基于用户喜好定制剧:
2013年美剧《纸牌屋》大热。它的投资方Netfilx是美国一家在线视频付费服务运营商,通过对3000万用户的访问规模用户重合度、用户群和访问深度等四个指标进行海量数据分析,得到了拍什么、谁来拍、给谁看、怎么播这四个要素。《纸牌屋》的创造推出,打开了大数据应用的一扇窗,变革了内容生产的模式,通过用户需求而产生精准内容定位正成为现实。
Netfilx在行业内掀起的热浪对国内视频网站也产生了影响。爱奇艺首席执行官龚宇近日表示,今年爱奇艺将通过大数据分析,把一部商业微电影改拍成大电影。国内其他的视频网站也纷纷将目光投向大数据,希望利用大数据掘金。
东方卫视的《女神的新衣》更是电视、电商两大产业的一次深度试水,传统电视媒体捆绑天猫、明星衣橱等新兴互联网平台,并由互联网平台提供实时、精准的大数据指导电视节目制作,这一模式创造了电视综艺娱乐节目制作的新领域。
个性化内容推送
优酷网有一个个人用户中心,注册并且登录后系统会根据用户的浏览和观看行为推荐20条视频,如果觉得不好还可以换。此外,优酷尝试实现多屏云记录,使用户能在不同的终端上连续观看同一个视频。
第 3页 共 15页
爱奇艺的PC客户端尝试依靠大数据分析实现“千人千面”的首页全个性化内容推荐。爱奇艺视频,首页焦点、热播强档、娱乐八卦、动漫乐园、高清电影等导航内容一样也不少,但每位用户在不同地区、不同时间获得的推荐内容都已不再相同。爱奇艺首席技术官汤兴表示:“这种为用户推荐内容的命中率已经超过35%,推荐带来的播放量在总流量中的占比超过50%。”
精准个人广告投放
中国在线视频广告市场规模为21.4亿元,同比增长49.0%,环比增长39.0%。在线视频行业的最主要收入来源依然是广告,其占比高达75.2%。艾瑞咨询认为,在线视频广告市场规模的快速增长,反映出在线视频企业媒体价值的不断提升。未来在线视频广告市场规模的增长动力将来自于广告价格的提升。由此可见,广告对于视频网站来说是赢利的主要途径,通过精准的广告吸引广告主是视频网站想要达到的目标。
爱奇艺目前正在推出这种广告精准投放功能,“比如雀巢咖啡的一则网络视频贴片广告,韩寒是广告主角。针对韩寒的忠实‘粉丝’,内嵌的交互广告可以突出韩寒一人,用户点击小贴片进入,点击互动广告,用户可以玩一个小游戏,或者看到广告产品的更多信息,并且通过输入文字点评,在微博上进行互动。”这种方式可以充分了解用户能带来广告投放的效益。
1.3 广电行业进入大数据时代
随着三网融合的深入发展,一方面广电行业加快了融合整合的步伐,很多省份都已经实现了一省一网的改造,广电系统从原来区县级别的分散式的架构跃迁到省级的融合平台架构,在数据量上有了数量级上的提升,随着国网公司的成立以及各省之间联盟团体的建立,广电行业的进一步融合是大势所趋,所以广电行业进入大数据时代也是必然的选择,以一个地级市为例子作简单的估算,1个60万用户的城市产生的内容量大概是100万小时,每个月的点播量会接近180-200万次,首页的月访问量是4500-5000万次左右。用户产生的订购行为,大概会有几十万到上百万的规模。从整个客服中心的电话反馈来看,每个月大概会有20多万的规模。那么全省势必会产生一个非常可观的数据量。
另外一方面,广电行业目前已经普遍实现了媒体资源的生产、传输全数字化过程,在原有有线电视传播渠道的基础上,纷纷向互联网视频网站、移动互联网APP等全媒体方向拓展,在大力发展和巩固有线电视收视群体的同事,依托数字化媒体开辟除了一个新的收视群体,这部分收视群体通过新媒体渠道产生直播、点播、回放等常规数据外,还有大量
第 4页 共 15页
的交互数据,这势必带动系统数据量的急速攀升。在数据类型上,除了传统结构化数据之外,也增加了大量包括网络日志、音频、视频、图片、地理位置信息等非结构化数据,这些多类型的数据对数据的处理能力提出了更高要求,符合大数据中数据类型多的特点。
相对而言,目前广电运营商对于大数据的应用相对于互联网视频企业而言,还处在相对简单的阶段,所以现在积极构建广电大数据支撑平台,逐步引入各项大数据应用,广电运营商才能继续在竞争中争取到更多的优势。
2 主要应用场景
大数据的一般处理流程可以概况为四步,即采集、导入和预处理、统计和分析以及挖掘。(1)采集是指利用多个数据库来接收来自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。(2)导入和预处理是将来自前端的数据导入到一个集中的大型分布式数据库或者分布式存储集群,并且可以在导入基础上作一些简单的清洗和预处理工作。也有一些用户在导入时对数据进行流式计算,来满足部分业务的实时计算需求。(3)统计和分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常用的分析需求。(4)数据挖掘和应用,对现有数据进行各种算法的计算,从而达到统计分析,决策参考,和实现各种大数据应用的过程。
大数据在广电行业的典型应用场景包括以下几个方面:
2.1 影视剧内容优化
综合有线电视、互联网视频网站、移动互联网APP、社交网站等多个渠道形成对影视剧的收视情况的综合评价,形成相关指导指数,构成相对于收视率更加全面的收视评价数据。
一方面可以为影视制作单位提供可靠的参考依据,甚至参照《纸牌屋》的模式,采用边播边拍的模式,创作更多易为客户接受的定制剧产品。
另外一方面可以为广电运营商整影视剧版权购买策略的制定提供重要的决策依据,会更倾向购买符合大众需求的影视剧产品,从而间接促进了影视剧质量的提升。
第 5页 共 15页
2.2 营销策略优化
可以根据收视人群性别、年龄、区域、时段分布等情况制定针对性的促销套餐,促进相关产品的销售,同时还可以作一些针对性的内容推送和精准广告推送等等:
个性化内容推送
根据大数据分析结果,在电视门户,网站门户,手机门户等推荐位推荐相关的公共内容,产生收视排行榜,供用户自由选择收看。
同时可以为用户推荐个性化的节目内容,或者跟电商合作,推荐相关的电商产品。 可根据用户登录区域,时间的不同推荐不同的内容,可以在不同的屏上实现相同内容的推送,保证用户体验上的一致性。
精准营销推荐
分析每个用户/客户的消费能力、交往圈、习惯与爱好等,然后提供智能化服务与消费引导。提供定向推送广告等服务,从而实现广告的精准达到,大大提升广告的点击率和营销效果。
2.3 内部管理优化
服务质量提升
通过呼叫中心、多渠道营销数据的采集,改善服务质量,提高服务人员服务素质,优化服务流程。甚至可以根据客户的贡献度等不同确定客户的级别,提供对应级别的服务,对于优质客户提供优等的服务,提升客户的UAP值。
产品优化
根据反馈意见优化门户等交互产品的设计,使设计更加人性化,更加符合用户使用习惯,从而提升产品的价值。
网络配置优化
可以根据用户的收视习惯优化网络的配置,特别是边缘网络资源的配置,对于点播等互动业务比较频繁的区域,可以增加IPQAM等边缘网络设备的配置,对于那些不怎么互动不活跃的地区,可以减少相关设备的投入,从而最大程度的实现网络资源的最优化配置。
第 6页 共 15页
3 主要广电企业大数据应用
3.1 华数传媒
在移动互联网浪潮下,努力向数字媒体拓展的华数传媒正在顺势布局自己的大数据营销平台。华数传媒将利用自身全媒体资源,通过跨屏互动、程序化购买、O2O等手段,为客户提供一站式全媒体广告解决方案,而以此构建的大数据营销平台,意味着传统的有线网络运营商也加入了数字化精准营销的争夺战。
这个全媒体平台包括四个部分,新业态电视平台(互动电视和OTT互联网电视)、华数TV互联网平台(华数TV网、华数TV手机电视)、直播电视平台(华数频道、求索频道)、城市综合媒体平台(地铁电视、LED联网联播屏),这些合起来可触达的用户群体达1.5亿。
目前华数传媒所采用的广告平台由阿里巴巴战略控股互联网广告技术公司易传媒提供,传媒的数据将对接阿里广告营销平台阿里妈妈的大数据,且易传媒会与阿里云牵手,在大数据营销上展开合作,让这些大数据流动起来。
3.2 天津网络广播电视台
天津网络广播电视台与大数据专业公司开展深入合作,在天津IPTV业务中建设了国内首个基于全样本进行数据采集、分析和用户7*24小时实时收视行为监测的大数据系统,颠覆了传统媒体粗放型的运营方式,助力交互式电视直播、点播、回看及专题产品的科学化运营。
经过半年多的试运行,该项目在如下几个方面开展了探索,并取得了重要突破: 一是IPTV全样本大数据分析平台能够系统地记录、统计和分析电视播出平台各频道、各栏目的直播、点播、回看的收视情况。天津IPTV的用户开机率,用户在线情况,平均用户收视时长等数据,可以实现细化到居住小区的用户收视结果统计。
第 7页 共 15页
二是通过用户行为追踪功能,提供了直播频道和点播节目的实时收视率统计,每三秒钟刷新一次数据,支持按日、周、月、年进行实时收视率历史数据的分析。利用用户页面访问行为数据,提供路径分析,提高了产品的订购率,实现EPG优化,简化互动电视操作。
三是大数据平台的分析结果,可以辅助各电视频道构建决策模型,指导节目制作、节目引进和节目编排,更精准地满足用户需求,同时提高全台节目平均收视率。
第 8页 共 15页
四是从用户角度来看,大数据分析系统能更好、更及时地理解和满足用户需求,实现个性化EPG服务、节目精准推荐、推送,根据用户活跃程度及变化,设置各种活动,开展客户挽留等服务,实现用户体验的优化,更好地服务于用户,使精彩节目不会错过,优质节目精准对位。为电视台实现电视节目由产品向商品的过渡搭建一个市场通道。
基于大数据分析相对于小样本调查的优势显而易见,依托天津IPTV 60万用户的实时反馈,可以更准确、快速地反映电视节目的收看情况,IPTV实时收视统计数据,实现样本筛选从”随机抽样法”向“全样本穷举法”的升级,为业界提供更可靠、更及时的数据信息。
3.3 珠江数码
广州珠江数码集团有限公司的大数据系统由三个子系统构成,如图1所示。
图1 广电大数据商业智能系统的总体架构图
第 9页 共 15页
广电大数据采集子系统主要负责对机顶盒和各业务系统异构数据源的数据进行采集和统一存放。不同的运营商对于数据分析有不同的需求,这也决定了数据采集的规模,部分运营商只注重传统的收视数据的采集,而忽略了其他相关数据的集合。笔者认为,互动平台下的数据分析应该突破传统的收视率调查的藩篱,更多的着眼于新业务的开展和公司整体运营状况的分析决策,让原本杂乱无章的收视数据、用户行为数据、运维数据、媒资数据等形成一个彼此关联的大数据库,从而更好地发掘出用户信息以及企业运营信息。珠江数码大数据分析系统采集的数据源包括:机顶盒、BOSS系统、运维系统、GIS系统、媒资系统、互动电视系统等多个系统。
利用采集子系统收取的海量数据,开展数据预处理、数据仓库、数据挖掘与数据分析四个步骤,建立各种业务模型和分析模板,实现广电系统中海量非结构化数据的商业智能分析。
构建大数据的应用系统,利用商业智能分析的结果促进广电现有业务的发展,并实现多种新型业务拓展,促进企业经济效益,同时产生的数据也可以用于企业运营状况的科学分析,更可以形成数据的产品进行销售和交换。在运营商竞争激烈的今天,这是项目开展的直接动力,也是决定采集子系统和分析子系统建设内容的关键。目前珠江数码集团准备开展的应用包括:广告精准推送、视频内容精准推送、电视商务等以及大数据分析处理后产生的数据产品。
珠江数码在大数据平台的基础上,通过大数据分析系统发觉的用户的消费喜好、消费层次、成员构成、年龄范围等搞价值的可商业化数据,再和O2O点上合作或者自建服务平台,有针对性地推送信息服务,并将用户的消费评价加以整理反馈,形成闭环。
3.4 湖南广电
湖南电视台在大数据上的思路: 一、以大数据开拓节目定位方向。
内容制作者通过对收视率以及自媒体、网络社区、视频网站、网络游戏等多方面的用户数据统计、分析,获取目标受众的收视习惯、内容偏好,帮助内容产品更精准地直击观众的视、听、观、感需求,使内容创新做到有的放矢,避免盲目性,将是未来媒体决策的一个重要方向。
后续,湖南卫视将重点打造周播剧,重点尝试真正的边拍边播的模式,这种探索对行业的价值显而易见,《爸爸去哪儿》节目就是这种模式成功的范例。
二、以大数据开拓多元创新渠道。
第 10页 共 15页
在大数据背景下,多维度的数据预测和评估来源,为内容生产开辟了更多的创新渠道,表现最为抢眼的是新媒体内容生产的反哺。
目前国内节目市场中,搜狐视频、乐视网、腾讯视频等都拥有了自己的制作团队,他们的创新指向性更为个性化或光谱化。在不久的将来,传统广电与新媒体将逐渐成为一种共生媒体,你中有我,我中有你。现在的趋势,是互联网媒体携他们强大的大数据和分析来往上游走,进行节目制作,这是内容创新这一块。而传统的广电媒体携他们非常强大的视频内容制作能力,来和强大的传统的电视平台的能力,来向新的屏幕和互联网媒体进行开拓,双向的两个版块逆向性的动作,实际上最终会合流成为一体,所以我们认为这种趋势是由异体控制走向一体控制,来做同一件事情。我们认为传统的广播电视媒体,将模糊它原来的广播电视媒体,而成为全媒体地位。原来的互联网媒体也将逐渐模糊它的互联网属性,具有全媒体的属性,这是一种不可阻挡的潮流和趋势。他们需要更强大的制作经验积累,我们需要更强大的数据分析能力,这是我们双方都要练的一个内容。
实践证明,新媒体在大数据信息高速流转的平台上,作为电视内容生产的服务对象,受众在接收传播内容的将产生大量的互动内容,如节目观感、评论,甚至自制的内容文本等,这些信息迅速聚集并传到电视播出平台,这不仅能丰富内容产品的互动性,提升受众的收视积极性,更是对传统电视内容生产方式的增益。
三、以大数据开拓收视评估思路。
大数据时代,电视收视和网络电极、微博热度越来越呈现几乎相关的对应关系。因此,结合电视、网络、新媒体多源数据样本的全媒体收视评估体系,将有可能成为一种趋势。目前CSM媒体研究正在对电视剧查询与收视分析系统进行升级,将包含有热门电视剧的收视数据、社会媒体讨论量、社会媒体讨论情感偏向等等相关指标。
湖南广电各媒体在受众研究市场方面,已经开始了一些实践运作。如湖南卫视的《快乐大本营》、《天天向上》、《我是歌手》、《爸爸去哪儿》等节目,他们的研究显示,收视数据与视频点击、微博热度总体趋向于吻合,且线上下相互助力。而且研究还显示,产生这种互动主要原因是因为湖南卫视在全国35岁以下的年轻观众群超过了2.7亿,日军年轻观众1.54亿,跟许多新媒体用户群高度吻合,所以他们在大数据的运用中是将是最大的获益者。
在全媒体的环境下,受众的分流突出了行业对精细化收视调查的需求,但大样本收视研究也成为受众研究的必然趋势。未来基于海量数据的收视调查,将成为普遍的收视评估办法。也是由于这些考虑,湖南卫视2012年开始采用全国网收视,抽样方式相对于29城市网更为随机、更为全面,且推及人口更多,囊括城市、乡村两方面,所推及的人口数是29城市网数
第 11页 共 15页
据的8.7倍,同时我们也联合几家互联网公司进行大数据的分析,我们每周都会出一本大数据分析报告,对湖南卫视的主要栏目在整个大数据中间的竞争力排位顺序进行评估。
随着大数据时代的到来,信息的内涵已不仅仅是简单的新闻信息,而是各种各样的数据。这就要求媒体必须适应新的信息生产和产播放时,以多元化媒介新生态来承担信息传播的职能,生产、分析、解读数据,探索为受众和用户提供分众化服务和体验的媒体发展之路。
4 主要厂商大数据应用产品
4.1 浪潮
广电大数据集合系统,是依托浪潮先进的云计算技术、大数据处理技术构建的,针对广电行业的大数据处理系统。浪潮大数据集合系统建设的目标是提供从终端到头端、从设备到业务、从数据到运营决策的全业务、全数据、全覆盖的整体解决方案。
产品介绍:
传统的数据采集来源单一,且存储管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。同时,传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求。
广电大数据集合系统,是依托浪潮先进的云计算技术、大数据处理技术构建的,针对广电行业的大数据处理系统。浪潮大数据集合系统建设的目标是提供从终端到头端、从设备到业务、从数据到运营决策的全业务、全数据、全覆盖的整体解决方案。从而打造以统一管理为基础,以业务数据为中心、以提高用户满意度和粘度为落脚点的全新解决方案。
整体架构:
第 12页 共 15页
浪潮大数据系统分为数据采集系统、数据分析挖掘系统、数据呈现部分。 1、数据采集前端系统
数据分析系统的数据采集服务器平台主要负责原始的数据采集、整理,可以按需求部署在各省市网络公司机房。包括数据采集服务器、收视率数据库等子模块。
2、海量收视数据分析与挖掘后台
收视率数据分析采用云架构设计开发,数据存储处理均在云服务器端运行。提供收视率数据分析功能,含增值业务的运营分析、电视台/频道收视率统计、观众忠诚度统计、到达率统计等专业统计项。可以对收视数据进行多维度在线实时分析,包括任意时段任意频道的收视率观看时长分析、换台频率分析、内容到达率分析、观众忠诚度分析等。通过与智能EPG的结合,对于收视率的分析可以达从频道级精确到节目级。
第 13页 共 15页
3、数据呈现
获取的海量数据存储在后台,通过后台分析挖掘出有价值的信息,可以实现精准的广告投放、关联的信息推荐、用户的行为扩展。
产品优势:
1) 系统采用端到端的解决方案,不止是用户行为分析数据,而是从自动化配置管理
系统,到网管系统,到用户行为分析系统,所有数据一览无余。
2) 和浪潮机顶盒、各业务系统无缝对接,管理方便
3) 不占用额外资源,数据收集流畅、快速,无需在浪潮机顶盒安装第三方软件,不
影响机顶盒整体性能。
4) 分析、推荐实时性高。
5) 系统架构理念先进、处理能力强。 6) 强大的数据分析能力。
4.2 曙光
1.需求分析
近年来,随着媒介经营产业化、集团化的发展,收视率调查已越来越受到业界的重视。无论是电视机构运作,还是广告经营、节目评价,收视率都是备受关注的重要指标之一。 收视率既能够为媒介经营者经营频道和节目提供重要参考,同时也是广告商评价广告效果的客观依据。媒介经营者要想吸引更多的观众,就必须了解观众的收视习惯和偏好等,并以此为依据,制作相应的节目内容,调整和优化频道节目的编排;而广告若想取得最佳效果,需要广告产品的目标定位与观众群体的结构一致,保证广告投放的针对性;需要一定的观众规模,保证广告传播的范围;需要观众群的稳定性,保证广告传播的深度;从而使观众尽量记住广告的内容,并最终购买广告所宣传的产品。
广电企业正紧紧把握“三网融合”所带来的发展机遇,加快高清交互数字电视的推广,将家庭电视机变成多媒体信息终端,为广大用户带来全新的数字媒体体验。由于众多新媒体业务
第 14页 共 15页
的推出和普及,需要建设一个数据分析平台,通过这个平台可以收集到所有双向用户、所有业务的用户收视行为数据,建立一套完整的数据分析及挖掘机制,用于更好地了解用户需求,促进各项业务的发展。
曙光方案集中解决广电媒体企业如下关键问题:
1) 数据采集、存储和转发。通过大数据技术满足海量、多种来源、多样性数据的存储、管理要求,支持平台硬件的线性扩展,并提供快速实时的数据分析结果,并迅速作用于业务; 2) 个性化用户推荐。不仅局限于数据本身的分析和决策价值,还通过构建大数据平台,整合业务能力,为用户提供融合、个性化的内容推荐服务。
3) 从内容传输到内容制造。使用大数据挖掘技术提前先于观众知道他们的需求,预知将受到追捧的电视。另外,还可通过观众对演员、情节、基调、类型等元数据的标签化,了解受众偏好,从而进行分析观测,为后续的影视制作等内容开发做好准备。 2.平台架构
根据曙光在广电行业多年的建设经验和业内其他客户大数据分析平台的建设经验,曙光设计如下图所示的平台整体逻辑架构:
第 15页 共 15页
整个收视行为分析平台设计分为4个层次,即数据源、数据预处理层(数据抽取、转换、脱敏、加载、规约等)、大数据支撑平台(数据存储,数据处理)、业务应用层等。
首先,数据由数据源经过统一的数据抽取和转换平台进行抽取、格式转换、脱敏等操作;通过ETL工具,将清洗好的数据加载到大数据平台中进行存储。由于汇聚了多个源的数据,通常数据量非常大,所以大数据平台需要具有良好的可扩展性。
其次,加载到大数据平台中的数据将被用于进行最终的数据分析和数据挖掘。同时,还可以根据具体的分析和挖掘需求,设计针对用户具体业务的查询任务流及更多的应用系统。 最后,大数据应用层通过建模对大数据平台中经过初步加工的数据进行进一步的分析挖掘,通过大数据可视化工具对分析挖掘结果进行展现;展现形式丰富多样,可以是图表,也可以是文档等易于理解的形式。
本次项目建设,需要整合机顶盒、BOSS系统、运维系统、媒资系统等多种来源系统数据,构建用户收视行为分析平台,完成对用户收视行为相关数据的统计分析,提升用户的满意度,提高广告投放的精准度。
本次项目后续建设,将根据实际业务需求开通实时榜单系统、个性化推荐系统和新媒体指数分析系统等面向业务的分析应用,并提供公共分析框架,实现向大数据分析即服务(即大数据2.0)的转变。 3.方案特色
本项目采用中科曙光自主研发并具有多年实践经验的XData大数据处理平台,实现了面向海量用户收视行为的及时、高效处理。平台主要特点如下: 1) 支持千万级别用户的收视热点/趋势实时分析;
2) 支持百亿级别机顶盒日志、VOD系统日志等信息的及时抓取和分析;
3) 支持用户特征提取和用户群体细分,支持基于用户和节目的协同过滤,实现基于富标签的智能化推荐系统。
4.3 东软
第 16页 共 15页
在海量数据面前,用户有越来越强的信息过滤需求,大量少人问津的信息成为网络中的“暗信息”, 无法被一般用户获取。SaCa™ RealRec个性化推荐系统通过建立用户与信息之间的二元关系 ,让用户更容易的发现感兴趣的信息,让信息更便捷的传达给其所适合的用户,从而提高信息检索和知识发现的效率。
东软SaCa™ RealRec致力于挖掘大数据背后的潜在价值,为业务系统提供结果精准、实时更新、深度挖掘、易于集成的个性化推荐服务。助力客户增强用户体验,提高转化率,提升用户忠诚度,优化市场营销,增加商业利益,可应用于电信、金融、健康、教育、电子商务、社会化媒体等行业。
产品优势
东软SaCa™ RealRec实时个性化推荐系统,利用大数据处理、分布式并行计算、流数据处理、自然语言处理和机器学习等技术,基于云计算技术,分析、挖掘数据背后隐含的价值。 精准推荐
除了提供基于用户行为的数据的SlopeOne,协同过滤,基于内容推荐等单一推荐算法,还采用了混合型(综合用户行为以及内容数据)的推荐算法,大大提高了推荐结果精准性。
第 17页 共 15页
深度挖掘
采用分布式并行计算框架,对大数据的商业价值进行分析、存储、处理等一系列深度有效挖掘,充分展现数据价值,为企业进行精准营销和决策提供有力支持。 实时更新
实时地采集用户行为数据,通过分布式流数据处理进行实时洗刷、过滤和计算等预处理。同时,利用工作流定时更新机器学习模型。提供了准实时的推荐能力。 易于集成
业务系统只需嵌入一段监控代码,用户的点击行为数据就可以被实时采集。
推荐结果以REST接口的形式提供给业务系统,根据需要调用不同推荐算法接口,即可获取推荐结果。 产品特性
实时数据采集及预处理
采用分布式消息传输框架和分布式实时流计算框架,实时采集用户的行为数据并进行数据预处理。采用长链接技术把数据直接从服务器推到浏览器端。 统计排名
综合各种指标参与计算,采用函数拟合计算Rank,例如热点博文、达人排行等。 基于用户行为推荐
基于用户行为数据,采用SlopeOne和协同过滤算法,推荐用户可能喜欢的内容或商品 。 基于内容的推荐
对文本进行分词,同义词规则合并、词性权重考量等提取文本的特征值,主题分类,推荐给用户可能喜欢的文章。 基于社会化关系推荐
基于海量用户关注关系,对一度人脉关系加权考量,进行二度人脉关系推荐 。 用户兴趣图谱
基于图形数据库,构建用户兴趣图谱,通过口味引擎进行个性化的推荐。
第 18页 共 15页
领域知识图谱
构建领域知识图谱,结合用户兴趣,为用户推荐个性化的内容。 应用场景典型案例
CBox云服务平台是2012-2013年度CNTV网络电视事业部重点项目之一,旨在整合多终端运营平台,建设能够支撑CBox整体内容运营的开放型统一管理平台,并在此基础之上对终端用户提供云服务及更加丰富的互动功能。
SaCa™ RealRec切实推荐平台为CBox项目提供了用户行为数据采集、核心数据存储、推荐引擎、推荐接口服务等模块,助力CBox项目实现实时个性化视频推荐、广告精准营销、运营策略拟制等,为平台优化提供了有价值的决策支持。
4.4 星环科技
在中国,广电系统正经历着数字化浪潮的冲击,基于网络化的影视播放给传统广电运营商很大挑战。 在此背景下,广电系统的生力军华数传媒敏锐意识到,要想获得未来网络化
第 19页 共 15页
传媒的生存与竞争优势,现在就必需向用户倾斜,以适应未来发展的数据基础架构为依托,打造“精准型”广电内容及传播运营商。
为此,华数传媒亟需解决方案以解决如下几个问题:
数据采集、存储和转发。通过大数据技术满足海量、多来源、多样性数据的存储、管理要求,支持平台硬件的线性扩展,并提供快速实时的数据分析结果,并迅速作用于业务。
个性化用户推荐。不仅限于数据本身的分析和决策价值,通过构建在大数据平台之上整合业务能力,为用户提供融合、个性化的内容服务。
从内容传输到内容制造。使用大数据挖掘技术提前先于观众知道他们需求,预知将受到追捧的电视。另外, 还可通过观众对演员、情节、基调、类型等元数据的标签化,来了解受众偏好,从而进行分析观测,为后续的影视制作等内容开发做好准备。
TDH方案的实施效果
针对华数传媒的需要, 星环科技基于一站式Hadoop发行版Transwarp Data Hub (TDH),综合运用了其中的TDH Hadoop、Inceptor分布式内存引擎、Hyperbase实时数据库等技术产品组件,为华数传媒提供了如下的综合方案:
第 20页 共 15页
数字电视分析系统。TDH平台用以整合各个相关数据源数据,包括Portal、CA、CDN、SRM日志、用户使用浏览信息、AAA、BOSS结构化数据、用户基本信息、消费数据、用户上网流量数据、网管数据等。通过TDH的快速分布式数据查询引擎,实现海量数据的秒级查询。为用户提供智能推荐、实时榜单和新媒体指数分析。
提供基于全量数据的实时榜单。以时间 (小时/天/周) 、用户等维度, 对点播节目、直播节目、节目类别、搜索关键词等进行排名分析、同比环比分析、趋势分析等。地区风向标主要以城市和时间等维度分析点播排行、剧集排行、分类排行、热搜排行及用户数量的变化。另外,从时间、频道、影片类型、剧集等维度,根据在看数量、新增数量、结束观看数量、完整看完等分析用户走向。
新媒体指数分析。通过对用户行为分析获取很多的隐性指标,从侧面反映用户对业务的认可度、用户的使用行为习惯等。在此基础之上,TDH大数据分析可帮助华数传媒构建规范的指标分析和衡量体系,为业务运营提供强有力的指导。
智能推荐。运用星环科技大数据基础架构,通过对用户行为数据的采集分析,进行精准画像,使用智能推荐引擎,实现信息的个性化推荐 (TV屏、手机、PC) ,个性化营销 (个性化广告、丰富产品组合、市场分析) 。基于可持续扩展和优化智能推荐算法,以及大数据带来的实时数据交互能力,为每一个用户量身定做的推荐节目极大提高了产品的到达率,增强了用户忠诚度。
4.5 国双科技
针对传统广电系统新媒体转型、三网融合、三屏互动的需求,国双科技公司推出了面向电视端、移动端以及PC端的多屏大数据解决方案——Gridsum Dissector解决方案。 PC端大数据解决方案
一款全球领先的网页用户行为分析与优化解决方案,集成了Web dissector,video dissector以及Streaming Dissector。对web网站以及wap网站都能进行用户行为数据采集和分析,针对网站如何能够吸引流量、为什么用户会流失、观看是否流畅、那些运营商体验最好、网页体验是否友好等痛点进行针对性解决,全面提升网站运营。
第 21页 共 15页
移动端大数据解决方案
随着移动互联网的发展,移动应用无疑成为当代网民新宠,针对移动端国双推出一套集成了Mobile dissector,video dissector以及Streaming Dissector的先进的整体方案。方案能够对移动应用程序的用户操作和收视行为数据进行收集和分析,帮助移动应用运营者了解应用的推广效果和用户活跃程度,洞悉用户的交互行为,从而提升应用的操作体验和移动视频观看体验,提高用户留存率。
电视端大数据解决方案
方案由TV dissector,Video dissector以及Streaming Dissector组成,一款全球领先的电视终端用户行为监测与分析、业务与运营优化的大数据解决方案。方案可对互联网电视、IPTV、有线电视、卫星电视、地面数字电视等各种电视终端进行数据采集和分析,针对如何发掘用户流失原因,如何反应真实收视率、如何吸引用户,如何增强用户忠诚度以及如何优化产品包等痛点给出指导依据,满足运营以及运维工作需要。
第 22页 共 15页
目前国双科技广电多屏大数据决策平台已经获得数十家新媒体客户的采用,包括CNTV、BRTN、看看新闻网、安徽网络电视台、新蓝网等等。
第 23页 共 15页
因篇幅问题不能全部显示,请点此查看更多更全内容