登陆注册
16592500000004

第4章 数据的收集管理和使用(1)

收集数据不是最要紧的

大数据时代,不管你用与不用,数据就零零碎碎地散在那里。但是,要想使用大数据,首先要做的是收集大量数据,但收集数据并非仅是把收集过来的数据放到硬盘里面那么简单,更重要的是对数据进行分类、存放及管理。不然就如同一个储藏很多物品的储藏室——放东西进去的时候很轻松,但是要知道哪些东西有用,或者拿出有用的东西的时候就不那么简单了,甚至可能再也找不到。对于数据的认知,完全取决于我们是否拥有认知自己所拥有数据的能力,是否能够筛选出到底什么是核心数据,到底什么数据会被我们频繁地使用。这就要我们学会如何去收集数据。

无论我们承认与否,在大数据时代,我们周围到处都充斥着零零碎碎的数据。为此,我们很容易在海量的数据之中迷失。

我们盲目地进行大数据投资,收集越来越多的数据。但是,令人沮丧的是,这些数据却是“死”数据。那么,什么是死数据呢?

“死”数据就是单纯存储在教据库中,无法进行分析和使用,并且不能够产生价值的数据。

“死”数据不是真死,可以将其激活。那么,如何激活这些“死”数据,让整个大数据“活”起来,并成为实践中的牵引力呢?答案就是:收集是第一步,收集后通过甄别,选出有用的数据,将它用起来。

数据的价值在于使用,不是存储。就像储藏室里的物品,假如你不会将其中有用的东西拣拾出来使用,你储藏的东西再多也是没有价值的。所以,我们在储藏物品的时候,一是要储藏有使用价值的物品,二是要将其拿出来使用。于是,如何收集物品就成了一门学问。数据的收集和物品的收集有异曲同工之妙。

人们发现,大数据的真正价值是将数据用于形成主动收集数据的良性循环中,以带动更多的数据进入自循环中,并应用于各个行业。什么是数据的自循环呢?

举个最简单的例子来说,现在的很多网站都有推荐功能,很多推荐出来的东西,不论是音乐、视频,还是商品,都可以让用户来选择“喜欢”或者“不喜欢”,这样一来,企业就可以通过用户的选择基于计算机后台的算法为用户重新推荐,这就变成了一个循环——从基于已有的数据进行“分析—推荐—反馈—再推荐”的过程。当然,自循环还远不止这样一种形式。多样的自循环方式打开了大数据之门,而进入这个循环的关键就是,从解决问题出发。在数据的自循环中,有两个核心的关键点:一个是“活”做数据收集,另一个是“活”看数据指标。

比如,多年来,很多企业因无法建立数据收集的循环,致使其运营数据更多地建立在直觉的判断和分析基础之上。当面对周围海量的消费者数据时,充满了危机的大数据更难为企业的运作提供清晰的思路。对数据无从下手成为企业面临大数据时代的核心短板。这时,如果没有找出相关的关键解决方法,企业就会在由海量数据构成的新兴市场中错失发展的良机。

“活”做数据收集

所谓“活”做数据收集,就是指用户不要局限于只收集自己用户产生的数据,还要把“别人”的数据收集过来进行综合分析。

前面提到过,数据收集,一方面是“自己用”——用其他外面的数据来增加自己手上数据的精准度,为我所用;而另一方面是“给别人用”——把我的数据贡献给很需要我的数据的人,从而提高他的数据的精准度。

在很多年前,亚马逊就主动去收集用户的IP地址,然后从IP地址破译出用户所处位置的附近多少公里内是否有书店。工作人员从收集到的数据中了解到,一个人是否选择在网上买书,很重要的原因是他的附近有没有书店。亚马逊主动收集数据,即通过收集一个外部数据,来帮助自身判断线下是否存在潜在的竞争对手。

京东也是这样。他们收集客户浏览商品的数据,然后将相关产品推荐给客户。一个企业在做数据收集的时候,并不总是能够直接收集到所需要的关键数据,这时候就需要变通一下了。

柯友强在一个外贸B2B平台工作,柯友强能很快找出新品种的趋势,但很多人不知道他是如何做到的,柯友强也没有对任何人说过自己的招数,有的人甚至以为在柯友强背后有高手相助。

多年以后,柯友强才向他的同事倒出自己的秘密。他发现新的品项,是通过追踪美国垂直行业电商的广告关键词变化来实现的。

由于中国的生产商跟美国消费者的距离很远,如何才能收集到美国消费者的数据?一般来说,是不可能的。有一批厂家是从中国海关购买数据,但是海关的数据是滞后的,无法让企业及时获取行业的发展趋势。不过,奥妙就在美国采购关键词的那些经理手上,而这个数据是可以从国外网站搜索到的,于是答案就这样到了柯友强的手上。

在欧美,这些搜索引擎营销(SEM)专家会为公司设计购买关键词的方案,而柯友强就主要关注这些人的数据,看他们换了什么关键词,以了解欧美的商品发展趋势。这样,柯友强就可以很快知道欧美现在流行什么样的东西,而这就是利用外部数据来帮助自己做决策的方法。

柯友强说,以日用化妆品为例,先是观察在欧美做得最好的几家化妆品类网站买入了什么关键词、变换了什么关键词、有什么关键词是常态的,以及有什么关键词是在季节更迭的时候才买入的。

在观察到这些关键词之后,柯友强放到谷歌中去观察关键词的增长趋势,去eBay看看这一款化妆品有没有交易及价格的变化。在知道eBay有交易之后,柯友强再放到国内电商平台中搜索这个产品。如果没有出现相应的搜索结果,就意味着这可能是一个良机。

所以说,做大数据收集,有时候需要更多的灵活变通。亚马逊的案例的确经典,不知道京东是不是借鉴了他们的做法,因为他们都找到了消费者购买决策链条中的一个关键点;而B2B寻找关键词的重点在于如何观察第三者数据。每个人都知道在收集消费者数据时最好是观察直接用户。但如果没有这个数据,你需要观察什么数据?答案就是,去观察行业内对这个数据最敏感的那些人,你也能获得成功的密码。

生活中其实也有这样的例子,李嘉诚说,如果你想知道香港的某家酒楼生意好不好,你问问门口卖报纸的人就知道了——香港人喜欢去喝茶的时候买一份报纸。其实,这个规律不是李嘉诚观察到的,而是香港税务局发现的。香港税务局如果担心酒楼对营业额虚报的话,就可以通过直接去查卖报纸的商家卖了多少份报纸来判断,这是一个非常有趣却很实际的灵活收集用户数据的案例。

“活”做数据收集,就是要跳出既定思维的框架,从相关联的行业和业务中去收集能够为现在所用的数据,找到能够更好地佐证企业现有业务决策和发展的数据。而“活”做数据收集的一大好处,就是能够规避现有数据框架的弊端,更好地反映用户的实际需求和市场的实际情况。

“活”看数据指标

“活”看数据指标就是指企业不要局限于已有的数据框架,而应该结合用户需求的不同场景来灵活应用收集到的“活”数据。我们不仅要灵活地收集数据,而且还要注意到,数据收集只是第一步,如果不让数据“活”起来,仅仅是把收集的数据简单堆砌在一起,是没有意义的。

举个例子说,我们在京东购买商品的时候,或在某个网站注册时,他们会要求用户填写自己的性别。假如一个人填写的性别是男性,但分析这个人的购买行为时发现,很多时候他的账户在告诉网站,这些商品的目标客户并不是他自己,因为这个人也会为他的妻子和父母买东西。

当收集到的这些数据不能为企业所用时,企业就永远不知道关于这个人的这个数据原来是不准确的。这些数据好像是准确地描述了这个人的性别,但是却不能很准确地描述这个人的搜索和购物行为,因为他可能会为他的老婆买一包卫生巾或一套化妆品。

在梳理阿里巴巴的数据时,阿里巴巴会有18个性别标签。听上去这很不可思议。你肯定会想,阿里巴巴是不是疯了,为什么凭空造出了这么多的性别?

事实上,每一个性别表现都并非看上去那么简单,因为它的分类是基于用户在不同场景中不同表现而做出的。这就揭示了一个问题,我们每个人都不会只呈现出简单的一面,比如在安静时和在人前时,我们就会表现出不一样的自我。不同的性别标签其实就是应用了这一原理:同样的人在搜索商品时可能会表现出不一样的行为特点,而这些不一样的行为就是我所说的场景,结合场景应用数据就是“活”用数据。其实,有多少个性别标签并不重要,重要的是如何让用户在不同的场景中获得更好的服务,而这都是基于这些“活”数据。

亚马逊一直在自己的商业活动中应用这个理论。一直以来,亚马逊就是使用动态数据模型:用“历史的你”去推测“现在的你”。所以,它相信今天登录网站的你有什么需要与兴趣,比起历史的“你”来说更重要。

“活”用数据,就是你是否能看出这个数据本身的局限是什么。一方面,是数据为用户体验改善了什么;另一方面,企业在使用数据时,对活数据的运用解决了什么问题,或者创造了什么机会。要牢牢记住,活用数据很重要。

“活”的数据是“活”用数据的精髓所在。企业能够基于场景和相关的“活”数据将数据应用发挥出最大的价值,那么新的商业模式的开创也就会在不远的将来成为可能。

数据的存放和管理

为什么要收集数据?当谈到如何更好地解决这些问题时,我们想到了运用数据可能是有效的,所以我们开始收集数据、管理数据和使用数据。

就拿电子商务的数据收集为例,比如母婴类目,很多电商通过填写宝宝的年龄或者购买的特定品类等来推算出宝宝最新的一个年龄阶段;在汽车类目上,电商会通过客户购买的机油、滤清器等型号来推算出客户是否有汽车以及车型;甚至是衣服也可以用来作为数据收集使用的场景,比如从一个用户购买衣服的历史尺码来观察用户是否有身材上的变化。

所以,就数据的收集而言,最重要的不是看我们收集了什么数据,而是要思考这些数据如何使用以及收集这些数据到底能够起到什么样的作用。用一句话来说,就是收集数据不是目的,收集起来的数据如何产生价值才是最终的目标。不过,如何收集在未来具有价值的数据的确是一个难题,当中就需要一些经验的判断了。

数据存储下来之后,数量和广度都很大,就需要对之进行完善的管理。数据管理的内容包括很多方面,比如,数据的来源、如何让数据不丢失、如何保护数据的安全、如何让数据准确和稳定以及如何更好地运用数据,这些都是数据运营中的“管”。但是,“管”并没有一个标准可循。大数据管理到底要怎么做?目前还没有准确答案。

其实,对于数据的管理,整个大数据行业和其他行业一样都经历过很多起起落落。就数据而言,在2004年左右,美国的一些数据管理经验在国内造成了很大的轰动,很多公司纷纷建立BI团队。但是到了2009年左右,各公司又开始不完全认同BI数据部门。但也正是在那个时候,国内顶尖互联网公司的数据化运营开始启动。

有些公司的数据管理非常依赖数据产品,希望用数据产品来解决获取及使用数据的问题。他们认为“不管怎么样,我们先收集数据,将来肯定有用”。其实这是不妥的,因为没有一家数据运营商可以让你无止境地收集数据,然后再使用,这根本是不现实的。

而这就是“不做决定的代价”。因为,在这个世界上,有一些决定是我们一定要做的。从运营数据的角度来说,如果我们只收集数据而不做分析和应用的话,代价就是很沉重的存储成本。

无须多言,这种存储成本的代价是巨大的。即便是一家富有的公司,即便是它的机器比较多,也只能短时间地延续这种损失。因为不管你有多少机器,这些数据都在呈指数式增长,当提到怎么备份时,问题就出来了。

你肯定会问,在这种情况下如何备份?此时,你就要决定,什么东西需要先备份,什么东西可以先放在“冷库”里。“冷库”的意思是一些成本比较低的服务器,但是放在“冷库”中的数据不能随时使用,需要调出来才可以使用。

针对这种情况,有人说,我们仅把3年前的数据都放进去吧,够吗?答案就是:还是太多了。有人说,那我们可以把一年半以前的数据都放进去吧?不行,因为用数据观察业务发展趋势的分析师一般都要看3年的数据,所以这种做法也不现实。

在面对“决定放什么数据进‘冷库’”,和“决定什么数据在紧急情况下一定要保护”的问题时,你就会发现以前我们所讲的观点——数据先收集起来,将来再使用,完全是一个伪命题。

之前从来没有人对这个伪命题表示过异议,无论银行,还是金融机构,甚至以前的互联网公司。而当大数据出来后,这个观点就成为了一个借口、一个伪命题。这是一个很难下的决定,但这就是你必须要做的决定。如果,你在以后发现你需要的数据,的确没有得到提前保存的话,那就只能错失这一发展机会了。事实上,这是企业的博弈。

或许有人会问,一家企业并不需要从事所有的商业,为什么所有的数据都要收集呢?事实就是这样,这是数据人在管理上的不负责任,平心而论,这个责任也非常难承担。

同类推荐
  • 中国农业自然灾害的风险管理与防范体系研究

    中国农业自然灾害的风险管理与防范体系研究

    《中国农业自然灾害的风险管理与防范体系研究》紧紧围绕农业自然灾害以及自然灾害的风险管理与防范体系展开研究。《中国农业自然灾害的风险管理与防范体系研究》首先分析了我国农业自然灾害的基本状况、基本特征、基本类型和农业自然灾害产生的原因;紧接着研究了自然灾害对经济发展的影响、对农业经济波动的影响和对农村贫困的影响;进而阐述了我国农业基础设施建设与减灾抗灾能力的基本状况;最后提出了构建具有中国特色的农业自然灾害风险管理与防范体系的具体措施。全书环环相扣,自成体系。
  • 新经济学

    新经济学

    《新经济学》上半部分探究人类起源,找到了人类进化的根本原因是“人是多种能量的使用者”;进而发现并讨论了财富的两种属性,即物质属性与能量属性。精准地指明财富与科学的实质和科学的定义;通过分析热力学三大定律,找到了科学是描述物质能量流动规律的学说;有效地分析了科学、技术、财富之间的关系,阐明了耗散结构与人类社会运转的关系;介绍人类活动中各个概念在热力学定律中的联系和代表意义。最终把热力学引入经济学中来。
  • 零售经营实务

    零售经营实务

    从百货商店到超级市场,从专卖店到自动售货机,零售业的每一次变化都带来了人们生活质量的提高和生活方式的变革,随着外资零售企业在中国本土化进程的深入,零售业越来越显示出它的魅力。全书共分九章论述了零售业的概况、零售战略规划、零售区位选择和店铺设计、零售经营的商品管理、零售销售管理、仓储与配送管理、连锁商店的经营管理、超级市场的经营与管理等。
  • 经济学会撒谎

    经济学会撒谎

    本书是一本趣味性经济学读物。通过一些有趣的话题,帮助大家更好地认识经济学,学习经济学,用好经济学。其核心思想仍与经典、传统的经济学思路一贯,但看事物的角度则力求新奇,改变大家对经济学的传统认识,解决一些学习经济学,运用经济学时的观念误区,使经济学能够更好地为我所用。
  • 新常态改变中国

    新常态改变中国

    中国经济进入新常态,增长速度换挡、结构调整阵痛、前期刺激政策消化的“三期叠加”现象明显,经济趋势从未如今天这般扑朔迷离。针对这一情况,国内最权威的学者,根据自己多年的思考、调研,为我们在下一个时期顺势而为,获取经济红利,用智慧跑赢经济下行压力,给出了极具针对性的分析、建议。
热门推荐
  • 优秀教师心理素养修炼

    优秀教师心理素养修炼

    本书以教师的专业发展为主线,以学生心理健康方面的教育需求为突破口,对教师心理素质的重要作用进行论述,构建了教师心理素质的内容,并且对提升教师自身的心理素质提出了要求。
  • 一个中国革命亲历者的私人记录

    一个中国革命亲历者的私人记录

    李耀宇是许多历史细节唯一健在的见证人。书中虽然没有透露重大历史事件的决策内幕、没有描述革命过程的奇峰险壑和波澜壮阔,却忠实记录了中国革命中许多稚拙平帝的一面、革命领袖即使在战争年代也从不缺少的普通人的一面,以及他们在平凡中显现的伟大的卓越的一面。对这些细节的解读,仍然引人入胜。品味这些鲜为人知的历史细节,让我们更加深刻地理解什么是真实的历史和历史的真实。
  • 我替天道带句话

    我替天道带句话

    “天道说了,地球人太鸡贼了,都不好好学道了!天天整一些虚头巴脑的。”于是叫李多宝的家伙奉命偷偷的撒下大道的种子。在嫦娥四号登月的即时影像里,正在做数据采集的宇航员突然被一只碧绿色的葫芦给砸中了……19年春节的花果山旅游景点,在无数游客的目光中,一只被绑在筋斗云的猴子乘云而去……某一天的敦煌莫高窟,佛光普照,梵音漫漫,留下一株菩提的李多宝遁走……深藏功于名。李多宝:“天道让我带句话,从今天起,三千大道,条条正道!”“我,李多宝,就是一个创造奇迹的男人!”
  • 霹雳皇城之琴道朝兮

    霹雳皇城之琴道朝兮

    纪元200年大幼时期皇族败落群雄并起万族林立诸王争霸妖神乱天象天摇地动时,武林正派儒释道三教如何拯救苍生?
  • 摩尔庄园之命运之旅

    摩尔庄园之命运之旅

    亦是黑暗,亦是光明。地狱边上的曼珠沙华,天堂中的白色鸢尾花,哪一朵会带给世人希望?千年的契约已经开始,命运之轮已悄然转动。
  • 做为凶兽的我怎么可能软萌可爱

    做为凶兽的我怎么可能软萌可爱

    我是吞天、吞噬万物、吞噬众生、吞噬位面、才不是什么软萌软萌的生物。要不是现在被封印了、莫得以前的实力了。才不会被这个小丫头签订契约呢!云芝小祖宗啊,不要如不要随便拿你的脸来蹭来蹭去的。呜呜呜呜呜呜呜呜,为什么人家的命那么苦哇?
  • 领主你好

    领主你好

    如果现在有人说领主就是土皇帝,就是地主。那肖克一定会呲之以鼻,并且告诉你领主就是一个苦哈哈的包工头。肖克,一个典型的宅男。一次意外让他成为了泽雅大陆的一个小领主。本以为终于可以过上幸福生活的他,发现他的领地已经负债累累,随时都有失去的可能。看肖克如何逆转命运,又是怎么样发展科技,鼓励农业,打造一个异界版的科技帝国。
  • 最强背黑锅系统

    最强背黑锅系统

    什么!仙皇被杀?老子干的!灵丹妙药被偷?我就是那个小偷!打穿越到玄幻世界,主角就一直在背黑锅,玄幻世界所有的坏事都是他干的。什么?找我背黑锅?先拿点灵丹妙药来再说,顺便我再完成一下系统的任务,这个锅,我背了。总有一天,我唐天要成为玄幻世界的背黑锅之王,但是所有人都对我奈何不得!
  • 溶溶琥珀流匙滑

    溶溶琥珀流匙滑

    乾隆得到一颗天界的琥珀,并且带着他剿灭了白莲教的余党,谁知这琥珀富有生命幻化人形伴在其身边,几次乾隆危在旦夕,她都出与援手。乾隆和盐帮帮主程淮秀因处地不同,奈何不能在一起,然而这颗小小的琥珀却有办法……
  • 加菲猫穿越记

    加菲猫穿越记

    在现代平凡如白开水的毛加菲,竟然糊里糊涂为好友挡酒,穿越到了古代,开始了她不平凡的生活,在众多帅哥的热烈追求下,她会选择哪个作为自己的真爱,白头偕老呢?