|
地址:长春市亚泰大街与自由大路交汇五环国际大厦1408、1409室
联系人:于先生
全国咨询热线:400-853-5969
邮箱:xgnic@xgnic.com
手机:13624467185 13844844006
网址:http://www.xgsite.com
|
|
|
资讯中心 >> 碎片化的大数据:“做熟”raw data是基础 |
碎片化的大数据:“做熟”raw data是基础 |
点击率:1721 发布人:管理员 发布日期:2015/5/5 16:29:57 【去百度看看】
|
正如早先的信息化对世界产生的革命性变革一样,如今提到大数据,也具有划时代的意义。与线下活动不同,人们在计算机和互联网上的一举一动都被精准的记录下来。而且,随着在互联网上进行的生产和生活所占比例越来越大,以及物联网技术的发展和普及,将线下活动转移到线上进行记录,海量数据的聚集,共同促成了大数据时代的到来。 大数据的重要性毋庸置疑,从随处涌现的云计算服务、云计算基地、大数据主题讲会、数据挖掘技术成热门等,可见一斑。尽管如此,目前人们对于大数据的利用,距离其对社会产生实质意义上的重大改变,还相当遥远。所谓“大数据时代”,目前来看仍旧是一种先于经验的预言。 对于大数据关注,往往过分集中于“大”的特点,却忽略了处理大数据所必须面对的一个难题:未经处理的碎片数据,即raw data,这是造成大数据价值密度低的直接原因。大数据是汇集了以行为主体、时间、地点三个维度为体积的巨大的数据宇宙。称其为“宇宙”绝不夸张,因为目前全球数据量的增长速度之快,即使是存储密度的也在同时提高,未来也难免会出现物理空间的瓶颈,而只要有人的活动,数据的增长便会永不停歇。社会研究对于人的属性还尚难以把握,而大数据却详细记录不同属性的人的每一次行为,产生的raw data的碎片化程度可想而知。根据中国互联网数据平台(www.cnidp.cn)对网民上网行为的监测所产生的数据,进行大致的汇总和计算,结果为每个用户平均一天当中约产生20次页面点击,照此推论,那么全国5.38亿网民每天产生的数据量超过100亿条。 提倡大数据会为商业模式带来变革的观点,都预设了大数据的可分析性作为前提。但是,不仅仅是大数据,在一般的社会学、经济学研究中,所有的模型都必须建立在以规整的数据集做为基础条件下,当数据满足特定的要求时,模型才会有意义。也就是说,分析要以经过清理的规整数据为基础。而如此碎片化的数据,如何进行清理、形成规整的结构,才是大数据能够得到充分利用的根本所在。同时,由于存在商业价值,大数据的共享将会对数据的整合造成更大的困难,一方面是完整的行为由于数据所有者的不同而被截断,另一方面则是不同的raw data数据拥有者对数据的管理方式造成数据结构的差异,难以进行整合。 所以,大数据的价值,只有在其能够被规范成为可供分析的形式之后,才能最大程度的被挖掘出来。这不仅要求在数据清理技术、存储结构上进行优化,还要在数据采集环节尽可能地做到规范。 |
【打印本页】 【关闭本页】 |
|
|
|
|