用好客商资源柔软
中医减肥 2020年04月03日 浏览:4 次
用好大数据须强调统计思维
大数据从2011年起变成了炙手可热的话题。大数据一词虽然内涵重心是数据,但其中更为重要的统计思维却往往被忽视。而缺乏统计思维的大数据则有可能带来大偏差
。
谷歌流行病趋势模型,曾经被当做推销大数据概念的金牌案例。其作用是预测流感和登革热的流行病趋势,但实践表明,这一模型并没有经得住时间的考验。从2011年8月21日到2013年9月1日期间,谷歌流行病模型在108个星期里有100个星期高估了流行病数据。2013年1月,谷歌流行病趋势模型的估计值是实际数据的2倍。如此大的误差显然是无法接受的。
大数据作为二手数据,缺乏行政监督,很多时候也没有办法控制大数据的样本,大数据的样本往往是有噪音的和冗余的,这些问题给大数据分析带来了一定的障碍。谷歌流行病预测模型的目的是预测全美流感发病率,用的数据是搜索引擎用户的搜索记录。但是,全美国民和搜索引擎用户并不是同一个概念。有流感症状的人并不都会使用搜索引擎查询,而使用搜索引擎查流感症状的人也不见得都得了流感。谷歌流行病模型的基础是流行病发病和各种关键词搜索之间的相关关系,但是这种相关关系不是一成不变的,当媒体大量报道和普及流行病常识时,公众在一定程度上产生恐慌,会带来搜索量的突增,这种突增并不意味着流行病的爆发。这也是谷歌流行病预测模型失败的主要原因之一。
在统计学视角里,样本并不是越大越有价值,统计学强调的是样本的代表性,这一代表性一般是通过抽样调查来满足的。如国家统计局为了更好进行抽样调查,建立了基本单位名录库,名录库就是统计调查中的抽样框,抽样样本均来自于抽样框。抽样框既是选择样本单位的依据,也是推断总体的依据。在分析问题时,弄清楚自己的研究总体是非常重要的,如果大数据样本不是研究总体,也不是研究总体的抽样样本,这个时候用大数据做结论就需要非常小心,不然很容易由大数据带来大偏差。
统计与信息技术联姻,是大数据发展的必由之路。直视当下大数据分析中存在的问题,在利用机器学习算法的同时结合统计学的思维,才能更好地利用大数据这个工具,让大数据时代变得更美。
宝宝健脾的食疗薏芽健脾凝胶疗程小孩便秘怎么办吃什么有没有治疗增生性关节炎的药
四川省生殖医院专家
脑梗死不能说话
子宫内膜炎多久能好口腔综合科
风湿疼痛怎么用药

- 上一篇: iadro终于可以不再吃灰了缘由
- 下一篇 值得注意的是
-
管理火箭又一奇兵复活季后赛曾投全中必有大用
2020-09-18
-
青海体育局组织干部职工开展徒步登山活动
2020-07-09
-
电影河间圣手在京首映
2019-07-13
-
推拿治小儿腹泻受欢迎
2019-07-07
-
中医介绍辣椒有哪些养生功效
2019-07-07
-
淡豆豉的功效与作用
2019-07-07