众调网
发起问卷

首页 >  数据分析 > 大数据分析到底需要多少种工具?

大数据分析到底需要多少种工具?

  来源 

大数据分析到底需要多少种工具?

jmlr杂志上最近有一篇论文,作者比较了179种不同的分类学习方法(分类学习算法)在121个数据集上的性能,发现randomforest(随机森林)和svm(支持向量机)分类准确率最高,在大多数情况下超过其他方法。本文针对“大数据分析到底需要多少种工具?”这一问题展开讨论,总结机器学习领域多年来积累的经验规律,继而导出大数据分析应该采取的策略。

1.分类方法大比武

大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等(见图1)。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使用最广泛的一个分支。

图1机器学习分类体系

最近、fernández-delgado等人在jmlr(journalofmachinelearningresearch,机器学习顶级期刊)杂志发表了一篇有趣的论文。他们让179种不同的分类学习方法(分类学习算法)在uci121个数据集上进行了“大比武”(uci是机器学习公用数据集,每个数据集的规模都不大)。结果发现randomforest(随机森林)和svm(支持向量机)名列第一、第二名,但两者差异不大。在84.3%的数据上、randomforest压倒了其它90%的方法。也就是说,在大多数情况下,只用randomforest或svm事情就搞定了。

2.几点经验总结

大数据分析到底需要多少种机器学习的方法呢?围绕着这个问题,我们看一下机器学习领域多年得出的一些经验规律。

l大数据分析性能的好坏,也就是说机器学习预测的准确率,与使用的学习算法、问题的性质、数据集的特性包括数据规模、数据特征等都有关系。

l一般地,ensemble方法包括randomforest和adaboost、svm、logisticregression分类准确率最高。

l没有一种方法可以“包打天下”。randomforest、svm等方法一般性能最好,但不是在什么条件下性能都最好。

l不同的方法,当数据规模小的时候,性能往往有较大差异,但当数据规模增大时,性能都会逐渐提升且差异逐渐减小。也就是说,在大数据条件下,什么方法都能work的不错。参见图2中blaco&brill的实验结果。

l对于简单问题,randomforest、svm等方法基本可行,但是对于复杂问题,比如语音识别、图像识别,最近流行的深度学习方法往往效果更好。深度学习本质是复杂模型学习,是今后研究的重点。

l在实际应用中,要提高分类的准确率,选择特征比选择算法更重要。好的特征会带来更好的分类结果,而好的特征的提取需要对问题的深入理解。

图2不同机器学习方法在数据集增大时的学习曲线。

3.应采取的大数据分析策略

建立大数据分析平台时,选择实现若干种有代表性的方法即可。当然,不仅要考虑预测的准确率,还有考虑学习效率、开发成本、模型可读性等其他因素。大数据分析平台固然重要,同时需要有一批能够深入理解应用问题,自如使用分析工具的工程师和分析人员。

只有善工利器,大数据分析才能真正发挥威力。

如有版权问题,请联系我们删除。

如何做好网站数据分析?
网站运营中,网站数据分析是必不可少的一部分,通过数据分析,才能够判断网站运营的效果。帮助我们更好的优化网站和推广网站,所以,这块是不容忽视的部分。
网站优化专员如何做好网站数据分析
大数据分析到底需要多少种工具?
本文针对“大数据分析到底需要多少种工具?”这一问题展开讨论,总结机器学习领域多年来积累的经验规律,继而导出大数据分析应该采取的策略。 1.分类方法大比武 大数据...
大数据分析到底需要多少种工具?
浅谈数据分析和数据建模
作者:大侠看客大数据应用有几个方面,一个是效率提升,帮助企业提升数据处理效率,降低数据存储成本。另外一个是对业务作出指导,例如精准营销,反欺诈,风险...
浅谈数据建模(原创)
从阿里巴巴笔试试题看数据分析师的职业要求
以下试题是来自阿里巴巴2011年招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么?请列举1种识别连续型变量异常值的...
从阿里巴巴笔试试题看数据分析师的职业要求
如何撰写数据分析报告
小蚊子数据分析 微博 加好友 发纸条 写留言 加关注 博客等级: 博客积分:0 博客访问:3,911,591 关注人气:9,780 获赠金笔:0支 赠出金笔:0支 荣誉徽章...
分析阶段;(4)撰写调查报告阶段
为您推荐
众调网 众调网微信

微信扫一扫关注