一文解析统计学在机器学习中的重要性

2018-10-23 13:37 作者:产品案例 来源:ag88.com

  ☞【下载】2015中国数据分析师行业峰会精彩PPT下载(共计21个文件)

  本文共2400字,建议阅读10分钟。本文介绍为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。

  您可以使用描述性统计方法将原始观测数据转换为您可以理解和共享的信息,也可以使用推断统计方法,通过数据的小样本对整个域进行推理。

  在这篇文章中,您将明晰为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。

  统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。

  机器学习和统计是两个密切相关的研究领域,统计学家把机器学习称为“应用统计”或“统计学习”,而不是以计算机科学为主来命名。

  对于初学者而言,机器学习的前提是他应具备一定的统计学背景。我们可以用挑选樱桃的例子来做个解释。

  ”读者应掌握一些基本统计知识,包括方差、相关、简单线性回归和基本假设检验(如p值和检验统计)“

  即使统计学不是先决条件,但还是需要一些简单的先导知识,正如广为人知的《编程集体智慧》一书的引语所言:

  “这本书并不认为你事先就知道[…]或统计学[…] 但是,掌握一些三角学和基本统计知识将有助于你理解算法。”

  虽然这些问题看起来很简单,但必须回答这些问题,才能将原始观察的数据转化为我们可以使用和分享的信息。

  除了原始数据,我们还可以设计实验来采集观测数据。根据这些实验结果,我们可能获得更为复杂的问题,例如:

  这样看来,我们需要利用统计方法,不但用它来了解用于训练机器学习模型的数据,而且用它来解释测试不同机器学习模型的结果。

  统计学是对疑难问题进行数值猜想的艺术。[…]这些方法是几百年来由那些为自己的问题寻找答案的人开发出来的。

  由于该领域采用抓斗袋的方法来处理数据,对于初学者来说,它可能看起来大而无形。统计方法和其他研究领域的方法之间很难区分开来。通常,一种技术既可以是一种经典的统计方法,也可以是一种用于特征选择或建模的现代算法。

  虽然统计知识并非没有深奥的理论知识,但从统计与概率的关系中得出的一些重要、容易理解的定理,可以提供有价值的理论基础。

  第一个可以帮助我们理解为什么较大的样本往往更好,第二个定理为我们比较样本之间的期望值(例如:平均值)提供基础。

  统计数据使研究人员能够从大量的采集到的信息或数据,从中总结出典型的经验。[…]统计数据也用导出关于群体间普遍差异的结论。[…]统计数据也可以用来判断两个变量的得分是否相关,并进行预测。

  通常,我们认为描述性统计是对数据样本统计值的计算,以便总结数据样本的属性,例如共同的期望值(例如平均值或中值)和数据的价差(例如方差或标准偏差)。

  描述性统计还涵盖利用图形方法对数据样本进行可视化。图表和图形可以提供对观测的形状或分布以及变量的相关做出定性理解。

  推断统计是一个有意思的名称,它是通过从一组较小的被称为样本的观察数据进行量化从而提炼出域或总体属性的方法。

  通常,我们认为推断统计是从总体分布中估计出特征值,如期望值或价差的估计等等。

  可以利用复杂的统计推断工具来量化给定观测数据样本的概率。这些工具通常被称为统计假设检验工具,其中检验的基本假设称为零假设。

  有许多推断统计方法的例子,为增加测试数据的正确性,我们可以对假设的范围做出限定。

  在这篇文章中,您已明晰为什么统计在机器学习中如此重要,对于机器学习,统计提供了许多通用且可行的方法。

  统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。

  陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,好的产品一定具备两个先行 附Facebook微软案例。历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步

  10万读者睿选:【2016年TOP100】【2015年TOP100】CCTV大数据名人讲堂PPT&视频:【万亿元大数据产业】【安全】【城市】【农业】【航运】【数据资产变现】

  大数据100分:【金融】【制造】【餐饮】【电信】【电商】【更多行业大数据应用请点击底部导航栏BD100分】;

  大数据/人工智能数据竞赛:【Kaggle经验分享】【NetFlix百万美金】【Kaggle案例】【2017BDCI】【2017BDCI嘉年华】【滴滴算法大赛】

  人工智能:【阿里】【埃森哲】【经济社会】【美国AI国家战略】【伯努利】【李开复】【TOP100】【2016中国AI报告】【美国AI国家规划】【深度学习】【人智合一】【人脸识别】【人脸识别企业PK】【无人驾驶】【AI知识体系】【神经网络】

  可视化:【2017年获奖】【2014年最佳】【十大标志性作品】【43款工具】

  PPT:【大数据产业地图】【数据之巅】【互联网的未来】【软件正吃掉整个世界】【互联网思维】【互联网+】【一带一路】;

  VC:【大数据投资】【2015创投趋势】【2014投资报告】【倒闭教训】;

  原创:【陈新河:万亿元大数据产业新生态】【软件定义世界,数据驱动未来】【数据交易】【互联网+观点】。

  底部新增导航菜单(点击顶部“软件定义世界(SDX)”,点击“进入公众号”,底部菜单栏即出现),下载200多个精彩PPT,持续更新中!

  ❷ 大数据思想的策源地、产业变革的指南针、创业者和VC的桥梁、政府和企业家的智库、从业者的加油站;

  受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

上一篇:扇贝单词产品分析报告环亚ag88.com   下一篇:没有了