0%

数学建模国赛统计类简略思路

统计分析类题目大致流程

https://zhuanlan.zhihu.com/p/294812633

数学建模中有一类相对固定的题目——统计分析类题目,其特点是需要对一些数据进行统计分析评价,得出相关结论,进行预测或设计改进等等。这类问题往往会提供一些数据,如果提供数据了,有可能是从某个位置提取的,可以尝试搜索有没有更全的数据(但要注意不能超出题目要求范围,最多辅助验证构造更好的算法)。也有可能不会提供数据,需要自行查找,此时就需要妥善选择数据,获得的数据不能太少、太偏,也不能太过复杂,如果维度太多或者涉及的角度太多的话会导致分析复杂,不利于解题。

数据预处理

数据清洗

题目如果有要求数据清洗,一般会告知“某某到某某范围是有效数据”,或者在数据中就有标注,如“有效发票”或“作废发票”,在这种情况下,这类数据不具有有效性,没有分析价值,是必须要剔除的。

同时,如果是优化类题目,比如需要为信贷公司做决策,此时就可以将一些失信程度过高的公司提前剔除。

此外,在后续分析中如果出现异常值,如某值超过其他值过多等等,则需要妥善考虑,是题目的重要分析点,还是异常无需分析的数据,需要具体情况具体分析。

数据分析

这里需要使用各种方法和模型进行分析,主要是为了搞明白数据分布情况,以此来决定做题时使用的具体方法和预测模型等等,题目也有可能会明确指出需要分析什么样的信息,比如各个维度的相关关系等等。

统计性描述

先描绘出一些常见属性:均值、中位数、方差、偏度、峰度、集中趋势、离散趋势。

使用折线图、柱状图、饼图、箱线图、散点图等等。