数学建模模型与方法总结
前言
想了想,实际上数模最重要的还是对于各个模型的熟练程度以及对于题目了解的深度吧。而无论从什么角度来看模型都太多了,我们没有办法全部都深深的印刻到脑子里面,所以我就想着整理一下自己平时看到的,和之前用到的一些模型和算法吧。
当然因为之前偏好的问题,主要是针对数据题,使用统计的算法框架以及机器学习、数据处理等内容,所以有一些题型就太过于笼统了,见谅。
同时在这里借鉴了几篇对于数模大大体框架进行分类的文章,我觉得还是写的非常不错的。
数模题型分类
常考的就是预测模型、分类模型、优化模型、评价模型
模型详解
预测模型
灰色理论预测模型
https://blog.csdn.net/zc0325/article/details/51288241
logistics回归模型
https://blog.csdn.net/feilong_csdn/article/details/64128443
优化模型类
- 排队论模型
- 神经网络优化模型
遗传算法
模拟退火算法
评价模型
评价方法大体上可分为两类,其主要区别在确定权重的方法上。一类是主观赋权法,多数采取综合咨询评分确定权重,如综合指数法、模糊综合评判法、层次分析法、功效系数法等。另一类是客观赋权,根据各指标间相关关系或各指标值变异程度来确定权数,如主成分分析法、因子分析法、理想解法(也称TOPSIS法)等。 目前国内外综合评价方法有数十种之多,其中主要使用的评价方法有主成分分析法、因子分析、TOPSIS、秩和比法、灰色关联法、熵权法、层次分析法、模糊评价法、物元分析法、聚类分析法、价值工程法、神经网络法等。
灰色关联分析法
熵权法
熵权法是一种客观赋权方法,在具体使用过程中,根据各指标的数据的分散程度,利用信息熵计算出各指标的熵权,再根据各指标对熵权进行一定的修正,从而得到较为客观的指标权重。
时间序列模型
数据预处理
cusum
偏自相关系数pacf
,自相关系数acf
AR->ARIMA
这里的话对于这类时间序列模型,必须先做数据分析检验。
ARIMA也是很熟了,主要是要分析参数是怎么确定的。
实际上是可以有LSTM的,但是LSTM实际上是深度学习里面常用的,RNN的升级版,这里就不多赘述了。
VAR
HMM(Hidden Markov Model)
隐马尔科夫链
时间序列异常检测 ADTK
这个主要是python包的使用教程。
https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/115343456
统计方法
相关系数
统计学之三大相关性系数(pearson、spearman、kendall)
DID-PSM
这个是非常新,顶刊很多也用的模型。
选择偏差及其导致的内生性问题,以及缓解这种内生性问题的倾向得分匹配法(Propensity Score Matching,PSM),并且用一实例介绍一下如何将PSM与DID结合,即
PSM - DID
在Stata中的具体操作。
DID
双重差分(Differences-in-Differences,DID),其常用于政策评估效应研究,比如研究‘鼓励上市政策’、‘开通沪港通’、‘开通高铁’、‘引入新教育模式’等效应时,分析效应带来的影响情况。
PSM
数据分布检验
然后就是几个同分布检验方法:
https://blog.csdn.net/abcdefg90876/article/details/113930836
- KS检验
- Overlap Rate
- KL散度
- KDE 核密度估计
关联分析
Apriori
算法
MK趋势检验
使用MK算法检验时序数据大致趋势,趋势分为无明显趋势(稳定)、趋势上升、趋势下降。
Cox-Stuart test和Mann-Kendall test
机器学习
特征工程
smote
smote就是减少数据量的算法,将类似的数据归并。
分类变量编码方法
在上面这个链接的文章里面有以下几种分类变量编码的方式:
- one-hot
- 目标编码(Target encoding)
- 留一法(Leave-one-out)
- 贝叶斯目标编码(Bayesian Target Encoding)
- 证据权重(Weight of Evidence,简称 WoE
- 非线性 PCA(Nonlinear PCA)
聚类
K-Means
密度聚类
DBSCAN
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)。一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为 密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在有“噪声”的数据中发现任意形状的聚类
MDCA
MDCA(Maximum Density Clustering Application):将基于密度的思想引入到划分聚类中,使用密度而不是初始质心作为考察簇归属情况的依据,能够自动确定簇数量并发现任意形状的簇。MDCA一般不保留噪声,因此也避免了由于阈值选择不当而造成大量对象丢弃情况。
自然语言处理
数据预处理
jieba
word2vec
doc2vec
TF-IDF
LDA模型
信号学
这个的话实际上就不太常用了,只是作为一个部分记录一下,很偏,傅里叶变化等等的。