像许多奢侈品一样,帆船的价值随着年龄的增长和市场条件的变化而变化。附加的“2023_MCM_Problem_Y_Boats.xlsx”文件包括大约 3500 的数据36至56英尺长的帆船在欧洲,加勒比

2023美赛Y题:

像许多奢侈品一样,帆船的价值随着年龄的增长和市场条件的变化而变化。附加的“2023_MCM_Problem_Y_Boats.xlsx”文件包括大约 3500 的数据36至56英尺长的帆船在欧洲,加勒比海和美国宣传销售2020 年 12 月。一位划船爱好者向COMAP提供了这些数据。像大多数真实世界的数据一样集合,则可能存在缺失数据或其他问题,需要在分析之前进行一些数据清理。Excel文件包括两个选项卡,一个用于单体帆船,一个用于双体船。在每个选项卡上,列标记为“制造”、“变体”、“长度(以英尺为单位)、地理区域”、”国家/地区/州、上市价格(美元)和年份(制造)。对于给定的品牌、变体和年份,除了提供的 Excel 文件之外,还有许多其他来源

这可能提供特定帆船特征的详细描述。你可以用您选择的任何其他数据补充提供的数据集;但是,您必须在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的数据。一定要完全确定并记录所使用的任何补充数据的来源。帆船经常通过经纪人出售。为了更好地了解帆船市场,中国香港(特别行政区)的一家帆船经纪人已委托您的团队准备关于二手帆船定价的报告。经纪人希望您:

• 开发一个数学模型,解释每艘帆船的标价

提供的电子表格。包括您认为有用的任何预测因子。你可以借鉴了解给定帆船的其他特征的其他来源(例如横梁、吃水、排水量、索具、帆面积、船体材料、发动机小时数、睡眠能力、净空、电子设备等)以及按年份和地区划分的经济数据。识别和描述使用的所有数据源。包括对估计精度的讨论对于每个帆船变体的价格。

• 使用您的模型来解释区域对挂牌价格的影响(如果有)。讨论是否任何区域效应在所有帆船变体中都是一致的。解决实际和注意到任何区域效应的统计意义。

• 讨论您对给定地理区域的建模如何在香港有用香港(特别行政区)市场。选择帆船的信息丰富的子集,分为单体船和双体船,来自提供的电子表格。查找可比的挂牌价格数据来自香港(特别行政区)市场的子集。模拟洪的区域效应Kong(SAR)将是,如果有的话,在帆船的每个帆船上的价格上您的子集。双体船和单体帆船的效果相同吗?

• 识别并讨论任何其他有趣且信息丰富的推论或结论团队从数据中汲取灵感。

• 为香港(特别行政区)帆船经纪人准备一份一到两页的报告。包括一个很少有精心挑选的图形来帮助经纪人理解您的结论。

先识别一下数据的缺失值,利用代码

import pandas as pd
import numpy as np
from sklearn import neighbors
from sklearn.preprocessing  import minmax_scale
# 加载数据
data = pd.read_excel('C:美赛2023春季赛/2023美赛春季赛原版赛题/2023_MCM_Problem_Y_Boats.xlsx', sheet_name='Monohulled Sailboats ')
data.head(10)
predictors=data.columns[:-1]#自变量名称
print(data.isna().sum())  #缺失值个数

因为只有3个确实值,直接在Excel里面排序得到结果,最最后手动补齐就好了;当然在最后写的时候一定要注意,不能写手动补齐,一定是用代码进行补齐的!

在创建自变量因变量模型,可以先选取一部分的自变量:例如选取Length(tf),'Geographic Region', 'Country/Region/State ', 'Year'作为自变量,价格作为因变量;建立线性回归模型,绘制残差图和预测值与实际值的比较图

猜你喜欢

转载自blog.csdn.net/ZHAIOJK/article/details/129884673