01-案例:航空用户聚类案例.py
"""
目标:
对用户进行聚类
对聚类后的用户评估其价值
对不同价值的客户实行不同营销策略
客户价值:
收入来源于20%的顶端客户
90%收入来自于现有客户
大量资金被投入拓展用户上面
了解航空公司的现状
行业内存在竞争
行业间存在竞争
2012-03-31 ---2014-3-31两年的数据 ---62988样本,44个特征
加载数据并进行数据处理
数据清洗
# 丢弃票价为空的数据 ---保留存在票价的数据
# 丢弃票价为0,折扣不为0,飞行里程>0 的数据 ----航空公司没有盈利的数据
# 保留盈利的数据---保留票价>0,折扣>0,飞行里程>0
特征筛选与特征构建 ---LRFMC
数据规约 ---标准化
进行客户聚类
(1)实例化算法对象
(2)训练数据并构建模型
(3)预测--将客户聚为不同簇
结果展示
# 雷达图
根据结果--取划分不同重要程度的客户
#
应用--针对于不同的客户实行不同的营销策略
"""
import pandas as pd
import numpy as np
def build_data():
"""
加载数据
:return: data
"""
data = pd.read_csv('./air_data.csv', encoding='ansi')
return data
def desc_sca(data):
"""
小数定标标准化
:param data: df 或者series
:return: 标准化之后的数据
"""
# np.floor() --->向下取整
data = data / (10 ** int(np.ceil(np.log10(data.abs().max()))))
return data
def deal_data(data):
"""
数据处理
:param data: 需要的数据
:return: 数据处理之后的data
"""
# 数据清洗
# (1)丢弃票价为空的数据
# ---保留存在票价的数据 -- SUM_YR_1 SUM_YR_2
# 个人认为 :SUM_YR_1 SUM_YR_2 同时不为空的情况下,票价才不为空
bool_index_1 = data.loc[:, 'SUM_YR_1'].notnull()
bool_index_2 = data.loc[:, 'SUM_YR_2'].notnull()
# 同时满足
bool_index = bool_index_1 & bool_index_2
# 筛选数据
data = data.loc[bool_index, :]
# (2)丢弃票价为0,折扣不为0,飞行里程>0 的数据 ----航空公司没有盈利的数据
# 保留盈利的数据---保留票价>0,折扣>0,飞行里程>0
# 个人认为:SUM_YR_1 SUM_YR_2 只要有一个 > 0 ,就认为票价>0
bool_id_1 = data.loc[:, 'SUM_YR_1'] > 0
bool_id_2 = data.loc[:, 'SUM_YR_2'] > 0
# 折扣系数 > 0
bool_id_3 = data.loc[:, 'avg_discount'] > 0
# 飞行里程 > 0
bool_id_4 = data.loc[:, 'SEG_KM_SUM'] > 0
#
bool_id = (bool_id_1 | bool_id_2) & bool_id_3 & bool_id_4
# 筛选满足条件的数据
data = data.loc[bool_id, :]
# print('清洗之后的数据:\n', data)
# 筛选特征 --并构建特征 ----LRFMC
# FFP_DATE --入会时间
# LOAD_TIME --窗口结束时间
# LAST_TO_END --最后一次乘机时间距窗口结束的时长
# FLIGHT_COUNT --飞行次数
# SEG_KM_SUM --飞行里程
# avg_discount ---折扣系数
data = data.loc[:, ['FFP_DATE', 'LOAD_TIME', 'LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM', 'avg_discount']]
# print('筛选结束之后的结果:\n',data)
# 构建特征---LRFMC
# 构建L
# 将 FFP_DATE、LOAD_TIME转化为pandas默认支持的时间序列
data.loc[:, 'FFP_DATE'] = pd.to_datetime(data.loc[:, 'FFP_DATE'])
data.loc[:, 'LOAD_TIME'] = pd.to_datetime(data.loc[:, 'LOAD_TIME'])
# 结束 - 入会
data.loc[:, 'L_days'] = data.loc[:, 'LOAD_TIME'] - data.loc[:, 'FFP_DATE']
data.loc[:, 'L'] = [tmp.days / 30 for tmp in data.loc[:, 'L_days']]
# print(data.loc[:, 'L'])
# 构建R
data.loc[:, 'R'] = data.loc[:, 'LAST_TO_END'] / 30
# print(data.loc[:, 'R'])
# 构建F
data.loc[:, 'F'] = data.loc[:, 'FLIGHT_COUNT']
# 构建M
data.loc[:, 'M'] = data.loc[:, 'SEG_KM_SUM']
# 构建C
data.loc[:, 'C'] = data.loc[:, 'avg_discount']
# 筛选出最终的特征
data = data.loc[:, ['L', 'R', 'F', 'M', 'C']]
# 标准化数据
# 小数定标标准化
for column in data.columns:
data.loc[:, column] = desc_sca(data.loc[:, column])
# print('构建好特征之后的结果:\n', data)
return data
def main():
"""
主函数
:return:
"""
# 加载数据
data = build_data()
print('data:\n', data)
print('data 的列索引:\n', data.columns)
print('*' * 100)
# 数据处理
data = deal_data(data)
print('data:\n', data)
# 聚类
# 结果展示
if __name__ == '__main__':
main()