day08课件代码

01-案例：航空用户聚类案例.py
"""
目标：
    对用户进行聚类
    对聚类后的用户评估其价值
    对不同价值的客户实行不同营销策略

客户价值：
    收入来源于20%的顶端客户
    90%收入来自于现有客户
    大量资金被投入拓展用户上面

了解航空公司的现状
    行业内存在竞争
    行业间存在竞争
    2012-03-31 ---2014-3-31两年的数据 ---62988样本，44个特征

加载数据并进行数据处理
    数据清洗
    # 丢弃票价为空的数据  ---保留存在票价的数据
    # 丢弃票价为0，折扣不为0，飞行里程>0 的数据 ----航空公司没有盈利的数据
    # 保留盈利的数据---保留票价>0，折扣>0，飞行里程>0
    特征筛选与特征构建 ---LRFMC
    数据规约 ---标准化

进行客户聚类
    (1)实例化算法对象
    (2)训练数据并构建模型
    (3)预测--将客户聚为不同簇

结果展示
    # 雷达图

根据结果--取划分不同重要程度的客户
    #

应用--针对于不同的客户实行不同的营销策略
"""
import pandas as pd
import numpy as np

def build_data():
    """
    加载数据
    :return: data
    """
    data = pd.read_csv('./air_data.csv', encoding='ansi')
    return data

def desc_sca(data):
    """
    小数定标标准化
    :param data: df 或者series
    :return: 标准化之后的数据
    """
    # np.floor() --->向下取整
    data = data / (10 ** int(np.ceil(np.log10(data.abs().max()))))

    return data

def deal_data(data):
    """
    数据处理
    :param data: 需要的数据
    :return: 数据处理之后的data
    """
    # 数据清洗
    # （1）丢弃票价为空的数据
    # ---保留存在票价的数据 -- SUM_YR_1  SUM_YR_2
    # 个人认为 ：SUM_YR_1  SUM_YR_2 同时不为空的情况下，票价才不为空
    bool_index_1 = data.loc[:, 'SUM_YR_1'].notnull()
    bool_index_2 = data.loc[:, 'SUM_YR_2'].notnull()
    # 同时满足
    bool_index = bool_index_1 & bool_index_2
    # 筛选数据
    data = data.loc[bool_index, :]
    # （2）丢弃票价为0，折扣不为0，飞行里程>0 的数据 ----航空公司没有盈利的数据
    # 保留盈利的数据---保留票价>0，折扣>0，飞行里程>0
    # 个人认为：SUM_YR_1  SUM_YR_2 只要有一个 > 0 ，就认为票价>0
    bool_id_1 = data.loc[:, 'SUM_YR_1'] > 0
    bool_id_2 = data.loc[:, 'SUM_YR_2'] > 0

    # 折扣系数 > 0
    bool_id_3 = data.loc[:, 'avg_discount'] > 0

    # 飞行里程 > 0
    bool_id_4 = data.loc[:, 'SEG_KM_SUM'] > 0

    #
    bool_id = (bool_id_1 | bool_id_2) & bool_id_3 & bool_id_4

    # 筛选满足条件的数据
    data = data.loc[bool_id, :]

    # print('清洗之后的数据：\n', data)

    # 筛选特征 --并构建特征 ----LRFMC
    # FFP_DATE --入会时间
    # LOAD_TIME --窗口结束时间
    # LAST_TO_END --最后一次乘机时间距窗口结束的时长
    # FLIGHT_COUNT --飞行次数
    # SEG_KM_SUM --飞行里程
    # avg_discount ---折扣系数
    data = data.loc[:, ['FFP_DATE', 'LOAD_TIME', 'LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM', 'avg_discount']]

    # print('筛选结束之后的结果：\n',data)

    # 构建特征---LRFMC
    # 构建L
    # 将 FFP_DATE、LOAD_TIME转化为pandas默认支持的时间序列
    data.loc[:, 'FFP_DATE'] = pd.to_datetime(data.loc[:, 'FFP_DATE'])
    data.loc[:, 'LOAD_TIME'] = pd.to_datetime(data.loc[:, 'LOAD_TIME'])

    # 结束 - 入会
    data.loc[:, 'L_days'] = data.loc[:, 'LOAD_TIME'] - data.loc[:, 'FFP_DATE']

    data.loc[:, 'L'] = [tmp.days / 30 for tmp in data.loc[:, 'L_days']]

    # print(data.loc[:, 'L'])
    # 构建R
    data.loc[:, 'R'] = data.loc[:, 'LAST_TO_END'] / 30
    # print(data.loc[:, 'R'])

    # 构建F
    data.loc[:, 'F'] = data.loc[:, 'FLIGHT_COUNT']

    # 构建M
    data.loc[:, 'M'] = data.loc[:, 'SEG_KM_SUM']

    # 构建C
    data.loc[:, 'C'] = data.loc[:, 'avg_discount']

    # 筛选出最终的特征
    data = data.loc[:, ['L', 'R', 'F', 'M', 'C']]

    # 标准化数据
    # 小数定标标准化
    for column in data.columns:
        data.loc[:, column] = desc_sca(data.loc[:, column])
    # print('构建好特征之后的结果：\n', data)

    return data


def main():
    """
    主函数
    :return:
    """
    # 加载数据
    data = build_data()
    print('data:\n', data)
    print('data 的列索引：\n', data.columns)
    print('*' * 100)

    # 数据处理
    data = deal_data(data)
    print('data:\n', data)

    # 聚类

    # 结果展示


if __name__ == '__main__':
    main()
return_min
发布了132 篇原创文章 · 获赞 24 · 访问量 5185
私信关注
猜你喜欢