【读书笔记】只有浅出没有深入的数据分析(二)

第二章是一个咖啡店销售低靡，同样也是给出了表格，这里的是客户的问卷调查。

address = [4.7, 4.6, 4.7, 4.2, 4.8, 4.2]
temperature = [4.9, 4.9, 4.7, 4.9, 4.7, 4.9]
enthusiasm = [3.6, 4.1, 4.2, 3.9, 3.5, 4.6]
coffeevalues = [4.3, 3.9, 3.7, 3.5, 3.0, 2.1]
place = [3.9, 4.2, 3.7, 4.3, 4.3, 3.9]

df = pd.DataFrame({'选址方便': address, '咖啡温度': temperature, '员工热情': enthusiasm, '咖啡价值': coffeevalues, '偏爱去处': place},
                  index=['8月', '9月', '10月', '11月', '12月', '1月']).T

原文中的销量是处在一直下降的，因此我们来看看特征中有没有与之吻合的。同样我们也是使用图表来处理。

plt.figure(1)
plt.subplot(321)
plt.plot(address)
x = [0, 1, 2, 3, 4, 5]
my_xticks = ['Aug', 'Sep', 'Oct', 'Nov', 'Dec', 'Jan']
plt.xticks(x, my_xticks)
plt.ylim(0, 5)
plt.subplot(322)
plt.plot(temperature)
plt.xticks(x, my_xticks)
plt.ylim(0, 5)
plt.subplot(323)
plt.plot(enthusiasm)
plt.xticks(x, my_xticks)
plt.ylim(0, 5)
plt.subplot(324)
plt.plot(coffeevalues)
plt.xticks(x, my_xticks)
plt.ylim(0, 5)
plt.subplot(313)
plt.plot(place)
plt.xticks(x, my_xticks)
plt.ylim(0, 5)
plt.show()

原文给的调查问卷中，客户选择范围是从1～5，1表示完全不同意，5表示完全同意。这里我们设置一下y轴的现实范围。

如果这里不设置范围，采用默认的话，像温度这种比较稳定的成绩，在图表中看起来都会显得很不稳定。

当然，如果不用图表，单单用pandas的describe()我们也可以看到咖啡价值的均值比较低，离散程度比较高。但我认为图表会更直观一些。

然而这是各个区域的数据汇总，原文中后面给出了各个区域的原始数据并建议将数据分开来看。也就是数据分箱。分箱后的数据更具有同质性。

关于提高价值，这里给了我们两个方案：

1.游说让人们认同咖啡的价值

2.降价

这里给出了比较法：

1.划分微区域(和数据的分箱类似，只不过这次是按照地域的分箱，这里微区域的划分不能过于密集，否则人们可能因为旁边的店降价而去那里。)

2.将微区域随机分配给控制组和实验组

3. 控制组维持现状，实验1组降价一个月，实验二组游说一个月。

4.收集结果

5.组与组进行比较

本章整个流程看似很简单，但是如果避免混杂因素确实是一个问题，在使用这种方法的时候一定要尽量排除混杂因素。

【读书笔记】只有浅出没有深入的数据分析(二)

猜你喜欢