Python使用pandas和numpy判断电影类别(简单分析)
-
因为是简单分析,所以分析的样本也很少,更直观,方便练习。
-
目标:
通过样本数据分析给出的电影数据属于那一类型。 -
样本数据如下:
-
待分析数据:
开始动手:
import numpy as np
import pandas as pd
# 取出数据
data_raw = pd.read_excel('电影分类数据.xlsx')
# 提取出样本数据
sample_data = data_raw.iloc[:, 2:5].values.tolist()
# 提取出目标数据
target_data = data_raw.iloc[:, 6:].columns[1:4]
target_data = [i for i in target_data]
source = []
for sample in sample_data:
source.append(np.sqrt(
(sample[0] - target_data[0]) ** 2 +
(sample[1] - target_data[1]) ** 2 +
(sample[2] - target_data[2]) ** 2
))
data_raw['source'] = [int(i) for i in source]
new_sample = data_raw.iloc[:, [5, 10]]
new_sample = new_sample.sort_values('source', inplace=False)
# 值越小表示靠的越近 越相似
# print(new_sample)
print(new_sample.head(5).iloc[:, 0].mode())