该案例展示了如何利用SCOOP库进行分布式加速计算Geatpy进化算法程序,
本案例和soea_demo6类似,同样是用进化算法来优化SVM的参数C和Gamma,
不同的是,本案例选用更庞大的数据集,使得每次训练SVM模型时耗时更高,从而更适合采用分布式加速计算。
该数据集存放在同目录下的Data_User_Modeling_Dataset_Hamdi Tolga KAHRAMAN.xls中,
有关该数据集的详细描述详见http://archive.ics.uci.edu/ml/datasets/User+Knowledge+Modeling。
在执行本案例前,需要确保正确安装sklearn以及SCOOP,以保证SVM和SCOOP部分的代码能够正常执行。
SCOOP安装方法:控制台执行命令pip install scoop
分布式加速计算注意事项:
1.当aimFunc()函数十分耗时,比如无法矩阵化计算、或者是计算单个个体的目标函数值就需要很长时间时,
适合采用分布式计算,否则贸然采用分布式计算反而会大大降低性能。
2.分布式执行方法:python -m scoop -n 10 main.py 其中10表示把计算任务分发给10个workers。
非分布式执行方法:python main.py
import numpy as np
import xlrd
import geatpy as ea
from sklearn import svm
from sklearn import preprocessing
from sklearn.model_selection import cross_val_score
from scoop import futures
"""
该案例展示了如何利用SCOOP库进行分布式加速计算Geatpy进化算法程序,
本案例和soea_demo6类似,同样是用进化算法来优化SVM的参数C和Gamma,
不同的是,本案例选用更庞大的数据集,使得每次训练SVM模型时耗时更高,从而更适合采用分布式加速计算。
该数据集存放在同目录下的Data_User_Modeling_Dataset_Hamdi Tolga KAHRAMAN.xls中,
有关该数据集的详细描述详见http://archive.ics.uci.edu/ml/datasets/User+Knowledge+Modeling。
在执行本案例前,需要确保正确安装sklearn以及SCOOP,以保证SVM和SCOOP部分的代码能够正常执行。
SCOOP安装方法:控制台执行命令pip install scoop
分布式加速计算注意事项:
1.当aimFunc()函数十分耗时,比如无法矩阵化计算、或者是计算单个个体的目标函数值就需要很长时间时,
适合采用分布式计算,否则贸然采用分布式计算反而会大大降低性能。
2.分布式执行方法:python -m scoop -n 10 main.py 其中10表示把计算任务分发给10个workers。
非分布式执行方法:python main.py
"""
class MyProblem(ea.Problem):
def __init__(self):
name = 'MyProblem'
M = 1
maxormins = [-1]
Dim = 2
varTypes = [0, 0]
lb = [2**(-8), 2**(-8)]
ub = [2**8, 1]
lbin = [1] * Dim
ubin = [1] * Dim
ea.Problem.__init__(self, name, M, maxormins, Dim, varTypes, lb, ub, lbin, ubin)
workbook=xlrd.open_workbook("Data_User_Modeling_Dataset_Hamdi Tolga KAHRAMAN.xls")
worksheet=workbook.sheet_by_name("Training_Data")
self.data = np.vstack([worksheet.col_values(0)[1:],
worksheet.col_values(1)[1:],
worksheet.col_values(2)[1:],
worksheet.col_values(3)[1:],
worksheet.col_values(4)[1:]]).T
self.data = preprocessing.scale(self.data)
self.dataTarget = worksheet.col_values(5)[1:]
def aimFunc(self, pop):
Vars = pop.Phen
args = list(zip(list(range(pop.sizes)), [Vars] * pop.sizes, [self.data] * pop.sizes, [self.dataTarget] * pop.sizes))
pop.ObjV = np.array(list(futures.map(subAimFunc, args)))
def test(self, C, G):
workbook=xlrd.open_workbook("Data_User_Modeling_Dataset_Hamdi Tolga KAHRAMAN.xls")
worksheet=workbook.sheet_by_name("Test_Data")
data_test = np.vstack([worksheet.col_values(0)[1:],
worksheet.col_values(1)[1:],
worksheet.col_values(2)[1:],
worksheet.col_values(3)[1:],
worksheet.col_values(4)[1:]]).T
data_test = preprocessing.scale(data_test)
dataTarget_test = worksheet.col_values(5)[1:]
svc = svm.SVC(C=C, kernel='rbf', gamma=G).fit(self.data, self.dataTarget)
dataTarget_predict = svc.predict(data_test)
print("测试集数据分类正确率 = %s%%"%(len(np.where(dataTarget_predict == dataTarget_test)[0]) / len(dataTarget_test) * 100))
def subAimFunc(args):
i = args[0]
Vars = args[1]
data = args[2]
dataTarget = args[3]
C = Vars[i, 0]
G = Vars[i, 1]
svc = svm.SVC(C=C, kernel='rbf', gamma=G).fit(data, dataTarget)
scores = cross_val_score(svc, data, dataTarget, cv=20)
ObjV_i = [scores.mean()]
return ObjV_i
源代码