逻辑回归 - 癌细胞精准识别

任务描述

使用逻辑回归算法建立一个模型，并通过梯度下降算法进行训练，得到一个能够准确对癌细胞进行识别的模型。

数据集介绍

乳腺癌数据集，其实例数量是 569 ，实例中包括诊断类和属性，帮助预测的属性一共 30 个，各属性包括为 radius 半径（从中心到边缘上点的距离的平均值）， texture 纹理（灰度值的标准偏差）等等，类包括： WDBC-Malignant 恶性和 WDBC-Benign 良性。用数据集的 80% 作为训练集，数据集的 20% 作为测试集，训练集和测试集中都包括特征和类别。其中特征和类别均为数值类型，类别中 0 代表良性， 1 代表恶性。

构建逻辑回归模型

由数据集可以知道，每一个样本有 30 个特征和 1 个标签，而我们要做的事就是通过这 30 个特征来分析细胞是良性还是恶性(其中标签 y=0 表示是良性， y=1 表示是恶性)。逻辑回归算法正好是一个二分类模型，我们可以构建一个逻辑回归模型，来对癌细胞进行识别。模型如下：
在这里插入图片描述

训练逻辑回归模型

我们已经知道如何构建一个逻辑回归模型，但是如何得到一个能正确对癌细胞进行识别的模型呢？通常，我们先将数据输入到模型，从而得到一个预测值，再将预测值与真实值结合，得到一个损失函数，最后用梯度下降的方法来优化损失函数，从而不断的更新模型的参数 θ ，最后得到一个能够正确对良性细胞和癌细胞进行分类的模型。
在这里插入图片描述

编程要求

构建一个逻辑回归模型，并对其进行训练，最后将得到的逻辑回归模型对癌细胞进行识别。

通关代码：

# -*- coding: utf-8 -*-

import numpy as np
import warnings
warnings.filterwarnings("ignore")

def sigmoid(x):
    '''
    sigmoid函数
    :param x: 转换前的输入
    :return: 转换后的概率
    '''
    return 1/(1+np.exp(-x))


def fit(x,y,eta=1e-3,n_iters=1e4):
    '''
    训练逻辑回归模型
    :param x: 训练集特征数据，类型为ndarray
    :param y: 训练集标签，类型为ndarray
    :param eta: 学习率，类型为float
    :param n_iters: 训练轮数，类型为int
    :return: 模型参数，类型为ndarray
    '''
    #   请在此添加实现代码   #
    #********** Begin *********#
    theta = np.zeros(x.shape[1])
    i_iter = 0
    while i_iter < n_iters:
        gradient = (sigmoid(x.dot(theta))-y).dot(x)
        theta = theta -eta*gradient
        i_iter += 1
    return theta
    #********** End **********#

在这里插入图片描述

若年封尘

发布了126 篇原创文章 · 获赞 665 · 访问量 7万+

私信关注