【思考题】类滴滴顺风车业务的风险控制

0. 背景：

1）滴滴顺风车业务在短期内出现多起司机杀害乘客事件

2）专车、快车、顺风车对应的是不同定价水平的“黑车”，该市场长期存在，滴滴等网约车平台只是将其搬到线上。

3）随着专车的网约车牌照审核要求不断提升，一些黑车司机选择顺风车作为获客的来源。同时中国存在许多城镇间交通，这类交通需求出租车、专车不愿意接（过去后很难找到返程的乘客）或者价格昂贵，大巴客运便捷性低速度慢，因此存在顺风车“黑车”的市场空间

4）由于市场需求存在，关闭网约车平台并不能消灭“黑车”以及该市场带来的风险存在，将线下市场线上化，并进行有效监管，才能最终降低该市场的风险

5）滴滴作为平台方，获得了该市场的收益，却不愿意付出风险控制的成本，有无法推卸的责任。简单来说，滴滴只要根据接单频次和固定线路变化情况，就可以挡掉大部分“黑车”司机，近期内出现的顺风车事件就可以避免。以下本文考虑的是“类滴滴顺风车业务”的风险控制，而非“滴滴顺风车业务”

6）首先这是一个产品定位错位以及企业安全风险防范能力缺位的问题，然后才是技术问题。为了聚焦讨论，本文只考虑下述3个技术问题，不考虑更宽泛的风险控制机制的设计：

a. 司机审核：司机犯罪倾向的计算，对高犯罪倾向司机进行下线、评审

b. 成单前：计算派单安全性因子，作为特征加入派单排序系统

c. 订单进行时：订单异常监测，诊断可能发生异常的订单

一、司机犯罪倾向的计算

1）思路：

a. 采用黑/白名单的方式做犯罪倾向计算，黑名单针对异常样本建模，白名单针对正常样本建模，黑/白名单的方式提高对潜在犯罪者的识别能力，也减少对正常司机的误伤

b. 白名单：白名单是一个异常检测问题。由于正常样本数远远大于异常样本数，难以采用二分类建模的方法，因此考虑采用单分类模型（如one-class SVM、深度自编码机），学习单类样本的最小边界，边界外为异常样本；或者直接采用统计的方法，根据白名单样本得到正常司机的模式，与正常模式差异较大为异常样本。由于司机类别多样，白名单可以通过聚类的方法得到各种类别司机的模型，然后识别异常样本

（参考：https://blog.csdn.net/u013382288/article/details/80460986，https://www.cnblogs.com/alisecurity/p/6378869.html）

c. 黑名单：黑名单是一个lookalike问题，基于少量的犯罪司机样本，扩展到更多有较大犯罪倾向的司机。“犯罪司机样本”为历年已经有记录的司机样本，“犯罪倾向司机样本”需要人工标识，基于投诉率、投诉内容、乘客评价、平台外犯罪记录等信息，人工过滤出一批“犯罪倾向司机样本”。基于“正常样本”和“犯罪倾向司机样本”，训练二元分类模型，通过模型计算出每个司机的“犯罪倾向”。不同犯罪类型、犯罪动机的司机难以用一个分类器进行识别，可以针对不同犯罪类型/犯罪动机建立不同的分类器，然后对这些分类器用adaBoost方法集成

（参考：https://blog.csdn.net/u013382288/article/details/80537167，http://bbs.qcloud.com/thread-10745-1-1.html）

d. 歧视问题：黑/白名单模型可能会带来歧视问题，如性别歧视/地域歧视/职业歧视，模型歧视的来源是训练数据样本有偏，需要人工标注者注意样本的采样问题、以及一个样本多人标注的方式降低歧视（如有些标注者直接通过省份查找“疑似异常样本”，然后再进行标注，那么标注数据集中该省份的犯罪率就偏高）

（参考：https://blog.csdn.net/u013382288/article/details/82178420，https://www.leiphone.com/news/201805/UPjA3tnsC9HY4SLx.html）

2）特征工程：

a. 基本个人信息：性别、年龄、职业、籍贯

b. 违规/被投诉行为

c. 评分：乘客对司机的综合评分，以及近期评分与往期评分的比值（如历史表现良好，近期突然下降，可能是别的司机冒用了该账号）

d. 接单行为：总接单数、订单完成率、历史订单时长

e. 单一手机号码使用时长

f. 社会信誉：外部信息，包括芝麻信用、负债金额、P2P平台借款金额等（数据较难获取，但近期的两起顺风车事件中，司机均在P2P平台有较大额度的借款）

g. 司机类型：上下班顺风车司机、职业顺风车司机（黑车司机）、社交属性顺风车司机（个人认为，后两者是钻法律空子，打着共享出行的旗号规避网约车的监管制度，应该直接取缔）

f. 常用线路：某些线路投诉率较高，司机存在犯罪机会

g. 社交关系：司机之间的联系关系，在社交关系网络中识别出小群体，某一类司机小群体具有较高的犯罪率（数据较难获取，需要卧底进入司机的微信群、qq群）

二、成单前：提高派单安全性

1）思路：

a. 建立二分类模型：根据投诉内容，将涉嫌性骚扰/暴力/勒索等订单找出，作为异常样本。基于正常订单样本和异常订单样本，训练二元分类模型

b. 输出危险得分：匹配订单时，通过训练好的模型输出司机-乘客-线路三元组的危险得分，作为订单排序的一个指标，对于可能有危险的线路进行排序降权以及下线

2）特征工程：

a. 司机：可信任程度（见“一、司机犯罪倾向的计算”）

b. 乘客：风险程度

i1：个人信息，包括年龄、性别、职业等。（非性别歧视，只是模型对于女性、较低年龄的乘客，需要提高安全阈值，优先匹配信任程度更高的司机）

i2：乘车行为，包括乘车次数、消费金额、笔单价等，能反映乘客对网约车业务的熟悉程度，以及乘客的财富水平

i3：乘客评价，包括司机对乘客的评分、评论文本和标签

i4：外部信息，包括手机设备型号（财富水平）

c. 订单：

i1：订单线路与司机常用线路的差异

i2：地区人流程度（起点、路程中最小人流程度、终点）

i3：订单预定时间

i4：路程长度

i5：是否跨城镇交通

三、订单异常诊断

1）思路：

a. 建立二分类模型：根据投诉内容，将涉嫌性骚扰/暴力/勒索等订单找出，作为异常样本。基于正常订单样本和异常订单样本，训练二元分类模型

b. 输出危险得分：订单执行时，通过训练好的模型输出司机-乘客-线路三元组的危险得分，当分数超过一定阈值，人工介入询问乘客安全，输出乘客信息、司机信息、车辆信息，及时报警与提供支持

2）特征工程：

a. 司机：可信任程度（见“一、司机犯罪倾向的计算”）

b. 乘客：风险程度

i1：个人信息，包括年龄、性别、职业等。（非性别歧视，只是对于女性、较低年龄的乘客，需要提高安全阈值，优先匹配信任程度更高的司机）

i2：乘车行为，包括乘车次数、消费金额、笔单价等，能反映乘客对网约车业务的熟悉程度，以及乘客的财富水平

i3：乘客评价，包括司机对乘客的评分、评论文本和标签

i4：外部信息，包括手机设备型号（财富水平）、

c. 线路：

i1：实际线路与导航线路的偏移程度

i2：线路起点与终点

i3：线路经过的地点（某些地点存在高犯罪率）

i4：车辆非堵车下情况下，在某一地点长期停留的时间和地点

i5：是否跨城镇交通

d. 外部环境：

i1：下单时间:

i2：地区人流程度（起点、路程中最小人流程度、终点）

i3：订单取消时间（判断是否司机让乘客上车后，取消订单，然后线下收费）

e. 订单结束：

i1：乘客的评分、评价（低分直接介入）

i2：实际下车点与原始下车点的差异

（参考https://mp.weixin.qq.com/s/wVKeuY9I6Ji61XDNTFq60A）

【思考题】类滴滴顺风车业务的风险控制

猜你喜欢