信用卡账单采集解析系统设计

宜信公司创建于2006年,总部位于北京,是一家集普惠金融、财富管理和金融科技等业务于一体的综合性现代服务业企业。宜人贷是中国领先的在线金融服务平台,由宜信公司2012年推出。2015年12月18日,宜人贷 (NYSE: YRD)在美国纽交所成功上市,成为中国互联网金融海外上市第一股。

YEP(Yirendai Enabling Platform)是致力于为中国金融科技行业提供信用评估、风险控制和精准获客的金融科技能力共享平台。宜人贷借款已使用YEP的智能分发平台,为合作伙伴推荐更适合其产品的用户。

宜人蜂巢是数据科学驱动的互联网风控科技平台;通过科技与大数据预测借款人的信用、偿还能力;并实别欺诈、助力贷中贷后风险管理等;从而将公平的信用扩展到更多的人。宜人蜂巢于2013年由李善任先生在宜信宜人贷内部组建团队并成功孵化的项目,通过8大维度:金融、电商、社交、保险、社保、行为、位置等约20种数据源,千余维度特征,亿级关系网络等,帮助企业做出更明智的信贷决策,以扩大公平和透明信贷的可用性。

目前查询量超过6000万次,体验用户超过3000万。通过宜人蜂巢科技平台的促成的放款额已突破1200亿;同时,YEP以宜人蜂巢为代表,从2017年开始为市场和行业赋能,已有诸多来自银行、持牌消金、慈善等行业的百家以上的优秀企业纷纷接入宜人蜂巢的服务;宜人蜂巢正在将自身最引领科技能力赋予行业生态,助力普惠金融业态健康和谐发展!

一.          简介

传统的信用审批流程需要申请人填写大量的申请资料,再由工作人员手工录入申请人的信息到系统里才开始信审,随着大数据金融的发展,建立了这套账单采集解析系统(以下简称:MFA)。在申请人授权之后,MFA对客户邮箱中的信用卡账单数据进行实时采集解析,提取客户的信用卡额度、消费、还款等信息,形成结构化的输出数据,作为客户信用审批的依据,大大降低信审的成本,提高了信审效率。

MFA目前支持对11种邮箱进行采集,44家银行的信用卡账单进行解析

一个完整的采集解析流程如下:

1.png

用户在授权采集信用卡账单之前,要先确认自己的邮箱中是否包含有效的信用卡账单。

接收用户授权信息MFA接收用户邮箱的登录信息,包括用户名、密码等。

扫描二维码关注公众号,回复: 858616 查看本文章

登录邮箱并采集账单邮件MFA使用用户邮箱的登录信息进行模拟登录,通过邮件过滤器的筛选,采集到信用卡账单邮件。

账单反欺诈:通过反欺诈引擎,实时甄别虚假账单和非一手账单。

解析账单:对账单内容进行解析,整理成可输出的结构化数据。

二.          账单采集

账单邮件的采集支持两种方式:POP3协议和WEB页面,通过邮件过滤器的筛选只采集信用卡账单邮件。采集流程如下:

2.png

选择采集器:不同的邮箱种类对应不同的采集器,MFA通过邮箱账号自动匹配相应的采集器。

POP3方式登录/采集:通过邮箱POP3协议进行登录与采集。

过滤邮件:邮件过滤器可以过滤掉不符合条件的邮件,例如非信用卡账单邮件、过期账单邮件等。邮件过滤器可以进行灵活配置,目前过滤准确度可以到达99%

WEB方式登录/采集:如果通过POP3的方式采集失败,则通过邮箱WEB页面进行登录与采集。

2.1 某Q邮箱登录

某Q邮箱WEB登录目前需要进行滑块验证码的验证,MFA通过对滑块验证码前端JS代码进行反混淆、解密、模拟移动轨迹等,突破了滑块验证码的验证规则,提高了模拟登录的成功率。下图是邮箱页面滑块验证码的加密参数示例:

3.png

2.2 某易邮箱登录

某易邮箱WEB页面登录采用网易易盾验证,MFA通过对易盾验证图片二次整合、中文坐标识别、鼠标移动轨迹加密等方式,突破了易盾验证规则,提高了模拟登录的成功率。下图是该邮箱登录页面易盾验证示例:

4.png

三.          信用卡账单反欺诈

信用卡账单反欺诈是通过账单反欺诈引擎对邮件进行实时甄别。该引擎综合运用数据分析与挖掘、计算机视觉和机器学习等人工智能技术,分别通过对邮件头前端拦截甄鉴与邮件内容深度挖掘提炼出数百维度的账单行为特征,通过邮件发送路径反向追踪、 黑白名单筛选、欺诈规则引擎决策输出等,实时甄别虚假账单和非一手账单。

3.1 SPF

SPFSender Policy Framework),发信者策略架构,是为了防范垃圾邮件而提出来的一种DNS记录类型,它是一种TXT类型的记录,用于登记某个域名拥有的用来外发邮件的所有IP地址。它向收信者表明,哪些邮件服务器是经过某个域名认可会发送邮件的。账单反欺诈引擎通过SPF技术识别邮件的发送者是否是可信的。

5.png

假设邮件服务器收到了一封邮件,来自主机的 IP 173.194.72.103,并且声称发件人为[email protected]。为了确认发件人不是伪造的,邮件服务器会去查询example.com SPF 记录。如果该域的 SPF 记录设置允许 IP 173.194.72.103的主机发送邮件,则服务器就认为这封邮件是合法的,如果不允许,则通常会退信,或将其标记为垃圾/仿冒邮件。

3.2 特征分析

分为邮件行为特征分析与账单特征分析,通过对3000GB数据量进行分析,提炼出 44家银行,约2700个行为样本,以这些样本为参照,可以快速识别邮件中的异常行为;通过对上千种账单内容分析,提炼出一套通用的金额计算规则,维度包括卡号、金额、持卡人等,利用这套规则可以从账单内容上识别欺诈行为。下图为识别出的虚假重复账单:

6.png

3.3 机器学习

选取占比较大的邮箱和银行账单数据作为样本,通过大数据技术分析历史数据,提炼出十几种特征,并将特征值标准化处理,通过ID3算法构造出决策树,利用决策树对账单进行分类,达到账单反欺诈甄别的目的。

       ID3算法

通过计算每个属性的信息增益,认为信息增益高的是欺诈账单属性,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成一个能完美分类训练样例的决策树。算法示意图:

7.png

四.          账单解析

为应对繁多的银行信用卡账单样式,解析功能是根据账单模板进行解析,每个账单模板对应一种账单样式。当银行信用卡账单样式发生变化时,需要对账单模板进行更新,以保证解析结果的正确性。目前系统中已包含将近500个模板,已完全覆盖所支持的44家银行的信用卡账单样式。目前只对详版账单(包含交易记录)进行解析,不对简版账单进行解析。

解析流程如下:

8.png

接收账单原文数据:信用卡账单原文数据是指银行发送到客户邮箱的信用卡账单,或网上银行的信用卡账单页面。数据格式必须为HTML,目前不支持其它格式的账单数据。账单原文数据示例:

9.png

简化原文数据:对账单原文数据进行过滤和去噪的过程,包括去除HTML标签、去除广告图片等。简化后的账单数据示例:

10.png

判断是否需要解析:在进行正式解析之前,根据账单内容中的关键字信息判断是否需要进行解析,例如:建设银行账单中若不包含最低还款额,则不进行解析,因为在建设银行账单中不包含最低还款额的账单属于简版账单或没有有效金融信息的账单。

遍历解析模板并进行匹配:遍历账单所属银行下面的所有模板,使用这些模板对账单进行解析,根据解析内容的完整性对每个模板进行打分,分值越高表示模板的匹配程度越高。最后,会将分值最高的模板的解析结果返回。

五.          解析结果

解析后的结构化数据包含两部分:账单详情和交易明细,具体字段及描述如下表:

账单详情:

字段

描述

billBaseInfoId

账单ID。账单唯一识别码。

currencyCode

币种编码,目前只支持解析人民币:RMB

newBalanceAmount

本期应还款总额

billDate

账单日

cashLimit

取现额度

creditLimit

信用额度

balanceBF

上期账单金额(上期应还款金额)

newCharges

本期账单金额(本期新增消费金额)

cardNo

卡号(末四位)

minPayment

本期最低还款额

adjustment

本期调整金额

interest

循环利息

paymentDueDate

到期还款日

cardholder

持卡人

paymenBF

上期还款金额

bankCode

银行编码

isOriginal

是否一手账单, 0:不是,1:是,2转发。该字段是账单反欺诈引擎的判定结果。

 

交易明细:

字段

描述

id

交易明细ID。交易明细唯一识别码。

amount

结算金额

cardNo

卡号

billBaseInfoId

账单ID。账单唯一识别码,每个账单对应多条交易明细。

currencyCode

币种编码,目前只支持解析人民币:RMB

description

交易摘要

transactionDate

交易日

postDate

记账日

bankCode

银行编码

billDetailCategoryId

交易分类ID

periodNo

分期当前期数

periodTotal

分期总期数

 


猜你喜欢

转载自blog.51cto.com/honeycomb2017/2116554