利用机器学习方法建模对诈骗案件进行研判和处置

文章来源:电信工程技术与标准化,作者:林宇俊,许鑫伶,何洋,鲁银冰
近年来,通信信息诈骗造成的损失逐年递增,且诈骗形式和剧本层出不穷。通信信息诈骗已形成了一条非常完整的犯罪产业链。根据有关机构测算,通信信息诈骗从业者达上百万人,年产业规模已经高达千亿元。目前通信信息诈骗案例集中呈现出了一些新的特征。
一是诈骗模式事件链化、精准化。犯罪分子往往利用社会工程学设置诈骗场景脚本,利用不断升级的诈骗手法、运营商的业务规则和流程漏洞,通过诈骗事件链设置将受害人一步步引入圈套,让人防不胜防。
二是诈骗渠道和手段多样化、专业化,随着科技手段的进步,作案手段已从最原始的发短信、打电话等发展到扫描恶意二维码植入木马病毒、钓鱼诈骗等恶意网站等多种渠道联合作案的新型犯罪手段。
随着5g技术的发展,通信将变得更加便捷,数据源变得更多样化,数据量也会呈现激增的趋势。采用传统的社会治理手段和识别规则难以适应,相关部门和企业防范打击经验不足,防不胜防。
1 研究目的
随着互联网和5g的发展,运营商采集的数据源更丰富,产生的数据量呈指数上升。电信诈骗作案方式也层出不穷,从冒充亲友类的“猜猜我是谁”的常见诈骗方式,到结合了匿名网站、钓鱼网站和垃圾邮件等多种黑产手段的新型诈骗方式。因此,通信信息诈骗案件更难检测和预防,也对通信信息诈骗治理工作提出了更高要求,即须能够利用大数据技术,在短时间内处理海量通信数据,并能利用机器学习方法建模,及时对诈骗案件进行研判和处置。
目前业界主要的骚扰诈骗电话识别方案有以下几种。
(1)语音分析:分析陌生电话语音内容,使用自然语言处理提取行为特征,但造成侵犯用户通话隐私和影响用户感知等不良影响。
(2)阈值匹配:从主叫号码字段匹配及其呼叫频率阈值,再用投诉样本数据对其验证,易造成具有字段特征的普通用户号码被误判,亦难以识别出不具有号码字段特征的诈骗电话,且投诉样本数量少,只有少量诈骗电话被记录。
(3)聚类计算:计算诈骗电话簇和主叫号码簇相似度,并与已确认的诈骗电话特征指标值进行匹配,但易造成广告营销等电话与诈骗电话较为相似,从而误判的情况。且通信信息诈骗形式多变,活跃期短,因而无法得到有效管控。
在5g背景下,由于数据流的数量和速度呈指数上升,识别和防止诈骗的数据处理的复杂程度也随之增大。
在数据源方面:由于5g 将大规模地提供物联网等微服务,因而数据库引擎必须能够从多个通道中提取信令数据,且支持多种数据格式。
在时效性方面:为了更及时有效地识别诈骗行为,需要在秒级别内自动应用数千个内置机器学习规则。
在准确性方面:为了阻止欺诈性交易和用户,底层数据库需要实时分析数千个属性,以做到实时智能和复杂事件处理,例如用户行为、地理位置、设备信息和交易类型等。使用内置机器学习算法,将这些属性与正确的行为进行比较,并在事件中识别和阻断、提醒。
基于上述问题,本文提出了一种治理通信信息诈骗的方法,可利用大数据中的hadoop组件,实现5g时代下从信令中提取疑似码号的通信特征,而后利用xgboost算法,通过对海量黑白样本的学习,建立一套诈骗案件识别模型,能够对通讯信息诈骗进行快速研判和处置。
2 系统技术架构
整体系统技术架构如图1所示。系统主要包含诈骗电话识别、受害程度判定规则及易感人群识别等三大模块。利用信令数据中异常主叫行为及事件链来识别诈骗号码,利用通话相似行为来识别通信信息诈骗受害人,并结合业务运营支撑系统(boss)数据中用户历史通话数据、身份数据和消费数据来对易感程度进行分级。
在诈骗电话识别算法中主要涉及到信令数据中的若干字段,提取用户的通话异常行为,并筛选该通话异常行为前后的通话行为,对与该用户有过通话的主叫号码和被叫号码进行标记,作为疑似诈骗电话集合。从信令数据、boss数据中提取疑似诈骗电话的全部通话特征,依据cart决策树和异常点检测识别规则对是否为诈骗电话进行判别。
若判别为诈骗电话,则筛选出与诈骗电话有过通话行为的所有号码,根据通话行为特征判别上述用户受害程度。
最后根据深度受害人用户通话和消费行为,对易感人群进行画像,从而实现对其他用户的易感程度分级。
图1 整体系统技术架构
3 设计实现
3.1 诈骗电话识别模块
该模块用于精准识别诈骗电话。对于被网络爬虫标记且具有异常通信特征的用户,采用cart决策树模型进行识别。而对于活跃期短或新出现的诈骗电话,利用用户异常主叫及其前后通话行为事件链模型进行识别。
3.1.1 标签样本爬取及样本标记
由于大量已标记的诈骗/骚扰电话样本获取困难。因此采用网络爬虫的方式,将所有样本号码提交到360、百度等网站,利用这些网站自有的黑名单库对样本号码进行检测,爬取被各种手机助手标记的疑似诈骗/骚扰号码信息。将这些可疑号码信息导入数据库用于模型训练。
由于用户在各种手机助手标记手机号码时的不确定性,采用以下方法来提升标记结果的准确性。
(1)当360和百度对同一号码标记,得到的结果相同时,采用该标记结果。
(2)当360和百度对同一号码标记,得到的结果不相同时,对该号码在行为特征上进行分析,选择行为特征逻辑上与标记结果比较符合的作为最终标记结果。如号码1822553****,在百度上标记为骚扰电话,在360上标记为正常号码,从数据库中分析此号码通信行为特征可知,该号码在一天内主叫通话次数14次、主叫率1、主叫联系人个数14、主叫外地联系地个数14、被叫通话次数0、回拨率0、联系人/通话次数比例1等,不太符合正常手机用户的通信行为,因此将该号码标记为骚扰电话。
3.1.2 特征选择及特征统计分析
考虑到诈骗/骚扰电话、响一声电话、呼死你电话在通信行为上与正常电话之间必然存在某些区别,而且这些电话多为主叫,因此选取以下通信行为特征(包括主叫通话次数、主叫外地通话次数、主叫率、主叫联系人个数、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、被叫通话次数、回拨率、活动基站数、联系人/通话次数比例等)进行统计分析。
对某一天某个省的信令数据进行统计分析,以下通过表格的方式对4种号码类型的各项通信特征的统计值进行具体展现,如表1所示。
表1 4类号码通信特征统计值
选择统计分析下较显著的特征(主叫通话次数、主叫率、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、回拨率、联系人/通话次数比例),将两两特征进一步关联分析,用图2直观地展现这4种号码类型在特征上的区别。
图2 4类号码特征区别
从特征统计分析表和两两特征关联分析图可知,正常号码、诈骗电话、响一声、呼死你在某些特征上具有显著区别。具体如表2所示。
表2 4类号码主要特征
从表2可得以下结论。
(1)诈骗/骚扰电话、响一声、呼死你在主叫通话次数、主叫率、主叫通话频率都大大高于正常号码,而在回拨率上大大低于正常号码。
(2)响一声、呼死你相对于诈骗/骚扰电话主叫通话次数更多,主叫外地联系人个数较少,通话频率更高,联系人/通话次数比例极少。
(3)响一声相对于呼死你、诈骗/骚扰电话在主叫通话时长上有显著区别。
为进一步区分这4类号码,引入决策树做具体分析。
3.1.3 基于cart决策树的诈骗电话识别模型
将主叫通话次数、主叫率、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、回拨率、联系人/通话次数比例等共8个特征作为cart决策树的输入变量,决策树深度为5,样本量为100万。目标类型中0代表正常号码、1代表诈骗/骚扰电话、2代表响一声、3代表呼死你。
通过决策树得到的决策规则后,对预测数据采用该规则进行预测,得出疑似诈骗/骚扰电话结果集1。
3.1.4 基于xgboost三分类模型
由于诈骗号码和广告号码没有明确的界限,需对于cart决策树结果中诈骗、广告、普通用户(类型1和类型2的号码)进行进一步识别,即三分类模型。其中诈骗即网络标记为诈骗、骚扰或被用户举报的,广告即网络标记为中介或广告推销等。
三分类标签化处理情况如下:设label0-1代表互联网标签无标记的号码,label1-1代表互联网标签标记为“骚扰” 或 “诈骗”的号码,label2-1代表互联网标签标记为“外卖” 或 “中介”或 “广告” 或 “购物”的号码,label1-2代表第三方数据标记为关停或加黑的号码。
黑白名单划分逻辑如下:白名单(0)代表label0-1号码 + 联系人数小于20的非label1号码,黑名单(1)代表label1-1 号码+ label1-2号码,灰名单(2)代表label2-1号码。
本次xgboost调整的参数如表3所示,其它参数采用模型默认取值,不做调整。
表3 三分类参数设置
获取结果集中的类型3和类型4,与三分类模型输出结果合并为结果集2。
3.1.5 基于事件链的诈骗电话识别模型
对于活跃期短或新出现的诈骗电话难以识别。根据图3所示通信信息诈骗场景图,一般单独一次通话无法完成整个诈骗流程,而多是由诈骗团伙成员各有分工,通过多次通话获得受害人信任,从而完成诈骗。
图3 通信信息诈骗场景
从用户角度而言,大部分用户接到诈骗电话后可短时间内识别,不会有后续通话行为。而无法短时间内识别诈骗电话的用户,则会与诈骗号码及其他号码有交互行为,且通话时间较长。因此可从用户异常主叫行为角度入手,通话挖掘用户异常通话行为,定位疑似诈骗电话,再通过诈骗电话识别规则,对诈骗电话进行精准识别。用户异常行为主要有以下几种。
(1)多个用户短时间内接到了一组陌生电话。
(2)用户在接到某陌生电话后,短期内发生主叫行为,且对象为公共电话。
(3)多个用户在接到某陌生电话后,短期内发生主叫行为,且主叫对象为同一陌生电话。
其中公共电话指110、114和95550等客服电话。陌生号码指30天内未曾与该用户有过通话行为的号码,且排除上述公共电话。
当发生上述异常行为时,记录下陌生电话,并标记为疑似诈骗电话。通过查询疑似诈骗电话的信令、boss数据,匹配该疑似诈骗电话的通话行为和消费行为等,如表4所示。
表4 事件链模型输入特征
诈骗电话和广告推销等非诈骗电话,均具有主叫高频、外地联系人占比高和通话时长长尾型分布等特点。为进一步精确判定诈骗电话,引入离群点检测方法进行精准识别。
由于对于疑似诈骗电话样本,难以获得其是否为真正诈骗的标签,因此采用无监督学习方法中的离群点检测技术,找到疑似诈骗电话中的异常点,作为诈骗电话。将疑似诈骗电话样本集视为x,通过引入基于相对密度概念技术,将离群的得分较高前n个号码视为诈骗电话,诈骗电话识别规则的具体算法步骤如下。
通过事件链模型得出疑似诈骗/骚扰电话结果集3,与疑似诈骗/骚扰电话结果集2进行合并去重得到最后的结果集4。
3.2 受害程度判定规则模块
该利用用户与诈骗电话通话情况,对受害程度进行分级。
对于上述已被识别规则判定为诈骗电话的号码,对被诈骗电话呼叫过的用户进行细分。由于用户对诈骗电话的识别能力具有差异性,部分用户在可以立即判断并挂掉,此类情况受骗可能性较小。而部分用户会在接到诈骗电话后,呼叫亲友、114等号码进行确认,也存在部分用户一天内被多次骚扰的情况,因此需要对多种受害人后续行为场景进行分级,如受害程度判定规则模块所示。
受害人发起主叫的对象分为亲密人、诈骗电话、公共电话和陌生号码4类。
(1)亲密人指在若干天通话记录中,符合亲密人判定规则的联系人。其中亲密人判定规则是指同一归属地,且30内与受害人通话不少于5次的号码。受害人接到诈骗电话后,若拨给自己的亲密人,则认为其在一定程度上相信了诈骗电话,需再次向亲友核实,故将其放入2级深度受害人数据库。
(2)诈骗电话指已被识别规则判别为诈骗电话的号码。受害人接到诈骗电话后,犯罪分子往往会要求受害人拨给一个新号码,该号码多为诈骗同伙,则认为受害人在已完全相信了诈骗电话,故将其放入3级深度受害人数据库。
(3)公共电话指110、114和95550等客服电话。受害人接到诈骗电话后,若及时识别并向110、95550等官方电话进行核实或求助,则认为其收到诈骗可能性较小,故将其放入1级深度受害人数据库。
(4)陌生号码指除了亲密人、诈骗电话和公共电话之外的号码,可能是联系不频繁的亲密人或未标记的诈骗电话,存在一定被骗可能,故将其放入2级深度受害人数据库。
若受害人在接到骚扰电话后未发起主叫,则考察该受害人是否被频繁骚扰,若在此记录前已被多次骚扰,则将其放入2级深度受害人数据库。若为初次骚扰,则将其放入1级深度受害人数据库。
在符合深度受害人定义前提下,再对受害人进行细分,并给出1/2/3级深度受害人的定义。
1级深度受害人:与诈骗骚扰电话通话时长较短,且受害人未发起主叫也未被多次骚扰。或受害人发起主叫,主叫对象为110、95550等公共电话,能够及时中止诈骗。
2级深度受害人:与诈骗骚扰电话通话时长较短,且受害人主叫对象为亲密联系人或陌生电话,存在被骗可能。或受害人在短期内遭到了陌生电话的多次骚扰。
3级深度受害人:与诈骗骚扰电话通话时长较长,超过10min。或受害人在接到诈骗电话后,主动拨给了另一个诈骗电话,被骗可能性很大。
从运营商角度,模拟受害人的受骗心理,从而能够从源头上对电信诈骗受害人进行锁定和监控,为了对用户进行有针对性的电信诈骗防护,引入如下易感人群画像和分类模块。
3.3 易感人群识别模块
该模型根据用户通话和消费行为,对易感人群进行画像和分类。将诈骗电话识别模块已有的诈骗号码数据,将该类诈骗号码联系过的用户进行聚合,得出所有被叫用户的通话类型,将受害人识别模块和受害程度判定模块获得的1/2/3级受害人,分别标记为1/2/3级易感人群,而没有遭受任何诈骗电话侵害的用户标记为潜在易感人群。具体输入变量和输出目标类型如表5所示。
表5 易感人群识别模块输入变量和输出目标类型
基于上述1/2/3类深度受害人和潜在受害人的社交信息、行为信息特征数据,及4类易感人群类别,作为样本数据集合,利用机器学习中的knn算法,获得易感程度分级规则。当输入没有标签的新用户数据后,将新数据的每个特征值与样本集中数据对应的特征值进行比较,然后算法提取样本集中特征最相似的数据的分类标签,具体实现步骤如下。
步骤1:把两组已知的打好标签的用户数据放到hadoop的hdfs上,分别作为训练数据和测试数据。数据的表示形式如下:a用户可以表示成(xa0, xa1, ……xa10),b用户可以表示成(xb0, xb1, ……xb10),其中xa0表示用户a联系人数,xa1表示外地联系人个数,以此类推。
步骤2:通过map函数计算测试数据的节点到训练样本节点之间的距离,其中距离计算方法采用上述mahalanobis距离公式。按照距离递增次序排序,排序的结果作为map的输出结果作为reduce函数的输入量。
步骤3:在reduce函数中,选取与当前节点距离最小的k个点 ,并确定前k个点所在类别的出现频率,最终返回前k个点出现频率最高的类别作为当前点的预测分类。
步骤4:计算测试数据中knn算法的错误率,通过调节k的大小来对分类器进行调优。
步骤5:对于新的用户数据,首先计算其特征值,然后按照步骤2和3,返回易感人群分级类别。
4 结束语
本文设计了一种对通信信息诈骗行为进行识别和对深度受害人进行防控双重防护的方法。该方法结合可获知的可疑样本采用机器学习算法来识别诈骗电话,同时能够根据用户与陌生电话的通话行为,匹配异常通话行为模式,并根据疑似诈骗号码匹配出更多潜在受害人,及时介入并对用户进行提示告警。最后从用户角度,对通信信息诈骗易感程度进行分级。
为了能够更有效地使用论文中的方法来防止5g电话诈骗,下一步需要不断提升本方法识别精度和识别的覆盖能力,以及应对5g电话诈骗新衍生场景的能力。


恩智浦全新Wi-Fi 6产品组合加快在物联网、汽车、接入和工业市场中的大规模采用
Molex Nano-Pitch I/O互连系统登陆贸泽 更小的尺寸 更快速的体验
详细讨论SERDES用到的各种关键技术
热风拆焊台的使用体会,焊台使用经验
RJ45双绞线水晶头的制作方法
利用机器学习方法建模对诈骗案件进行研判和处置
三种降低开关电路中有害dv/dt瞬变的方法
L2级及以上自动驾驶乘用车市场迅猛增长
硬件开发定制全流程解析
工业级8路千兆电交换机的功能特点及应用分析
5G折叠手机面临的问题,5G折叠手机仅是噱头
TriQuint射频芯片组为无线回程微波无线电提供完整的解决方案
智能卡的自动化测试系统机构分析及平台设计
恩智浦(NXP)高效ESD保护的HDMI接口解决方案
为交流电器制作一个可控硅调光电路的教程
龙旗科技主板IPO成功过会
led灯珠的选用原则盘点
ic验证是做什么的 ic验证用什么语言
多家锂电设备企业相继披露2020年度业绩预告
特斯拉认为在中国召回的车辆并不存在缺陷,原本是司机问题导致的
s