当前位置:广昱文档网 >专题范文 > 公文范文 >

涉诈网络平台的检测技术研究与实现*

时间:2023-10-09 10:50:33 来源:网友投稿

孟彩霞 毛夏怡 林俊豪

1. 铁道警察学院 2. 广州铁路公安局 3. 南昌铁路公安局

近年来,各类电信网络诈骗犯罪与前沿网络技术相结合,手法更迭迅速、窝点扩散广泛、作案群体专业、黑灰产业泛滥,全国涉诈警情数量仍处高位,涉案金额不断攀升。国内外研究者为遏制不法分子利用网络平台实施诈骗的违法犯罪行为,提出了许多检测方法,主要包括传统检测方法和深度学习检测方法。PhishTank平台收集了世界各地提交的可能与诈骗有关的网站,利用黑白名单方法对比和分析用户提交的数据是否是平台收集的可疑涉诈网站[1]。该方法无法处理名单中暂不存在的数据,可能造成漏判的情况。启发式方法是依赖人为经验以及有效特征信息的检测方法,通过建立规则来实现网页的检测,Sachin、Birmohan提出的AVBMEO以及Yang hulin等人使用的TF-IDF统计算法[2],都使用了启发式方法。但是随着涉诈网站和正常网站之间的差异性逐渐缩小,规则更新也愈加困难[3],导致检测误判率较高。视觉相似性方法是比较网站的外观显示界面特征,计算相似度是否达到某一阈值来判断网站是否涉诈,Fu等人提出了基于Earth Mover” s Distance的检测算法以及朱怡等人研究的基于视觉特征的仿冒域名检测方法[4]。该方法计算负担较重,对视觉特征不同的网页难以检测成功。机器学习相关方法大多是基于收集到的特征集,具有较强的数据分类和聚类能力,检测准确性更高,Sandeep Kumar Satapathy等人使用的朴素贝叶斯和支持向量机模型对涉诈网站进行分类[5]。但该方法需要消耗大量的底层系统时间,且处理特征集以外的数据比较困难。基于传统人工特征提取的深度学习检测方法可以有针对性地提取所需特征,能够得到较好的准确率,解决维度系数灾难问题,具有一定的泛化能力[6]。袁其祥通过手工提取20个URL的特征,通过预处理和字符嵌入将URL处理为向量的形式,再使用卷积神经网络和双向长短期记忆网络进行特征提取,构建深度学习模型,使其具有较高的鲁棒性[7]。但是,这种方法需要人工提取特征,对复杂特征的处理能力有限,导致学习过程耗时费力。基于表征学习的深度学习检测方法可以自动抽象出语义特征,节省大量成本。Priya、Selvakumar等人将URL字符串表示成特征向量,再输入深度学习模型进行训练[8],实现了对涉诈网站的快速检测,具有良好效果。该方法节省了繁杂特征提取的过程,但仅仅检测URL的特征不够全面,没有对网络平台进行整体分析,识别准确率还有待提高,可能会出现误判漏判的情况。

基于电信网络诈骗的严峻形势,本文通过表征学习、双向长短期记忆神经网络与特征融合训练检测模型,将网站的各类属性分别表示在矩阵空间上,将表征矩阵输入CNN 和BiLSTM并添加Attention机制,从而学习更多隐含特征,精准快速检测涉诈网站,为公安机关办理电诈案件提供新的思路。

(一)卷积神经网络

卷积神经网络(Convolutional Neural Networks,CNN)被广泛用于图像识别和分类,近年也流行于网页检测上,通过将网页数据转换为矩阵的形式,进行训练学习。

CNN通常包括输入数据、提取特征、识别分类三个部分,由卷积层、池化层和全连接层组成,主要特点是能够通过“卷积核”捕获局部特征,降低计算复杂度,减少训练时间,使训练模型更加稳定。

(二)双向长短期记忆神经网络

双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,BiLSTM),能很好地获取整句话乃至上下文信息,通过全面分析历史信息和预测信息,更充分地学习数据的隐含特征。如图1所示,BiLSTM通常由一组向前的LSTM和一组向后的LSTM结合而成,将结果拼接输出。

(一)特征分析

1. URL字符串特征分析

URL为网站的访问链接,是用户进入网站的入口,由协议、域名、端口、文件路径、参数五部分组成。根据目前网站发展趋势,结合现阶段研究者提出的特征,分析出以下有利于区分是否为涉诈网站的特征信息。

(1)URL域名中是否存在IP地址。由于大量域名已被合法网站注册,涉诈网站没有注册到合适的域名,或者因为注册域名需要实名认证,而使用域名进行诈骗可能更加容易被监管人员追踪,从而使得URL域名直接显示为IP地址的形式。

(2)URL中域名拼写错误。一些涉诈网站可能会刻意模仿大型正常网站的域名来混淆视听,例如将“taobao”更改为“taoba0”。

(3)URL的端口号。不同端口对应不同服务,比如HTTP一般为80,HTTPS一般为433,而22端口通常用来实现远程连接服务,开放此端口可能存在恶意网络行为。

(4)URL中是否出现特殊敏感字符。观察许多涉诈网站URL后发现,在其路径部分,可能出现一些敏感词,比如“login”“account”等;
而在参数部分,可能出现中文字符被编码的情况,比如“网络诈骗”将被浏览器解析为“%E7%BD%91%E7%BB%9C%E8%AF%88%E9%AA%97”。

(5)URL中是否包含“@”。浏览器解析URL字符串时,会忽略“@”之前的内容,例如在浏览器中访问“https: //www.baidu.com@vip.com/”,其实进入的是“https://www. vip.com/”。

(6)URL字符的长度。涉诈网站可能存在URL过长的问题,字符排列随机,信息熵值较大,也有些涉诈网站为了解决这一问题,采用短链接的形式发送给受害者。

(7)URL中“.”的数量。正常URL一般使用两个“.”来分割域名,如果一个URL中“.”出现的次数过多,则可能存在多个域名,存在涉诈风险。

(8)URL中“//”的数量。URL参数中可能开放重定向,将真正想让用户请求访问的链接放到参数中,导致一个URL中含有多个“//”,从而实现页面重定向。

(9)URL中标志信息的来源。网页加载时,图像标志信息通常会一起加载,正常情况下,这些图标和网站URL来自同一域名,如果来自不同域名,则存在虚假网站的可能。

(10)URL中数字、特殊字符的数量。涉诈网络平台通常含有很多数字和特殊字符。

2. HTML特征分析

HTML是由一系列元素构成的用于定义内容结构的标记语言,浏览器解析元素的标签,可以形成DOM树,如图2所示。

首先对HTML内容进行深入分析,许多涉诈网站在模仿其他大型网站时,通过修改其HTML文本内容来实施诈骗,从而考虑到可能存在以下特征。

(2)HTML文本关键词。涉诈网站为引诱用户进行一系列操作,获取用户个人隐私,可能会在网页中加入一些奖励机制,诱导用户进入圈套,比如显示登录有奖、可获益等关键词。

(3)HTML文本内容长度。据统计,正常网页和涉诈网页与其HTML文本内容长度的关系如图3所示,HTML文本长度越长,正常网站数量所占比例越高。

(4)HTML标签内是否含有敏感词。比如标签中包含Email、password等敏感词,容易导致用户信息泄露。

3. DOM结构特征分析

许多涉诈网站在模仿其他大型网站时,为降低成本,可能直接通过脚本自动生成,而导致HTML文本内容的差异性不大,但本质上的DOM结构却会存在较大差异。通过分析,DOM结构可能存在以下特征。

(1)DOM结构的相似性。涉诈网站通常都具有类似的目的,比如获取用户个人信息、账号密码等内容,因此其在网页结构上可能存在一定的相似性。

(2)DOM结构长度。涉诈网站制作可能较为简单,与正常网站相比,在DOM结构长度上可能具有一定的差异。据统计,涉诈网页和正常网页与其DOM结构长度的关系如图4所示,DOM结构长度越长,正常网站数量所占比例越高。

(二)模型结构设计

1. 流程设计

在深度学习领域,判别网站是否涉诈,可以看作一个二分类问题,具体而言可分为是涉诈网站和不是涉诈网站两类。根据上一节的特征分析可知,采用深度学习技术检测网站是否涉诈的方法具有一定的可行性。考虑到手工提取特征的工作量较大,本实验通过表征学习技术自动处理原始样本数据,再结合深度学习技术有效提取特征信息,基本实现对涉诈网络平台的检测。

具体流程主要包括数据获取、网页表征、模型搭建、结果分类四大步骤,如图5所示。

实验所需的正常网站和涉诈网站数据分别来自Alexa和PhishTank两大平台。其中Alexa平台收录有上十亿的合法网站链接,并且根据每个链接的访问量、浏览量等数据进行综合排名,可以作为正常网站数据集的收集渠道。而PhishTank平台则收录了大量非法涉诈网站数据,目前已累计记录七百多万条数据,并且每天实时更新,可以在此获取涉诈网络平台的最新数据。

2. 网页表征

表征学习可以将原始样本自动表示为模型的输入数据,为深度学习提取特征信息奠定基础,提高运算效率。在检测涉诈网络平台时,可以将网页表征为矩阵的形式,从URL、HTML、DOM三个角度分析每一个网页,有效表达复杂多变的特征。

此次表征学习技术的实现主要包含样本标准化、网页嵌入表征两大步骤:

(1)样本标准化是对原始数据集进行预处理。首先将输入样本看作是一条条的文本信息,对文本中的词句进行分割,统计每个数据长度,然后将原始数据序列化,固定序列长度为L,超过L的部分截取为新的序列,小于L的部分使用填充,再构建映射表对标准序列进行编码。

(2)网页嵌入表征是先将映射后的序列用独热编码(one-hot)表示,然后输入嵌入层(Embedding Layer)降低矩阵维度,解决独热编码矩阵较为稀疏、易造成维度灾难的问题,再通过迭代更新、优化权重系数,防止过拟合,最终将网页表征成一个低维向量空间。

以URL为例,正常网站的URL和涉诈网站的URL往往在字符频率、位置和特殊字符出现次数上有着不同的特征信息,如表1、表2所示。

?

?

据此,对URL的具体表征过程如下:

①计算URL中包含的字符,并按字符数量大小创建一个语料库;

②固定字符串的长度L1=200,超过L1的部分截取为新的序列,小于L1的部分使用填充;

③根据语料库构建映射表,对URL进行标准化编码,其中[1,96]映射表由26个大写字母、26个小写字母、10个数字、33个特殊字符和1个填充符组成。

为更好地学习,除了处理单个字符之外,还将对URL中的词进行优化处理:

①先使用“:”“//”“.”特殊字符将URL分割成“单词”的形式,根据词频统计,建立语料库,如(“www”,“google”,“com”);

②然后固定URL单词数量N1=100,超过N1的部分截取为新的序列,小于N1的部分使用填充;

③最后根据语料库的大小建立映射表,对URL进行编码。

URL分别经过上述标准化处理后,再进行嵌入表征:

①将映射后的序列用one-hot表示,如标准化编码(2,3),对应的one-hot为[[0,1,0,…,0],[0,0,1,…,0]];

②将独热编码矩阵W输入Embedding Layer再次降低维度,与随机权重参数x相乘,得到较小矩阵V,见公式(1)。输入Embedding Layer是因为通过字符标准化编码得到one-hot矩阵较为稀疏,容易造成维度灾难问题。

最终将URL字符串表征为两个低维向量空间,过程如图6所示。

进一步解析URL字符串,将其处理成HTML本文信息和DOM结构。分别对HTML的词、句进行表征,结果如图7所示;
对DOM结构进行表征,结果如图8所示。

3. 模型搭建

实验构建的深度学习模型由CNN-BiLSTM改进而成,在CNN、BiLSTM的基础上添加了注意力机制(Attention)和特征融合,最后通过全连接输出分类结果,其中输入数据为URL、HTML、DOM表征学习得到的矩阵。

(1)卷积神经网络层

CNN对输入的表征矩阵进行卷积与池化。卷积核数量为k,大小为j×j,步长为s,与输入矩阵W进行卷积运算,得到新的矩阵Q,计算公式见(2)。池化窗口大小为k×k,采用最大池化处理,得到CNN层的输出序列Z,计算公式见(3)。

(2)双向长短期记忆神经网络层

BiLSTM能够通过隐藏层学习向前、向后两个方向的信息,利用记忆单元和门控机制管理特征信息,将池化后的Z输入到BiLSTM层,得到特征序列H,公式见(4)。

(3)注意力机制层

Attention用于提高重要信息的影响程度。在t时刻BiLSTM层输出Ht时 ,设置一个权重矩阵wa和 tanh偏置ba,计算出注意力参数et, 通过softmax得到归一化权值αt,最后加权求和得到一个新的特征向量C,公式见(5)~(7)所示。

(4)特征融合层和输出层

在特征融合层中,将URL、HTML、DOM经过Attention 输出的特征向量Cu1、Cu2、Ct1、Ct2、Cd,采用首尾拼接组合的方法,分别进行特征融合,将得到Cu、Ct、Cd序列输入全连接层,重组后再度拼接组合,最后全连接得到新序列A,特征融合过程如图9所示。

在输出层,模型采用Sigmoid函数实现二分类问题的预测,公式见(8)。判断是否为涉诈网络平台。

(一)数据集

实验数据集分为训练、验证和测试三个部分,分别为7:2:1,如表3所示。其中训练集用于训练神经网络模型;
验证集用于检验模型的有效性,并调节模型参数,直至接近理想效果;
测试集则用于测试训练好的模型,输出评价指标。

?

(二)实验参数

1. 系统环境

实验采用Windows10操作系统,TensorFlow2.3.0、Keras2.3.0框架,以及Anaconda4.8.3、Python3.6.7编译环境。

2. 模型参数

模型设置卷积神经网络中的卷积、池化层数为1,卷积核大小为5×5、数量为128、步长为1,池化窗口大小为3×3。双向长短期记忆神经网络中的层数为1,隐藏单元为128。全连接层数为3。批量数为64,Dropout为0.5,迭代次数为100。

(三)评价指标

对于二分类问题的检测主要涉及4种情况,以本实验为例,分别为:

①TP:被模型预测为涉诈的网站中,实际为涉诈网站样本的数量;

②FP:被模型预测为涉诈的网站中,实际为正常网站样本的数量;

③FN:被模型预测为正常的网站中,实际为涉诈网站样本的数量;

④TN:被模型预测为正常的网站中,实际为正常网站样本的数量。

根据以上情况,实验采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1这4个评价指标。Accuracy表示被预测正确的网站数量占所有网站的比例,公式见(9)。Precision表示在所有被预测为涉诈的网站中实际为涉诈网站样本的概率,见公式(10)。Recall表示在实际为涉诈网站的样本中被预测为涉诈网站的概率,见公式(11)。F1是一个综合指标,它是精确率与召回率的调和平均,取值在0到1之间,F1越大性能越好,公式见(12)。

(四)结果分析

1. 模型结果

实验通过多层神经网络对不同特征进行分别训练、融合输出,提高了模型的准确性,训练过程中Accuracy和Loss的变化如图10、图11所示。

最终得到的各项评价指标值如表4所示,各项性能结果较优。

?

2. 对比实验

在上述实验的基础上,分别从输入数据和模型结构上设置对照组,通过对比结果来验证模型的有效性。

(1)输入数据的对比实验

根据目前的研究现状,许多实验通过分析URL特征,或是分析URL和HTML的组合特征进行分析。基于此,如表5所示,设置以下实验。

?

(2)模型结构的对比实验

根据目前主流的CNN和BiLSTM模型结构,分别设置以下对比实验,如表6所示。

?

由此证明,使用URL、HTML、DOM输入数据,以及CNN与BiLSTM的组合模型来检测涉诈网络平台的方法有效可行。

本文通过将网站的URL字符串、HTML文本、DOM结构分别表示在矩阵空间上,解决了手工提取特征的困难以及只提取URL字符串单一特征的问题;
将表征矩阵输入CNN和BiLSTM后,再添加一层Attention,从而学习更多隐含特征。测试结果表明,该模型具有较高的准确率。

猜你喜欢域名网络平台网页一种基于5G网络平台下的车险理赔装备制造技术(2021年1期)2021-05-21网络平台补短板 办学质量稳提升福建基础教育研究(2019年6期)2019-05-28Combosquatting域名抢注的测量研究中国教育网络(2018年12期)2019-01-18基于CSS的网页导航栏的设计电子制作(2018年10期)2018-08-04如何购买WordPress网站域名及绑定域名计算机与网络(2018年10期)2018-02-15基于URL和网页类型的网页信息采集研究电子制作(2017年2期)2017-05-17网络平台打开代表履职新视窗人大建设(2017年11期)2017-04-20网页制作在英语教学中的应用电子测试(2015年18期)2016-01-14依托网络平台,构建学习评价新模式新疆医科大学学报(2015年10期)2015-12-26网站更换域名的8个注意事项计算机与网络(2014年19期)2014-04-15

推荐访问:技术研究 检测 平台