我对安全与NLP的实践和思考
先说结果,后谈过程。文章同步在个人微信公众号:我对安全与NLP的实践和思考,欢迎关注。
结果
通过对安全与NLP的实践和思考,有以下三点产出:
首先,产出一种通用解决方案和轮子,一把梭实现对各种安全场景的安全检测。通用解决方案给出一类安全问题的解决思路,打造轮子来具体解决这一类问题,而不是使用单个技术点去解决单个问题。具体来说,将安全与NLP结合,在各种安全场景中,将其安全数据统一视作文本数据,从NLP视角,统一进行文本预处理、特征化、预训练和模型训练。例如,在Webshell检测中,Webshell文件内容,在恶意软件检测中,API序列,都可以视作长文本数据,使用NLP技术进行分词、向量化、预训练等操作。同理,在Web安全中,SQLi、XSS等URL类安全数据,在DNS安全中,DGA域名、DNS隧道等域名安全数据,同样可以视作短文本数据。因此,只要安全场景中安全数据可以看作单变量文本数据,这种通用解决方案和轮子就适用,轮子开源在我的github仓库FXY中,内置多种通用特征化方法和多种通用深度学习模型,以支持多种安全场景的特征化和模型训练,达到流水线式作业。
其次,是对应用能力和底层能力的思考。之前写过一篇文章《应用型安全算法工程师的自我修养》,在我当时预期想法中,我理解的应用型,重点在于解决实际安全问题,不必苛求于对使用技术本身的理解深度,可以不具备研究型、轮子型的底层能力。映射到我自身,我做安全和算法,最初想法很好,安全和算法两者我都要做好,这里做好,仅仅指用好。之后,面试时暴露了问题,主管给出的建议是两者都要做好。这里做好,不单单指用好,还要知其所以然。举个例子,就是不仅要调包调参玩的6,还要掌握算法的底层原理,这就是底层能力。当时,懂,也不懂,似懂非懂,因为,说,永远是别人的,悟,才是自己的。在实现通用解决方案和轮子的过程中,遇到关于word2vec底层的非预期问题,才深刻体会到,底层能力对应用能力的重要性。过程中遇到的预期和非预期问题,下文会详述。现在我理解的应用型,重点还是在解决安全问题,以及对安全问题本身的理解,但应用型还需具备研究型、轮子型等上下游岗位的底层能力。安全算法是这样,其他细分安全领域也是一样,都需要底层能力,以发展技术深度。
最后,带来思考和认识的提升。从基于机器学习的XX检测,基于深度学习的XX检测,等各种单点检测,到基于NLP的通用安全检测,是一个由点到面的认知提升。从安全和算法都要做好,到安全和算法都要做好,其中蕴含着认知的提升。从之前写过一篇安全与NLP的文章《当安全遇上NLP》,到现在这篇文章。对一件事物的认识,在不同阶段应该是不一样的,甚至可能完全推翻自己之前的认识。我们能做的,是保持思考,重新认识过去的经历,提升对事物的认知和认知能力。这个提升认知的过程,类似boosting的残差逼近和强化学习的奖惩,是一个基于不知道不知道->知道不知道>知道知道->不知道知道的螺旋式迭代上升过程。
起源
促成对安全与NLP的实践和思考,起源于以下三点:
第一,也是最初的起源,之前写过一篇文章《FXY:Security-Scenes-Feature-Engineering-Toolkit》,FXY的定位是一款安全领域的特征工程框架,用于支撑上层的机器学习算法。当时是希望对每种安全场景,发挥安全领域知识,定制统计特征工程方法,预期是像写poc一样写特征化方法,像集成poc脚本到pocsuite中一样,集成特征化方法到FXY特征工程框架中,现在想来,当时的想法有点幼稚。因为全定制化开发,就算是将别人相关工作中的特征化方法,按照一定格式改写到FXY特征工程框架中来,工作量也太大。因此,怎么把FXY打造的更加实用,是我一直在思考的问题。
第二,起源于两个github项目。第一个是一个单纯的文本分类项目,作者是对3个文本数据集,使用1种特征化方法,训练13种机器学习和深度学习模型。这里我关注的点不是13种模型,学术界主刷models,我关注的是1种特征化方法,一种特征方法对三个文本数据集。第二个是早之前阿里云安全webber师傅写的基于深度学习的XSS检测的两篇文章和github仓库。这两篇文章使用1种文本数据特征化方法,训练4种模型,文章我在三个时期看过很多遍,每次的理解都不相同,但主要的思想都还是把安全数据当文本处理。当两个仓库撞在一起,想到的是将单点的XSS+word2vec+深度学习模型,向前扩展,扩展至文本数据类安全场景+NLP特征化方法+深度学习模型。对各类安全数据求同存异,‘同’是能否看作文本数据,一般只要能看作文本数据,例如域名数据、文件数据、序列数据,就可以使用统一的NLP特征化方法,‘异’是采用不同特征化方法如人工提取的特征千差万别。求同存异后,就可以用一类通用方法,统一处理多个安全场景,而不必根据每个安全场景定制化开发特征工程方法。
下图是两点起源相遇时顺手写下的idea。
第三,指导思想是不断思考。第一次明确听到关于“思考”的字眼,是在实习刚入职那会,晚上七点左右主管找我的谈话,当时似乎是听懂了,现在回想起来,记得的只有两字“思考”。思考,是一种基础能力,促使我不断的对知识进行融合,思考每一种产生化学反应的可能性。
预期问题
基于以上三点起源,我开始从NLP视角重构FXY,争取打开突破口。下图为顺手记录过程中遇到的问题和解决方式。
总计有20+个问题,我们把问题归类,分成安全场景、数据特征化、模型三类,其中问题较多的是数据特征化部分,重点说说这部分。
按照流程的先后顺序,我们把问题划分在分词粒度、预训练前字典的建立、序列、词向量等部位。首先是分词粒度,粒度这里主要考虑字符粒度和词粒度。在不同的安全场景中,安全数据不同,采用的分词粒度也可能不同,例如用于恶意样本检测的动态API行为序列数据,需要进行单词粒度的划分。域名安全检测中的域名数据,最好采用字符粒度划分。URL安全检测中的URL数据,使用字符和单词粒度划分都可以。需要根据具体的安全场景,选择合适的粒度,FXY特征化类wordindex和word2vec中参数char_level实现了该功能。基于深度学习的XSS检测文中,是根据具体的XSS攻击模式,写成正则分词函数,对XSS数据进行划分,这是一种基于攻击模式的词粒度分词模式,但这种分词模式很难扩展到其他安全场景中。在其他安全场景中,可以根据此思路,写自定义的基于攻击模式的分词,但适用范围有限。我这里提供了两种通用词粒度分词模式,第一种是忽略特殊符号的简洁版分词模式,第二种是考虑全量特殊符号的完整版分词模式,这两种分词模式可以适用于各种安全场景中。FXY特征化类word2vec中参数punctuation的值‘concise’,‘all’和‘define’实现了两种通用分词和自定义安全分词功能。下文的实验部分,会测试不同安全场景中,使用字符粒度和词粒度,使用不同词粒度分词模式训练模型的性能对比。
其次是关于预训练前字典的建立。特征化类word2vec的预训练需求直接引发了字典建立的相关问题。在word2vec预训练前,需要考虑预训练数据的产生。基于深度学习的XSS检测文中,是通过建立一个基于黑样本数据的指定大小的字典,不在字典内的数据全部泛化为一个特定词,将泛化后的数据作为预训练的数据。这里我们将此思路扩充,增加使用全量数据建立任意大小的字典。具体到word2vec类中,参数one_class的True or False决定了预训练的数据来源是单类黑样本还是全量黑白样本,参数vocabulary_size的值决定了字典大小,如果为None,就不截断,为全量字典数据。下文的实验部分会测试是单类黑样本预训练word2vec好,还是全量数据预训练更占优势,是字典截断好,还是用全量字典来预训练好。
然后是关于序列的问题,具体地说,是长文本数据特征化需求,如下图中的webshell检测等安全场景,引发了序列截断和填充的问题。
短文本数据的特征化,可以保留所有原始信息。而在某些安全场景中的长文本数据,特征化比较棘手,保留全部原始信息不太现实,需要对其进行截断,截断的方式主要有字典截断、序列软截断、序列硬截断。字典截断已经在上段说过了,序列软截断是指对不在某个范围内(参数num_words控制范围大小)的数据,直接去除或填充为某值,长文本选择直接去除,缩短整体序列的长度,尽可能保留后续更多的原始信息。如果长本文数据非常非常长,那么就算有字典截断和序列软截断,截断后的序列也可能非常长,超出了模型和算力的承受范围,此时,序列硬截断(参数max_length控制)可以发挥实际作用,直接整整齐齐截断和填充序列,保留指定长度的序列数据。这里需要注意的是,为了兼容后文将说到的“预训练+微调”训练模式中的预训练矩阵,序列填充值默认为0。
最后,是词向量的问题,具体说,是词嵌入向量问题。词嵌入向量的产生有三种方式:词序列索引+有嵌入层的深度学习模型、word2vec预训练产生词嵌入向量+无嵌入层的深度学习模型、word2vec预训练产生预训练矩阵+初始化参数为预训练矩阵的嵌入层的深度学习模型。这里我把这三种方式简单叫做微调、预训练、预训练+微调,从特征工程角度,这三种方式是产生词嵌入向量的方法,从模型角度,也可以看作是模型训练的三种方法。第一种微调的方式实现起来比较简单,直接使用keras的文本处理类Tokenizer就可以分词,转换为词序列,得到词序列索引,输入到深度学习模型中即可。第二种预训练的方式,调个gensim库中word2vec类预训练,对于不在预训练字典中的数据,其词嵌入向量直接填充为0,第三种预训练+微调的方式,稍微复杂一点,简单来说就是前两种方式的组合,用第二种方式得到预训练矩阵,作为嵌入层的初始化权重矩阵参数,用第一种方式得到词序列索引,作为嵌入层的原始输入。下文的实验部分会测试并对比按这三种方式训练模型的性能,先说结论:预训练+微调>预训练>微调。
非预期问题
预期问题,说到底都是应用层面的问题,都比较好解,非预期问题比较难顶,有些涉及到底层的知识,这正是引发我对应用能力和底层能力思考的原因。
第一个非预期问题是,已知的库和函数不能满足我们的需求。一般来说,使用keras的文本处理类Tokenizer预处理文本数据,得到词序列索引,完全没有问题。但类Tokenizer毕竟是文本数据处理类,没有考虑到安全领域的需求。比如类Tokenizer的单词分词默认会过滤所有的特殊符号,仅保留单词,而特殊符号在安全数据中是至关重要的,很多payload的构成都有着大量特殊符号,忽略特殊符号会流失部分原始信息。虽然类Tokenizer的单词分词可以不过滤特殊符号,但其分词的自由度有限,我们需要对其魔改。首先阅读了keras的文本处理源码和序列处理源码,不仅搞懂了其结构和各函数的底层实现方式,还学到了一些tricks和优质代码的特性。下图为Tokenizer类的结构。借鉴并改写Tokenizer类,加入了多种分词模式,我们实现了wordindex类。
第二个非预期问题是,对word2vec的理解不到位,尤其是其底层原理和代码实现,导致会有一些疑惑,无法得到验证,这是潜在的问题。虽然可以直接调用gensim库中的word2vec类暂时解决问题,但我还是决定把word2vec深究深究,一方面可以答疑解惑,另一方面,就算不能调用别人的库,自己也可以造轮子自给自足。限于篇幅问题,不多讲word2vec的详细原理,原理是我们私下里花时间可以搞清楚的,不算是干货,对原理有兴趣的话,这里给大家推荐几篇优质文章,在github仓库Always-Learning中。
这里,只以其中的关键点之一“负采样”来举例。word2vec本质上是一个神经网络模型,具体来说此神经网络模型是一个输入层-嵌入层-输出层的三层结构,我们用到的词嵌入向量只是神经网络模型的副产物,是模型嵌入层的权重矩阵。以word2vec实现方式之一的skip-gram方法为例,此方法本质是通过中心词预测周围词。如果有一段话,要对这段话训练一个word2vec模型,那么很明显需要输入数据,还要是打标的数据。以这段话中的某个单词为中心词为例,在一定滑动窗口内的其他单词都默认和此单词相关,此单词和周围其他单词,一对多产生多个组合,默认是相关的,因此label为1,即是输入数据的y为1,而这些单词组合的one-hot编码是输入数据的x。那么很明显label全为1,全为positive sample,需要负采样来中和。这里的负采样不是简单地从滑动窗口外采样,而是按照词频的概率,取概率最小的一批样本来做负样本(这个概念下面马上要用到),因为和中心词毫不相关,自然label为0。负采样的原理到这里简单说完,talk “talk is cheap,show me your code” is cheap,看到对应代码的实现才心里踏实。word2vec的底层代码实现有多种方式,有tensorflow1.x版的,有keras版的,为了适应新版tensorflow,我用tensorflow2.x改写了tensorflow1.x版的word2vec,几种不同框架及框架版本实现的word2vec代码在FXY仓库的tutorials文件夹。其实原理都相同,只是其中的写法不同。以原生的tensorflow2.x版为例,跟踪一下负采样的实现,tensorflow中的nce_loss函数实现了loss和负采样。
以负采样参数num_sampled为线索,跟进nce_loss函数,
跟进_compute_sampled_logits()函数,该函数负责采样,
一直往下跟,遇到点问题,tensorflow的超底层代码太难懂,没有明确跟到负样本的产生。这里,联想上面我们说到负采样是按照词频的概率,取概率最小的一批样本来做负样本,再对应到tensorflow官方实现的word2vec代码中的下段代码,下段代码实现了词频排序。
那么log_uniform_candidate_sampler函数极有可能利用参数labels、num_sampled、num_classes生成一批接近vocabulary_size大小的随机数,作为负样本。
第三个非预期问题是装备太差。由于没带电脑回家,加上疫情的影响,只好租了台辣鸡笔记本,再搭载手机热点100K以下的强势网速,收集数据,跑代码,出现一些问题。比如4G内存跑代码的时候总报内存错误,只好使用不吃内存的代码重写了报错代码。受限于网速、硬件、软件等,一方面制约了学习,另一方面又无意中优化了代码,使得在辣鸡电脑上都能正常运行。
轮子的能力和构成
解决了这一系列问题,轮子的雏形终于显现,轮子内置多种通用特征化方法和多种通用深度学习模型,以支持多种安全场景的特征化和模型训练,达到流水线式作业。最初的考虑是只做特征工程,不向后兼容,即不加入模型部分,同学们自己做模型训练。之后细想,需要向后兼容,模型部分模型不在多,但起码要有几种模型作为demo,这样就形成了一个管道,一条龙作业。
轮子的具体构成包括:安全数据类、特征类、算法类。
首先是安全数据,目前收集、测试通过了6种安全数据,之后会继续扩充。
文件命名中第一个A/B标记了数据是否异源(这里对异源的定义是数据来自不同的github仓库),第二个A/B标记了训练集/测试集。
其次是特征类,目前实现了tfidf类、wordindex类和word2vec类,其中wordindex和word2vec是重点。
wordindex类主要是将安全数据转换为词序列向量,参数主要有:num_words、char_level、max_length、punctuation。num_words是序列软截断参数,如果设置为1000,则字典大小为1000个词,不在此范围内的词会被泛化。char_level取值True or False,True指按字符粒度分词,False指按单词粒度分词。max_length是序列硬截断参数,如果设置为100,则序列长度会被截断/填充到100。punctuation是分词模式参数,需要char_level=False为前提,如果值为‘concise’,即忽略所有特殊符号,值为‘all’,将所有特殊符号都分词,值为‘define’,调用自定义分词模式。
word2vec类主要是通过预训练将安全数据转换为词嵌入向量,参数主要有:punctuation、tunning、one_class、out_dimension、vocabulary_size、num_words、max_length、embedding_size。tunning值是否是”预训练+微调“模式,值为True or False。one_class指预训练的来源是单类黑样本还是全量样本,值为True or False。out_dimension指输出向量是三维向量还是二维向量,三维词嵌入向量是为了对接深度学习模型,二维词嵌入向量可以对接机器学习模型,值为2或3。vocabulary_size指预训练前的字典的大小,可以保证快速预训练。embedding_size指词嵌入向量的维度。
最后是算法类,目前包括lstm和textcnn两个模型,两个模型中内置3种训练方式,分别用于对接wordindex类、word2vec类的预训练模式、word2vec类的预训练+微调模式。
测试
使用其中part1A_url.csv和part1B_url.csv数据集,测试轮子鲁棒性的同时,给出系列参数设置及对应的结果,限于篇幅,详细测试报告在FXY仓库docs文件夹中。
测试结果分析
分词模式考虑全部特殊符号比忽略特殊符号,最终效果要好,因为在很多payload中特殊符号有一定占比。
根据攻击模式自定义分词模式,效果最好。
预训练的数据不是越多越好,字典也不是越大越好,随着数据量的增大,性能有上限,该截断就截断。
训练模式效果对比一般有:预训练+微调>预训练>微调。
无论是同源数据还是异源数据,只有其攻击模式类似,模型效果就可以泛化到。
这篇文章是对我部分工作的一个总结,把零零散散的单点串成线,站在一个更高的视角看待问题。真相在第五层,现在我以为我看到了第二层,但我可能还在第一层,我们能做的是,唯有不断学习,不断思考。
完整代码及相关文档在我的github:https://github.com/404notf0und/FXY。
厉害了, 抬深了
深有同感