基于深度学习的二进制代码分类

代码地址:

https://github.com/Sharpiless/binary-code-classification-on-deep-learning

二进制代码分析是信息安全领域中非常重要的研究领域之一,其中一类目标是在不访问源代码的情况下检测相似的二进制函数。同一份源代码在不同编译器,不同平台,不同优化选项的条件下所得到的二进制代码是不相同的,我们的任务目标是把同一份源代码所编译出的不同的二进制代码找到。

编译代码:

这里我选用linux、windows和arm三个平台

python compile_data.py
特征工程:
python process_data.py --version 1
训练模型:
python model_svm.py
实验结果:

基于深度学习的二进制代码分类_java基于深度学习的二进制代码分类_java_02

https://mp.weixin.qq.com/s/2GNljDT8CFaDMZ8C6L8xAg