当前位置:首页 > 短网址资讯

通过全文相似度来寻找相同或相似的代码

www.ft12.com9年前 (2017-07-15)短网址资讯3466

最近笔者在职的公司在不断的做App的包瘦身工作, 身边的同事们也研究出了各种各样实用的工具来辅助加快包瘦身的进程。在这么一个大环境下, 笔者突然又冒出一个很无聊的工具想法

通过文本匹配来寻找相似的方法函数

笔者给这个小工具取了一个非常传神且牛逼的名字 - SameCodeFinder

和上一个查找Block的无聊的小工具RiskBlockScanner类似, 这个工具笔者觉得也是一个应用面相对比较小的一个工具, 所以笔者自嘲无聊的小工具哈~

笔者自认为这个是一个无聊的小工具, 但是还是坚持把它开发出来了, 因为笔者坚信:

任何一个无聊小众的作品, 在合适的时机总是能够帮助到合适的人的!

笔者开发这个小工具除了因为笔者相信这个工具肯定能够帮助到部分人群以外, 还有另外一个目的是督促自己不要停止学习的步伐哈~

起源-辅助研发自查

查找相似代码想法的起源是因为笔者在在职的公司项目处于包瘦身的大环境下。在这个大环境下, 笔者身边的一名同事发明了基于otoollinkmap分析查找无用方法的工具, 该工具在Github上有个类似的开源脚本项目objc_cover。与此同时, 笔者的另外一名同事发表了一种基于Clang来查找无用方法的博文

受这两位同事的影响, 笔者就在想自己能搞什么和他们不一样点的工具么。因为笔者之前用文本扫描的方式搞了一个简易的快速Block检查脚本, 笔者就在想能不能通过类似的手段写一个类似的程序。笔者想借鉴《基于Clang来查找无用方法》的思路进行扩展, 因为该文章里提出了一种将文本内容Hash后进行内容比较, 判断方法是否完全重合的思路

笔者基于该思路进行扩展, 设想能不能不止比较“完全相同”的方法, 还能比较相似的方法。顺着这个思路发现了Google的全文搜索相似度比较的一种算法simhash[7, 8]。

Simhash

关于simhash的介绍引用博文《simhash算法原理及实现》 里的介绍

simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是<n(根据经验这个n一般取值为3),就可以判断两个文档是否相似。

上述引用其实有点不完全正确, simhash貌似并不是Google出品的, 第一作者的邮箱后缀明明是普林斯顿大学好不好~ 不过Google将其应用到了网络爬虫并发表了一篇文章哈~

PS: 想了解详情? 阅读Paper去… =。=

《simhash算法原理及实现》 针对simhash梳理了简易的原理介绍以及使用判断距离的汉明距离, 可以便于读者快速了解, 但是如果大家想要了解更深层次的实现, 可以去阅读原版paper《Detecting Near-Duplicates For Web Crawling》《Similarity estimation techniques from
rounding algorithms》

原理简析

simhash的生产步骤可以分为如下:

  1. 提取目标文本的关键字feature和权重weight, 并成对存储

    • 如果不知道怎么提取的同学, 可能需要稍微了解全文搜索相关的知识

  2. 将提取出来的关键字进行传统Hash, 输出二进制的值

  3. 将每一个关键字提取的Hash按位进行运算, 如果当前位是1, 则增加对应的权重; 如果当前位是0, 增减少当前对应的权重;

  4. 将最后得出来的hash值, 如果大于等于1, 则当做1处理; 负数和0当做0处理, 得出最终的二进制值

上述步骤可以简化为下图, 此图引用了我的数学之美系列二 —— simhash与重复信息识别中的图

汉明距离

simhash是一种局部敏感Hash。因此可以利用汉明距离去衡量simhash的相似度。

引入Wikipedia的汉明距离介绍:

In information theory, the Hamming distance between two strings of equal length is the number of positions at which the corresponding symbols are different.

字面上意思好像就是两个字符串在不一样字符个数的数量, 在我们现在的应用场景就是统计1或者0的个数, 然后他们的个数差就是距离了。。。一般搜索引擎的历史经验默认是3

PS: 别问我怎么知道的3的, 我也是从博客里看来的, 没有数据依据

寻找相似的代码

寻找完全相似的文件

针对上述理论, 只要是一个文档都可以计算出两者的汉明距离, 利用汉明距离来就可以衡量两个文档的相似度了。笔者在这里目前没有做太多的工作, 只不过过滤了文档的后缀, 让相当类型的文档进行相互的比较。

寻找相似的文件和寻找相似的代码文件, 其实本质上差距不大。代码文件有一些特性, 例如前面的声明和引用都有一列类似的地方, 如果在进行simhash计算处理前能够提前对代码文件进行预处理的话, 能够大幅度的提高整个代码文件相似度计算的精度。

PS: 鉴于思路的完善性和时间成本, 笔者还没有针对代码进行预处理

寻找雷同方法函数

既然利用simhash以及汉明距离可以计算两个文档的相似度, 然自然可以缩小范围计算两个函数方法的相似度。那么问题的关键就在于怎么样才能提取到合适正确的方法函数内容

笔者目前使用的是文本扫描匹配的方式, 但是笔者的同事有提出一种是基于clang插件来提取编译器预处理之后的内容进行hash比较的可行思路。无奈鉴于实现成本和插件无法独立运行的方面考虑, 暂时采用的直接扫描匹配文本的方式进行比较。

目前笔者采取的提取方法体方法是:

  1. 用正则匹配获取方法起始行

  2. 从起始行开始记录左右括号的格式, 并且将起始行开始的所有字符串记录

  3. 当左右括号的个数相互抵消的时候默认当做匹配整个方法, 保存整个字符串

鉴于方法匹配需要根据语法实现, 所以目前只能根据每个语言的语法特性进行截获, 目前SameCodeFinder)仅支持Object-C和Java。

语法特性局限了脚本的可扩展性, 步骤一的正则需要和后缀匹配, 步骤二的左右括号在某些语言下不适用, 只能利用发现下一个方法起始行作为步骤三的结束步骤。

Java目前采用正则:

1
ur"(public|private)(.*)\)\s?{"

Object-C目前采用正则:

1
ur"(\-|\+)\s?\(.*\).*(\:\s?\(.*\).*)?{?"

排序

无论是寻找雷同的文件还是寻找雷同的方法, 最后计算出的Hash结果都是N * N个的, 那么怎么展示计算的结果呢? 如果把所有的结果都展示出来, 那明显可阅读性太低。

目前采用的逻辑是:

  1. N * N 中第一个N只找出距离最小的第一个返回, 这样过滤结果只保留N个

  2. 将第一步过滤返回的N个结果按照从小到大的方式进行排序

此外,在执行排序的步骤1和步骤2之间, 都可以添加一个最大距离过滤, 默认不超过20, 可以大幅度减少步骤1和步骤2的计算排序过滤时间。

开源实现

笔者基于上述思路以及现成的工具, 利用python脚本花了2天时间去高速实现了一个简易的python脚本, 并开源到了Github上。

访问地址: SameCodeFinder

目前开源的版本可能因为笔者使用不当或者开源python版本的simhash的计算太过耗时, 因此在性能上存在一定的性能问题, 计算整个较大的工程需要花费不少的时间(计算一个大型工程是分钟级别的)。

笔者会在之后寻找突破方法来提高这方面的计算性能~

总结

SameCodeFinder可以帮助大家寻找相似或者完全重叠的方法以及类, 极大程度上可以辅助大家寻找可以复用的代码。SameCodeFinder的实现思路都是借用Google的全文相似度比较的现成实现, 并没有什么创新, 但是脚本化和针对语种设计的方法识别, 能够帮助大家节省不少直接利用simhash去实现的成本。

PS: 个人水平有限, 有错误之处请大家及时指出, 随时交流哈~

参考文献

  1. CLANG技术分享系列四:IOS APP无用代码/重复代码分析

  2. A Python Implementation of Simhash Algorithm

  3. otool

  4. Mac的反编译工具一:otool (objdump工具的OSX对应工具)

  5. iOS APP可执行文件的组成

  6. simhash算法原理及实现

  7. GS Manku, A Jain, A Das Sarma. Detecting Near-Duplicates For Web Crawling. International Conference on World Wide Web. International Conference on World Wide Web. 141-149. 2007.

  8. M. Charikar. Similarity estimation techniques from
    rounding algorithms. In Proc. 34th Annual Symposium
    on Theory of Computing (STOC 2002), pages
    380–388, 2002.

  9. 我的数学之美系列二 —— simhash与重复信息识别

  10. Locality-sensitive hashing

  11. Hamming_distance

  12. Mach-O Executables

扫描二维码推送至手机访问。

版权声明:本文由短链接发布,如需转载请注明出处。

本文链接:https://www.ft12.com/article_288.html

分享给朋友:

相关文章

FT12短网址教你如何利用大数据算法定位网站性能瓶颈(BOSS)

FT12短网址教你如何利用大数据算法定位网站性能瓶颈(BOSS)

FT12短网址资讯:架构师非常关注性能问题,上篇文章中我们介绍了京东的自动化压测体系 ForceBot,这篇文章来自 LinkedIn 的技术博客,介绍如何通过大数据算法来分析调用数据,自动定位性能瓶颈。本文由高可用架构翻译。背景我们 FT…

收个快递也能中500万?顺丰到底为何要涉足彩票

收个快递也能中500万?顺丰到底为何要涉足彩票

现在的人,越来越懒了。 懒得自己做饭,成就了外卖订餐平台美团和饿了么。 懒得自己去商店买东西,成就了网购平台淘宝、天猫、京东,当然还包括一大批提供服务的快递公司。 而如今,快递公司顺丰还打算让人懒得去线下体彩店买彩票,选择联手国家体彩…

短网址自定义功能的测试

测验首要分为两大部分, 功能性测验和非功能性测验。前次已经做了功能性测验的解说,(没阅读的请阅读《简单高效的短网址生成服务C#实现》)下面解说自界说短网址测验和非功能性测验,全面的测验过程,以确保ft12短网址的各项功能契合用户的需求。…

阿里为什么不收购百度?

阿里为什么不收购百度?

本文来自一个网友的问题汇总,对于阿里为什么不收购百度,网友回复众说纷纭,甚至有的网友反驳提出此问题者有点略显不专业,不管怎么样。让我们来看看大家是怎么看待这件事的!下面这位对系统的分析了阿里跟百度的关系,比较专业值得一看:别说阿里,就算是腾…

域名解析实践——HTTPDNS

几乎一切需求网络连接的使用都会依赖域名体系(Domain Name System,DNS)。域名解析效劳一般作为一次网络连接的先导,将人们便于记忆的计算机名称解析成计算机合适处理的网络地址。因而DNS安稳效劳是上述网络使用正常运转的条件,地…

O2O进入下半场,百度或携人工智能实现弯道超车?

近日,百度外卖副总裁陈锦晖宣布辞职的消息刷爆了互联网,百度外卖业务要出售给顺丰的消息也时有流出。正如美团CEO王兴所言,国内O2O行业已经进入了“下半场”。随着移动互联网人口红利减退,烧钱竞争所带来的粗放式增长已经告一段落。 实际上在今年第…

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。