关于题库去重复的算法思考

当试题积累量到一定程度后试题去重就变得尤为重要,特别是在面向多网站搜集试题之后。但对于试题的去重却不是一件容易的事,如果要达到预期的满意效果去重甚至是一个行业性技术难题。

关于题库去重算法我们也在不断改善,提升去重效果,截止目前我们处理过的去重算法包括下面几种:

1、全字符匹配去重

这种去重算法是最大限度保留试题广度,对questions表的title字段进行去重,适用于有试题搜索功能的题库产品应用,能最大限度支持搜索需要的海量题库支撑。

2、全文本匹配去重

全文本匹配去重全部html标签,仅对questions表中的title,options_a,options_b,options_c,options_d,options_e,answer2,parse的文本进行去重,此操作会对试题进行比较大的过滤,可能会过滤掉一些本来不是重复的试题,适用于对试题质量要求较高的客户需求。

3、题干内容纯文本匹配去重

仅根据questions表中的title,options_a,options_b,options_c,options_d,options_e的字段去除html标签进行去重,对试题的重复过滤更彻底,得出来的试题质量更高。

4、根据相似度选题(开发中)

通过文本相似度检查,得到每一道题在题库中的最高相似度,相似度越高表示这道题重复的概率越高。

以上是目前学库宝关于试题去重的做法,大家可以根据自己的需要选择去重方式,选择适合自己的。

e953962

Leave a comment

电子邮件地址不会被公开。 必填项已用*标注