电子作业防拷贝技术比较研究_u盘防拷贝

  摘 要:作业的电子化、网络化是教育信息化的一项重要内容,但随之而产生的作业拷贝现象正日趋严重。文章在比较分析三种防拷贝技术的基础上,提出建立具有拷贝检测功能的电子作业管理系统,同时给出了系统的设计方案,拷贝检测技术采用基于句子相似度的算法。
  关键词:电子作业;拷贝;检测
  中图分类号:TP 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.06.019
  0 研究背景
  随着大学校园网的普及,基于网络的教学功能正日趋强大。许多教学课程采用了电子化、网络化的形式上交作业,这无疑给师生带来了巨大的便利,但随之而来的是因各种原因产生的严重的作业拷贝现象。据有关调查显示,大学生独立完成作业率仅约30%。学生拷贝作业时,有的是全盘拷贝,有的是部分拷贝,作业质量出现严重下滑,学习风气大受影响。同时,老师批改作业的难度和工作量大大增加,老师也无法通过作业准确获取相应的教学反馈信息。针对这种现象,学校一方面要加强对学生的思想教育,同时必须从技术上进行有效遏制。
  1 防拷贝技术比较
  1.1 VBA编程防拷贝技术
  宣华锋[1]、付兵[2]等提出利用VBA编程的方法检测学生word文档电子作业的拷贝情况,主要思想是在文档中嵌入个人隐藏信息标识作者身份。该方法在一定程度上具有积极的作用,但存在较大的局限性,主要体现在:(1)该方法仅适用于熟悉VBA编程的老师,其他人员无法掌握使用。(2)该方法仅适用于在统一分发的word文档上完成作业的情况,不适用于学生自建文档完成作业。(3)该方法容易被学生识别破解。(4)该方法仅适用于包含冗余信息的文件类型,如word、Excel等,而纯文本文件则由于无法在文件中包含隐藏信息而无法使用本方法,因此不具有通用性。
  1.2 基于过程监控的防拷贝技术
  梁振球[3]提出的基于过程监控的作业防拷贝技术,主要体现基于过程的思路:通过软件将学生做作业的屏幕画面随机截取下来,与作业一起提交,教师通过浏览这些随机截取的图片来判断学生作业是否为独立完成。此方法具有一定的创新性,能较好地监控学生作业的过程,但比较适用于小班化教学,如果教师大班授课的学生数较多,此方法势必造成教师的工作量成倍递增。同时对完成时间较长的作业,此方法同样不适用。
  1.3 电子作业管理系统
  基于前面两种电子作业防拷贝技术的局限性,本文提出建立集作业布置、作业上交、作业拷贝检测、作业批改与成绩统计等功能于一体的电子作业管理系统。此系统建立后,一方面可以提高教师的工作效率,促进作业环节的信息化和透明化,另一方面,学生可以及时查看自己的作业成绩情况,有利于进行自我督促,提高学习质量。
  2 电子作业管理系统设计方案
  2.1 系统架构
  电子作业管理系统可采用B/S和C/S两种模式架构。通过比较,B/S模式灵活性更强、开发和维护相对比较简单。
  2.2 系统功能
  系统根据用户权限分为3个模块:系统管理员模块、教师模块和学生模块。系统管理员模块主要实现教师信息管理及课程管理。教师模块主要实现作业布置、作业批改、作业拷贝检测、作业成绩统计。学生模块主要实现作业的下载、作业的上交、作业成绩以及评语的查看。作业拷贝检测功能是本系统实现的重点和难点。
  2.3 拷贝检测技术
  学生作业拷贝检测技术主要用于帮助教师进行自动化地识别同学之间的作业是否存在拷贝现象,从而提高批改作业的效率。学生作业拷贝的现象除原封不动的拷贝同学的文档或者内容之外,还包括对原文档内容进行部分复制、同义词替换、移位复制等。目前用于文档拷贝检测的方法主要分为三种:基于词频统计的检测算法、基于匹配统计的检测算法和基于句子相似度的检测算法。
  2.3.1基于词频统计的检测算法
  基于词频统计的检测算法[4]主要受信息检索技术中向量空间模型构建算法的启发,先统计不同单词在文档中出现的次数,然后根据不同单词出现的频率建立文档的特征向量,最后采取点积、余弦等方法度量两篇文档特征向量之间的相似度,如果相似度超过规定的阀值就可以判定两篇文档之间存在拷贝嫌疑。基于该算法的代表性原型系统有SCAM,dSCAM,CHECK,CDSDG等。
  该算法的优点[5]是对文本的全局信息有了较好的把握,即使对文本的内容进行粗粒度排列,也不会影响最终的检测结构,但因为没有综合考虑文档的语义和结构,会丢失很多文本内容的信息,因此很难保证学生作业检测的准确性。
  2.3.2基于匹配统计的检测算法
  基于匹配统计的方法[4]采用基于字符串比较的匹配统计算法,先依据一定的选择策略从文档中选取一些字符串作为指纹,然后把相关的指纹映射到Hash表中,最后统计两篇文档中具有相同指纹的数目,根据公式计算出的相似度来判断两篇文档是否存在拷贝嫌疑。基于该算法的代表性原型系统有:Sif、KOALA、Shingling、MDR、YAP3等。
  该算法的优点[5]是综合考虑了文档的语义和结构,并且计算速度也比较快,但是,该算法在文档的特征提取上没有比较好的解决方案,对于指纹较粗的情况,虽然可以保留文档的结构信息,但对局部信息的修改很敏感。
  2.3.3基于句子相似度的检测算法
  基于句子相似度的检测算法是对基于句子指纹选取的检测算法的改进,其算法的核心思想是:以句子为单位对文档进行指纹提取,统计相似句子的数量,并利用公式进行两篇文档相似度的计算(假设结果为R),同时设定文档相似度的阀值(假设为S),把前面计算的两篇文档的相似度结果与之进行比较,如果R≥S,可以判定两篇文档之间存在拷贝,否则不存在拷贝。
  该算法能较好地解决前面两种算法的不足,即一方面保证拷贝检测的精确度、准确度,同时也能保证保持文档内容的结构特征。因此,通过比较,系统采取基于句子相似度的检测算法。
  参考文献
  [1]宣华锋.用VBA阻止学生office作业的拷贝[J].电脑学习,2010.
  [2]付兵.基于Word文档的电子作业防拷贝研究[J].长江大学学报(自科版),2007.
  [3]梁振球.基于过程监控的作业防拷贝技术的思路与实践[J].现代电子技术,2009.
  [4]刘韵毅.基于匹配统计算法的文本复制检测研究[D].中国科技技术大学,2007.
  [5]秦新国.电子作业管理和作业拷贝检测技术研究[D].南京师范大学,2007.