从三聚氰胺到论文查重,毫无意义的检测攻防战

从三聚氰胺到论文查重,毫无意义的检测攻防战

即兴给界面的投稿,中午刚写完,下午就发布了~

最近翟天临事件,让“知网”及其查重技术火了一番,网友们自发帮翟天临的论文进行查重检测,发现重复比高达40%,导致翟的学霸人设崩塌。

我并不关心翟天临的人设危机,倒是想蹭个热点,谈一谈我对论文查重技术的看法。

查重技术已经流行了好些年了,我一直都持有批评和警惕的态度,但无可奈何的是,这一技术还是日益流行起来。上个学期,清华大学也开始试行为每个老师提供课程作业查重服务,作为开课教师,我自己也试用了一番,愈加对这一流行趋势感到忧虑。

关键在于,对某一种技术的评估,有两种尺度,一是局部的、当下的尺度,二是全局的、长远的尺度。

在局部的尺度上,我们可以评估技术的效用,比如说,甲技术的目的是乙,那么我们先来看乙这个目的是否是我们的需求,再来看使用甲是否能有效地完成乙。在这里,我们可以说查重技术的目的是为了抓出抄袭,我们确实需要抓抄袭,而查重确实也能帮助我们抓到抄袭。如此看来,我们似乎应当肯定查重技术是有效的。

但局部的目的和长远的影响是两码事。当人们越来越多地依赖于某一技术时,整个社会的文化偏向和组织结构都可能发生变化。例如,对单个的骑士而言,火枪能加强他的力量,但对于整个骑士阶层而言,火枪的流行却敲响了丧钟。

比如对于翟天临这个个例来说,查重技术当然有助于迅速判定他的抄袭来源,但在这次事件中我们也看到,查重技术已经多么普及,许多吃瓜群众闲着没事点点按钮,很容易就能开始一次次的查重,成本极低。

当随便一个大学生都知道怎么样查重的时候,查重技术的全局后果才会逐渐显露出来。

我并不想危言耸听,但最恰当的例子,就是前些年奶粉中的“三聚氰胺”。

“三聚氰胺”为什么会被加进奶粉里?这种化学品既不能增加牛奶的口感,又不能增加其颜值,怎么会有人想到往奶粉里加这种东西呢?答案很简单:为了应付蛋白质检验。奶农在向奶站交付牛奶时,为了保证牛奶里不掺水,奶站利用了一套先进的技术,去检测牛奶中的蛋白质含量。“三聚氰胺”没有别的好处,唯一的用处就是混过这一蛋白质检测环节,让掺水的行为不被发现。

我们发现,蛋白质检验技术最初显然是有效的,然而一旦所有的奶农也都理解了这一环节,千方百计想要“混过”这一环节时,这一技术的效果就变了味。原本是为了检查掺水,最终却使得牛奶中非但掺水,更掺上了毒。

论文查重技术也是一样,当每一个普通大学生都能够理解甚至能够随意试用这一检验技术时,事情就完全不一样了。“混过查重”成了每个大学生的必备技能,连人民日报的官方微博,都曾经堂而皇之地普及“查重自测”的知识和工具。到了检测技术如此公开化时候,我们就该重新评估这一技术的效果了。

“查重自测”是一个荒唐的概念,就好比说对奶农普及“蛋白质自测”的方法。但是蛋白质测试的目的难道不是发现掺水吗?而我自己送来的牛奶,究竟掺没掺水难道我自己不清楚吗?如果我明知道没掺水,又何须自测呢?如果我明知道掺水了,还要进行所谓“自测”,那么自测的目的难道不仅仅是为了想办法混过检测吗?

论文是自己写的,究竟抄没抄,难道还需要别人通过什么先进的软件告诉我我才知道吗?那么推广所谓“查重自测”的知识有什么意义呢?岂不就是公然教大家如何想方设法“混过”查重检测吗?

“不掺水”本身是对奶农的基本要求,但一旦把这个要求置换为“通过蛋白质检测”,意味就完全不同了。即便在最初,“不掺水”基本上能够等同于“通过蛋白质检测”,但终究是道高一尺魔高一丈,只要这一检测不是全能的上帝做的,人类的技术总有漏洞可循,那么既掺水又能通过检测的办法就早晚能够被找出来。

“查重自测”的存在和便利,必定会激励人们去寻求既抄袭又通过查重的办法,这是人性使然。

事实也的确如此,虽然现在还有许多人使用剪刀浆糊的最低级的抄袭手法,但已经有越来越多的人采取了新办法,也就是所谓的“洗稿”。比如说,抄袭之后翻译成外文再翻译回来,比如说同义词替换,等等。当然查重技术也会进一步改进,比如增加了语义识别功能,以加测更高端的剽窃行为,但只要这个检测技术始终是论文的撰写者也容易运用的,那么撰写者永远都可以先通过“自测”精心调整,以便蒙混过关。

于是,论文查重仅仅在最初有可能促进评审者更快更准地抓到抄袭,而随着这门技术的普及,最终的结果是,抄袭者需要花更多的精力去蒙混,而评审者也需要费更多的精神去识别高端的洗稿技巧。

我们或许可以寄希望于,因为抄袭者想要蒙混的门槛提高了,必须花费的时间成本增加了,因而可以减少许多抄袭行为。但结果注定是,那些因为怕麻烦而放弃抄袭的人,仍然会因为怕麻烦而不可能费很多心血去撰写高质量的论文,最后我们得到的是不抄袭但仍旧很水的劣质论;而那些顶着麻烦继续抄袭的人,则会给论文中加入更难识别、潜藏更深的新毒素。

那么,我们该怎么办呢?如果不依赖于检测技术,我们如何才能扼制造假的泛滥呢?这的确并不容易,但并非无迹可寻。事实上,三聚氰胺就是中国的特产,那么为什么国外的奶农们没想到这一招呢?是因为国外的检测技术比我们更强吗?并非如此。那是因为在许多海外市场,人们依赖的不仅仅是检测技术,更关键的是更加健全的监督和处罚机制。比如说,一旦掺假、掺毒,注定被罚的倾家荡产。但在我们这里,论文抄袭哪怕被抓了实锤,似乎也不痛不痒,顶多道个歉,撤销论文,最大不了就是撤销了学位,就完事了。更多的人哪怕抓到抄袭或包庇抄袭,还是该干啥干啥。

我自己的课堂上一旦抓到抄袭,一律都给0分并不给补救机会。这本是理所当然的事情,但一些同学并不理解,他们以为混得过去就混,混不过去大不了向老师道个歉,回头重写一篇,大不了分数给低一点嘛。我不给补救机会,岂不是不近人情吗?正是因为这种对造假者普遍宽容的风气和制度,使得人们可以毫无顾忌地钻研蒙混手段。在这种环境中,检测技术再高明又有什么用呢?

我们应该利用技术,而不是受技术摆布。查重技术本是抓抄袭的手段之一,却绝对不是抄袭与否的标准。如果我们在文化和制度上没有做好准备,那么先进的技术反而更可能带来更麻烦的后果。

2 Comments

  1. 采薇吟止

    胡老师好,刚好有一点随感,好像跟这个话题有相似处。是这样,我天天挤地铁,看着这么多人,突然想到,什么人脸识别,大数据这些,以后每个人都无所遁形,无所谓隐私。想想,又觉得自己后知后觉,从每个人与一串数字编号联系起来开始,最终就必然这样了吧。用数字标识一切这事,从开始就招致不少讽刺争议,古典的人文主义者,甚至一些人本主义,都会反感,因为这太不尊重个体和各种上帝造物了。不过,这种争议终归是历史了。量变引起的质变,不可避免,现代社会的规模如此巨大,技术管理手段,数量化应用,即便说是功利主义、结果导向,也没办法,必须得这么干。技术本身不是问题,关键是怎么认识,怎么用。尤其是ai越来越发展,技术本身也不是机械的了。如果机械看待技术本身,机械的使用技术,那肯定有问题。

    我离开学校多年,好多概念应用不准确,也不知道表述清楚没有,刚看了胡老师在清华上技术通史课的大纲,觉得有意思,又到这个博客,觉得很不错。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据