英语论文降重有什么高效方法?

很多人会觉得既然都是论文,那中英文查重应该也是大差不离的。其实不然,中英文论文查重原理截然不同。

英文论文的重复类型

英文论文重复按照重复级别高低排序,主要包括想法重复、翻译式重复、改写式重复、伪装式重复和复制粘贴重复几种:

英文论文是如何被查重的

以上五种英文论文重复类型都会被现有查重算法检测到吗?

目前主要国际期刊使用的权威查重软件 iThenticate 暂时还只能检测到复制粘贴重复、伪装式重复和改写式重复,而翻译式重复和想法重复由于技术的限制,目前没有手段能检测到,只能靠人工识别(如图 6-1 所示)。

过去,因为技术不成熟,基于字符串精确匹配的旧算法只能识别检测到复制粘贴重复和伪装式重复,即一句话中连续重复 3 个及以上单词,就会被标记为重复。

然而,这种算法最大的缺点在于,只要在连续重复的单词中调整一两个单词,控制连续重复的字数小于 3 个,这些单词就无法被识别为重复了:

例 1:

原文:I am a smart boy.

改写后:I am an intelligent boy. (检测无重复)

在该例中,由于替换掉了中间的冠词 a 和形容词 smart,重复的连续单词由 5 个变成了 2 个,骗过了查重算法,所以最后的查重结果显示无重复。

因为旧算法过于机械呆板,因此绝大多数国际期刊采用了一种更权威、更强大的算法——基于语言风格的算法,能分析句子结构和成分。

这种最新的算法能完全覆盖「复制粘贴重复」和「伪装式重复」,部分覆盖「改写式重复」。它不仅能查出一模一样的句子或词组,还能理解句子结构,属于高级的查重算法。

在新的查重算法下,只要句子结构和原文类似,即使句子中的部分单词不同,剩余重复的单词也照样能被查出来,即便是常用的介词或冠词。

图 6-2 是新旧算法查重结果对比,如果按照字符串精确匹配的重复原理,则将原句改成 I am an intelligent boy 或者 He is a boy 不算重复(因为没有连续重复的 3 个单词),而新算法比字符串精确匹配算法能识别出更高级别的重复。

不过,目前最先进的英文论文查重算法也有局限性:它只能分析句子结构,不能理解单词的具体含义,即不能在语义上进行查重,此时比如近义词替换后就可以避开重复:

例 2:

原文:However, little research has been carried out on the material properties of lean duplex stainless steel at elevated temperatures.

新版本:While most of the previous research has been focused on the material behavior of carbon and stainless steel at high temperatures.

注:重复部分用下划线表示。

从上例可以看出,虽然新版本的句子进行了一定程度的改写,但是原来的句子结构没有发生改变,两个句子的结构都是被动式,且关键句子成分和动词时态相同「research has been ... on the material ... of ... at」,因此被新的查重算法检测到了,共有 11 个单词重复(总共 22 个单词),总计 50% 的重复率,甚至连介词 of 都被认为是重复的。

但是,目前基于语言风格的算法不能识别语义,在相似句子或短语结构中进行近义词替换就可以有效减少重复率,比如 properties 和 elevated 被替换成近义词 behavior 和 high 就可以避开重复。

英文论文查重报告分析

由于查重是从数据库中挑选出与查重论文重复的论文或网页,因此一个合格的英文论文查重软件还需要覆盖足够多的文献资源,目前受到国际期刊认可程度最高的英文论文查重软件是 iThenticate。

查重结束后,查重系统会自动出具一份查重报告并显示对应的查重结果(如图 6-3 所示):

上面这份报告中,查重的论文题目、总重复率(也称为相似指数,similarity index)、数据库中与之重复的论文题目或网页地址以及它们的编号(从 1 开始)、每篇重复论文的重复字数以及单篇重复率都有显示。

这些单篇论文的重复率由高到低排列,它们全部累加起来,最后的结果就是被检测文章的总重复率,样例报告的总重复率为 35%。

同时,在被查重的论文中,会有不同颜色高亮显示哪些文字或数据被判定为重复,并且在句首对与之重复的论文或网页进行编号(见图 6-4)。

图中显示为 1 的重复语句,表示在图 6-3 中的 1 所对应的论文中有重复的内容:「to convert experts』 opinions into comparable measures and」,期刊编辑在查重软件里面点击「1」,就能快速调出论文 1 中对应的重复句子,因此就能人工审核确认重复情况。

国际期刊编辑怎么看英文论文的查重结果?

国际期刊编辑主要看总重复率,但是也看重复的具体情况。

比如,一篇论文的总重复率为 20%,这表示有 20% 的文字和数据库中的一篇或多篇论文重复。重复的部分既可以是和单独一篇论文重复(单篇 20% 的重复率),也可以是和 20 篇论文重复(每篇论文 1% 的重复率)。

显然,前者重复的情况要比后者严重得多,因为作者有可能大幅度复制粘贴同一篇论文(该论文也许是他发表过的或同一课题组下的论文)。

因此,如果重复的篇数很多,且每篇论文重复率都很低(比如 1% 甚至低于 1%)那么如果存在一个较高的总重复率,其影响程度会比单篇重复率高的情况要小。

此外,即便是相同的总重复率,在论文不同位置重复,期刊编辑也会酌情分析。因为不同位置产生的重复,其影响程度也不同。比如,在实验方法部分发生重复就比在结果、讨论和结论部分的重复程度轻得多,因为描述材料、实验分析方法和过程的语句形式变化有限,相对单一且固定,容易发生重复,期刊编辑也能理解。

然而,论文的结果、讨论和结论部分是体现论文个性和创新性的核心部分,也就意味着不能和其他论文重复,这也是编辑会比较严苛对待的部分。

另外,论文的类型也会影响期刊编辑判断被检测论文的重复程度。综述性论文就比原创性论文更加容易造成重复,因为在综述性论文中,作者需要大量总结前人的研究成果,几乎没有或较少地贡献原创数据和分析。

即便如此,也强烈建议大家在理解前人研究成果的基础上用自己的语言表达,这是写高质量综述性论文的基础。

概括起来,就是期刊编辑在拿到论文的查重报告后,会首先看总的重复率,再考虑重复的分布、重复的主要位置、论文类型等来判断重复程度。

国际期刊编辑认为的最低论文重复率是多少?

总体而言,总重复率在 15% 以下且单篇不超过 1% 会比较安全,基本不会算作重复。

如果总重复率超过 20%,这样的论文基本会被判定为重复严重而拒稿。著名学术出版社 Springer 也表示,如果重复率超过 20%,这篇论文会被仔细地检查内容,以确认是否确实重复太多。

例 1:SCI 期刊-KSCE Journal of Civil Engineering 会对所有提交论文进行查重,重复率高于 20% 直接拒稿,但给予降重后再投稿的机会。

例 2:开放性 SCI 期刊-PLOS ONE 会对所有论文进行查重。

根据一些作者的反馈,虽然期刊没有明确指明多少重复率会拒稿,但是在初审意见中会向作者说明与投稿论文重复较多的文献,已有数据表明,如果超过 20%,肯定也是会被拒的。

因此,如果想安全避开重复,可对论文进行预先查重并将重复率降到 15% 以下,且不要将重复集中在某一两篇论文上。

目前我国投稿英文论文的重复率

经过 PG 科研诚信中心团队对大量中国投稿英文论文的重复率报告的统计分析,由图 6-7 可见,13% 的论文重复率低于 15%,一半数量的论文重复率低于 24.5%,而有 36% 的论文重复率高于 30%。

令人吃惊的是,其中有英文不少论文的重复率高于 50%,也就是一半以上的内容存在抄袭剽窃现象,这些论文大多集中在医学领域。

在分析完英文论文的查重原理后,我们可以看出查重原理很取决于使用的查重软件。鉴于目前绝大多数国际英文期刊都是采用 iThenticate 进行查重,笔者将在下节中详细介绍它,并且演示期刊编辑如何具体操作查重过程。

参考文献

[1] 吴志根. 国际高水平 SCI 论文写作和发表指南[M]. 杭州:浙江大学出版社, 2019: 134–140.

[2] PG 科研诚信中心实时统计数据[EB/OL]. https://check.papergoing.com.备案号:YXA1pzdr8o9uOe29JagCp5vN

添加评论