雷特,每个人对新闻摘要的衡量都有自己的准绳,或许一个衡量团队可以制定一个统一的衡量标准,但换一个衡量团队很可能衡量标准便不一样。
这就很容易导致在评判准确度的时候因为评判团队的不同,同一次的摘要结果会得到截然不同的评价。
评判团队千差万别,很容易导致一些明明有实力做好算法的团队却因为评判团队拉跨出师未捷身先死。
伊芙·卡莉他们团队的文本摘要算法之前一度能够在全球领先。
跟他们和牛津、哈佛、耶鲁三所大学的语言学方面深度合作有着很大的关系。
但这终究不是长久之计,人工的评估方法因其固有的局限性注定了走不远。
因此,文本摘要算法研究团队积极地研究自动评价方法。
自上世纪九十年代末开始,一些会议或组织开始致力于制定摘要评价的标准,他们也会参与评价一些自动文本摘要。
比较著名的会议或组织包括SUMMAC、DUC、TAC(TextAnalysisConference)等。
尽管相关的团队在积极研究自动评价方法,在现今评估自动文本摘要质量的两种方法(人工评价方法和自动评价方法)还是以人工评价方法这个评估方法最为常用。
很多自动评价方法的原理主要是将摘要算法生成的新闻摘要和参考摘要进行比较通过最大拟合程度来进行评价。
这个评价的过程虽然是自动的,但参考摘要却是人工撰写的。
也就是说即便是所谓的自动评价方法,也摆脱不了主观因素的介入。
那样的话何苦多费一遍功夫用什么自动评价方法?
也正因为如此很多团队在评估摘要质量时选择的方式依旧是人工评估。
而人工评估这种主观东西就很难对结果进行客观的量化。
正因为这种情况,尽管之前不少团队摘要算法准确度都还算不错。
但涉及到新闻摘要准确度方面的宣传,大家都选择性的遗忘了。
就这种情况下,为什么南风APP的开发者在软件介绍中却言之凿凿地称这款软件准确度比同类软件高出270%。
这个所谓的270%究竟是基于什么标准去衡量的呢?一时之间伊芙·卡莉陷入了沉思。
无论这个270%是怎么得出来的,想来应该不是无中生有。
在别的国家的软件宣传是什么规矩伊芙不清楚,但是在米国如果没有一个逻辑自洽的衡量模型作为理论支撑就贸然进行这种无中生有的量化宣传的话,很容易被罚的底裤都不剩。
即南风APP这个所谓的“270%”大概率是建立在足够强大并且能够逻辑自洽的准确度衡量模型的基础之上的。
不过也不好说,每年为了博眼球而不顾宣传规矩的开发者比比皆是。
出于严谨的科研态度,
请收藏:https://m.bqg95.com
(温馨提示:请关闭畅读或阅读模式,否则内容无法正常显示)