搜狗搜索“CIPS-SOGOU问答比赛”赛程加码正式启动“非事实类问答子任务”

2018-05-22 11:17 第一产经我要评论()

字号：T|T

构建开放域智能问答系统是人工智能研究领域的一项重要前沿课题。近日，由搜狗搜索联合中国中文信息学会共同举办的“CIPS-SOGOU问答比赛”，正式启动了“非事实类问答子任务”。搜狗搜索将公开百万级真实用户问答数据集，为参赛者提供一展身手的舞台，从而促进学术界及业界交流，提升智能问答领域的研究水平，推动智能问答系统更加广泛地面向公众提供信息服务。

“CIPS-SOGOU问答比赛”，是国内首档基于大规模真实用户问答数据集的问答评测任务。大赛根据问题类型将比赛任务分为“事实类问答子任务”和“非事实类问答子任务”，分别对应事实类问题和非事实类问题。去年9月，该大赛伴随着“事实类问答子任务”的启动已正式开赛。　　

而于近日启动的“非事实类问答子任务”，无疑又为大赛注入新机，将赛事推向高潮。相较于“事实类问题”，“非事实类问题”包括更广泛的问答内容形式，包括列举（list）、定义（definition）、方式（how）、原因（why）、假设（hypothetical）等等。　　

根据赛制，基于搜狗搜索提供的问题，以及相对应的若干候选答案篇章，参赛者需设计算法从候选篇章中抽取合适的词语、短语或句子，形成一段正确、完整、简洁的文本，作为预测答案，以正确、完整、简洁地回答该问题，答案文本长度限定在500字内。　　

针对大赛中的每个问题，参赛者只需提供一个预测答案。“非事实类问答子任务”将针对该预测答案与标准答案计算ROUGE-L和BLEU值，再以测试集上两个指标的平均值作为最终指标。此次比赛将在2018年11月CIPS年会上举行颁奖仪式，授予获胜者奖金和荣誉证书。

（图：CIPS-SOGOU问答比赛任务说明）　　

值得期待的是，此次“非事实类问答子任务”中，搜狗搜索将公开百万级真实用户问答数据集。包含10万个非事实型问题，代表了最真实广泛的网民信息需求；以及100万个对应问题的候选篇章及答案标注（每个问题对应给出10个候选答案篇章），候选篇章都是从搜索引擎检索真实网页结果中抽取的文本。　　

实际上，搜狗搜索在此次任务中提供百万级真实用户数据集，除了促使大赛正常开展外，更有意义的是，此举为构建开放域智能问答系统的研究提供了刚需的数据支撑，有助于促进智能问答领域技术的发展和应用，从而推动智能问答系统更加广泛地面向公众提供信息服务，让用户更加便捷地获取信息和知识。　

作为国内第二大搜索引擎，搜狗搜索凭借自身数据优势及在人工智能领域研究的持续大力投入，已经在智能问答领域处于领先地位，率先实现了“直接为用户提供答案”。搜狗搜索已上线的“立知”智能问答系统，就是其研发的面向未来的搜索。该系统能够理解用户搜索意图，并直接提供答案。目前，“立知”智能问答系统在事实性问题、分析类问题、观点类问题、数字类问题、隐式问题等方面，都能为用户直接返回精确答案。　　

现在，作为智能问答领域的带路党，搜狗搜索开放技术能力，向学界及业界提供百万级真实用户问答数据集，助力行业向“非事实性问答”领域研究开拓，促进智能问答领域的学术交流。有兴趣进行技术切磋，提升研究水平的高校师生及业内研究人员，均可通过“搜狗实验室”官网提交报名信息参赛。