飞道的博客

拆解「千言数据集:文本相似度」竞赛第一背后的故事

380人阅读  评论(0)

欢迎关注【百度NLP】公众号,及时获取更多自然语言处理领域技术干货!

 

文本相似度旨在识别两段文本在语义上是否相似,它在自然语言处理领域是一个重要研究方向,同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用。

 

目前学术界已经开源共享了一些公开中文文本相似度数据集,『千言』开源项目收集和整理了这些权威的数据集,如:LCQMC(A Large-scale Chinese Question Matching Corpus), 百度知道领域的中文问题匹配数据集,BQ Corpus(Bank Question Corpus), 银行金融领域的问题匹配数据

,PAWS (Paraphrase Adversaries from Word Scrambling),包含 7 种语言释义对的数据集。

 

千言(luge.ai)是全面的面向自然语言理解和生成任务的中文开源数据集合,吸引了众多知名企业的算法工程师同台竞技。其中的文本相似度赛道尤为火爆,参赛队伍多达300余支,更是不乏OPPO、思必驰等AI领域的知名企业。其中,OPPO小布助手在千言文本相似度比赛中,也获得了第一名的好成绩。

 

为了帮助大家更好地使用千言、参与千言的竞赛交流,千言特邀小布助手闲聊组团队做客,通过本周四的直播,让我们一起跟着两位老师了解文本相似度的常用算法以及『千言数据集:文本相似度』的竞赛方案。

直播时间:

3.4日/19:30-20:30

分享嘉宾:

OPPO小布助手算法工程师 张超

OPPO小布助手算法工程师 邱月

分享大纲:

1 语义相似度任务——背景和难点分析

2 语义相似度算法

2.1 无监督学习

2.2 有监督学习

2.3 语义表征模型

2.4 语义交互模型

3 千言-语义相似度解决方案

3.1 赛题介绍

3.2 数据集分析

3.3 算法方案设计【数据清洗、数据增强、模型训练、5fold交叉验证、模型融合预测方案】

 

互动有奖

直播过程中,大家可以通过弹幕、评论等方式进行互动,老师会推选3个优质问题。

奖品

无线充电鼠标垫*2

精美净水壶*1

 

扫码获取直播地址

扫码跟第一面对面请教

千言数据集——文本相似度常规赛,持续打榜中:

https://aistudio.baidu.com/aistudio/competition/detail/45/?isFromLuge=1


转载:https://blog.csdn.net/qq_40247584/article/details/114322255
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场