欢迎关注【百度NLP】公众号，及时获取更多自然语言处理领域技术干货！

文本相似度旨在识别两段文本在语义上是否相似，它在自然语言处理领域是一个重要研究方向，同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用。

目前学术界已经开源共享了一些公开中文文本相似度数据集，『千言』开源项目收集和整理了这些权威的数据集，如：LCQMC（A Large-scale Chinese Question Matching Corpus）, 百度知道领域的中文问题匹配数据集，BQ Corpus（Bank Question Corpus）, 银行金融领域的问题匹配数据

，PAWS (Paraphrase Adversaries from Word Scrambling)，包含 7 种语言释义对的数据集。

千言（luge.ai）是全面的面向自然语言理解和生成任务的中文开源数据集合，吸引了众多知名企业的算法工程师同台竞技。其中的文本相似度赛道尤为火爆，参赛队伍多达300余支，更是不乏OPPO、思必驰等AI领域的知名企业。其中，OPPO小布助手在千言文本相似度比赛中，也获得了第一名的好成绩。

为了帮助大家更好地使用千言、参与千言的竞赛交流，千言特邀小布助手闲聊组团队做客，通过本周四的直播，让我们一起跟着两位老师了解文本相似度的常用算法以及『千言数据集：文本相似度』的竞赛方案。

直播时间：

3.4日/19：30-20：30

分享嘉宾:

OPPO小布助手算法工程师张超

OPPO小布助手算法工程师邱月

分享大纲：

1 语义相似度任务——背景和难点分析

2 语义相似度算法

2.1 无监督学习

2.2 有监督学习

2.3 语义表征模型

2.4 语义交互模型

3 千言-语义相似度解决方案

3.1 赛题介绍

3.2 数据集分析

3.3 算法方案设计【数据清洗、数据增强、模型训练、5fold交叉验证、模型融合预测方案】

互动有奖

直播过程中，大家可以通过弹幕、评论等方式进行互动，老师会推选3个优质问题。

奖品

无线充电鼠标垫*2

精美净水壶*1

扫码获取直播地址

扫码跟第一面对面请教

千言数据集——文本相似度常规赛，持续打榜中：

https://aistudio.baidu.com/aistudio/competition/detail/45/?isFromLuge=1

转载：https://blog.csdn.net/qq_40247584/article/details/114322255

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

拆解「千言数据集：文本相似度」竞赛第一背后的故事

欢迎关注【百度NLP】公众号，及时获取更多自然语言处理领域技术干货！

互动有奖

奖品

扫码获取直播地址

千言数据集——文本相似度常规赛，持续打榜中：

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场