欢迎关注【百度NLP】公众号,及时获取更多自然语言处理领域技术干货!
文本相似度旨在识别两段文本在语义上是否相似,它在自然语言处理领域是一个重要研究方向,同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用。
目前学术界已经开源共享了一些公开中文文本相似度数据集,『千言』开源项目收集和整理了这些权威的数据集,如:LCQMC(A Large-scale Chinese Question Matching Corpus), 百度知道领域的中文问题匹配数据集,BQ Corpus(Bank Question Corpus), 银行金融领域的问题匹配数据
,PAWS (Paraphrase Adversaries from Word Scrambling),包含 7 种语言释义对的数据集。
千言(luge.ai)是全面的面向自然语言理解和生成任务的中文开源数据集合,吸引了众多知名企业的算法工程师同台竞技。其中的文本相似度赛道尤为火爆,参赛队伍多达300余支,更是不乏OPPO、思必驰等AI领域的知名企业。其中,OPPO小布助手在千言文本相似度比赛中,也获得了第一名的好成绩。
为了帮助大家更好地使用千言、参与千言的竞赛交流,千言特邀小布助手闲聊组团队做客,通过本周四的直播,让我们一起跟着两位老师了解文本相似度的常用算法以及『千言数据集:文本相似度』的竞赛方案。
直播时间:
3.4日/19:30-20:30
分享嘉宾:
OPPO小布助手算法工程师 张超
OPPO小布助手算法工程师 邱月
分享大纲:
1 语义相似度任务——背景和难点分析
2 语义相似度算法
2.1 无监督学习
2.2 有监督学习
2.3 语义表征模型
2.4 语义交互模型
3 千言-语义相似度解决方案
3.1 赛题介绍
3.2 数据集分析
3.3 算法方案设计【数据清洗、数据增强、模型训练、5fold交叉验证、模型融合预测方案】
互动有奖
直播过程中,大家可以通过弹幕、评论等方式进行互动,老师会推选3个优质问题。
奖品
无线充电鼠标垫*2
精美净水壶*1
扫码获取直播地址
扫码跟第一面对面请教
千言数据集——文本相似度常规赛,持续打榜中:
https://aistudio.baidu.com/aistudio/competition/detail/45/?isFromLuge=1
转载:https://blog.csdn.net/qq_40247584/article/details/114322255