PART👇1.自然语言处理常用操作 NLP :
一、标题文本预处理包含:
1.过滤非中文字符
2.文本分词并进行词性标注
3.去除常见中文停用词,并存储分词后结果
二、 文本特征词向量化表示:
1.词袋模型 Coutvictorizer
2.TF-IDF特征提取
三、调用sklearn 分类器建模,GridsearchCV调参
1.逻辑回归分类 LogisticRegression
2.超参数C设定,正则化 防止过拟合
全文点击👇以下:
文本分类NLP豆瓣电影短评中文文本分类实战代码Jieba+sklearn
PART👇2.关于BERT模型解析与应用实战
Bert模型全称Bidirectional Encoder Representations from Transformers,主要分为两个部分:1训练语言模型(language model)的预训练(pretrain)部分,2训练具体任务(task)的fine-tune部分。Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。
相比之前的Word Embedding模型,Bert 模型具有双向,多层,随机Mask,并且融合了自然语言处理前沿技术transformer 权重处理多种优点,可以说是ELMO、GPT、Word2Vec的集大成者。具体原理上的理解各位可以移步至张俊林博士解读BERT非常详尽清晰,有助于各位从理论上加深理解Bert的原理。本文主要从Bert实践角度,拎出实用的代码片段,来完成文本情感分类。
全文点击👇以下:
bert中文文本情感分类 微博评论挖掘之Bert实战应用案例-文本情感分类
PART👇3:自然语言处理高阶应用——聊天机器人/翻译系统
《一》聊天机器人/翻译系统系列1一梳理了聊天机器人网络设计模型原理
👇理论篇—图文解锁seq2seq+attention模型原理
《二》聊天机器人/翻译系统系列2——开启实战代码篇:代码是设计思路的呈现,在这里我们把聊天机器人整体模型拆分为三块,循序渐进方便大家理解消化。
第一块——👇聊天机器人地基模型LSTM的手把手代码搭建。注意聊天机器人是由编码模型和解码模型这两块构成的。而编码模型和解码模型的网络设计都是采用LSTM。所以剖析捋顺LSTM模型的实现,是我们整个聊天机器人网络设计代码的硬核地基。
第二块——理解并敲完第一块地基砖,相对可以轻松地开始着手实现seq2seq整体模型的网络搭建工作了。那么这两个LSTM模型分别在编码过程和解码过程中,该如何实现呢?如何运转起来整个seq2seq模型并实现预测功能?这也是咱们本文重点要手把手带大家搭建的。
《三》聊天机器人系列3seq2seq+attention
👇【Python十分钟写出聊天机器人】基于Keras实现seq2seq模型
如果你对AI算法感兴趣,欢迎关注我的博客《深度学习算法攻城狮》,持续更新AI深度学习算法项目实战代码,十分钟学会写出撩妹神器AI聊天机器人@~@
转载:https://blog.csdn.net/weixin_37479258/article/details/104620655