在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。
大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:
数据的获取
文本(非结构化)数据的处理与分析
数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。
多重优惠福利
原价499元,现在限时特价199元。
购买后可发起组队,组队成功的队长可全免学费
扫下方二维码生成自己的课代表分享卡还有机会每单赚23.88元
邀请卡1个月有效期,失效后可加微信:372335839, 备注"网课"
课程目标
学会Python语言基本语法
掌握Python爬虫基本原理
会设计和开发Python爬虫
掌握文本分析相关库
理解数据挖掘,特别是文本分析的思路和流程
了解文本分类、文本聚类
主讲老师
适合人群
本课程面向对象有:
0编程基础
想从网上爬数据
想做文本分析
想了解机器学习
包括但不限于以上几类人群。
内容要点
第一部分 环境配置(1小时)
python简介
python安装
pycharm安装
jupyter notebook安装
第三方库安装方法
第二部分 Python快速入门(2小时)
基本语法
数据结构-list、str、dict、tuple、set
for循环、if逻辑
try-except
常用函数
案例1:爬虫代码中各知识点使用情况
案例2:文本分析代码中各知识点使用情况
第三部分 Python网络爬虫快速入门(2小时)
网络爬虫原理
requests库
bs4库
元素(数据)定位
数据抓包
数据存储(txt,csv)
案例1:豆瓣网数据抓取
案例2:知乎网站数据抓取
第四部分 快速入门Python文本分析(1.5小时)
文本分析应用场景
txt、pdf、word等类型文件的数据读取
中文分词-jieba库
自然语言处理-nltk库
可视化-pyecharts库
数据分析-pandas库
案例1-词频统计
案例2-制作词云图
案例3-excel文件中时间及文本数据处理方法
案例4-使用情感词典进行情感计算
第五部分 文本分析进阶篇(1.5小时)
监督学习与非监督学习
使用机器学习进行文本分析的步骤
表达文本数据信息的方式(独热编码、词袋法、TF-IDF)
理解特征矩阵、语料、文档、特征
机器学习库-sklearn语法学习
了解协同过滤-推荐系统
案例1-文本情感分析
案例2-文本分类(以20news数据集为例)
案例3-LDA话题模型
案例4-计算消费者购物偏好
文本分析相关文献
学习课程时,可以参考阅读以下文献,了解如何在社科类研究中使用文本分析
Author links open overlay panelComputational socioeconomics
1
欢迎扫码咨询!!
记得备注“网课(或工作坊)”
转载:https://blog.csdn.net/weixin_38008864/article/details/100916608