Python网络爬虫与文本分析课
在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。
大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:
• 数据的大规模自动获取
• 文本数据(非结构化数据)的处理与分析
数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。
讲
师
介
绍
邓旭东(大邓):哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。曾在多所大学分享数据采集和文本分析,运营【公众号:大邓和他的Python】主要分享Python、爬虫、文本分析、机器学习等相关内容。
一、Python语法入门
1.Python跟英语一样是一种语言
2.数据类型之字符串
3.数据类型之列表元组集合
4.数据类型之字典
5.数据类型之布尔值、None
6.逻辑语句(if&for&tryexcept)
7.列表推导式
8.理解函数
9.常用的内置函数
10.文件路径库os库
11.数据存储csv库
12.初学python常出错误汇总
二、数据采集
1.网络爬虫原理
2.发现网址规律
3.网络访问requests库
4.网页解析pyquery库
5.实战:豆瓣小说
6.如何解析json数据
7.实战: 知乎
8.实战: 微博
9.实战: 批量下载多媒体文件
10.实战: 批量下载上市公司定期报告pdf
11.实战: 各种宏观经济、金融数据下载
12.爬虫知识点总结
三、 文本处理入门
1.文本分析概述
2.读取文件中数据(pdf、docx、txt、excel)
3.数据清洗re库
4.中文分词及数据清洗
5.实战: 词频统计(词云图制作)
6.实战: 将多文件数据汇总到一个excel
7.实战: 中文情感分析(词典法)
8.数据分析pandas库快速入门
9.实战: 对excel中的文本进行情感分析
10.从pdf中提取表格数据
11.共现法扩展情感词典(领域词典)
12.从非结构化文本数据中提取结构化数据(文本数据清洗re库)
四、文本分析进阶
1.了解机器学习
2.使用机器学习做文本分析的流程
3.scikit-learn机器学习库简介
4.文本特征抽取(特征工程)
5.实战:在线评论情感分析(机器学习法)
6.文本相似性(cos/编辑距离/jaccard)
7.实战: 使用文本相似性自动识别冲击(改变的)时间点
8.Kmeans聚类算法
9.LDA话题模型
10.文本分析在经管研究中的应用
相关文献
如了解文本分析在经管研究中使用情况,可参考:
[1]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing 84, no. 1 (2020): 1-25.
[2]沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19
[3]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[4]Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018.
[5]孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017 (12): 132-150.
[6]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.
Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.
课程概览
· 时间:2021年2月27-28日(邓旭东Python)
· 地点:钉钉APP(线上直播)
· 授课方式:
Python3.7.5、stata 14及以上
· 每天6小时(8:30—11:30;14;00—17:00)+30分钟答疑
· 价格:
2000/人
· 优惠政策:
皮皮侠数据会员可享受9折优惠!
报名信息
参与对象
高等院校经管专业青年老师和研究生。
报名时间
从即日起
报名咨询
扫码添加微信,拉你进咨询群
缴费信息
单位:深圳市皮皮侠数据科技有限公司
开户银行:平安银行深圳罗岗支行
银行账户:15286716010065
数据皮皮侠
高价值大数据服务提供者
扫码关注我们
转载:https://blog.csdn.net/weixin_38008864/article/details/113706184