python网络爬虫与文本数据分析教程_腾讯课堂课程

课程简介

简介: 大数据时代,大量行为信息以文本等非结构化、异构型数据格式存储于网络之中。非计算机专业背景的人使用网络世界数据进行研究,面临两大难点:数据的获取文本(非结构化)数据的处理与分析参照已发表的社科类文章,希望帮大家解决这两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。
课程介绍

在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。

大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:

  • 数据的获取

  • 文本(非结构化)数据的处理与分析

数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。

 

课程目录
 

第一节 课程简介

课程介绍

课程知识点分布情况

 

第二节 环境配置

Mac环境配置

Windows环境配置

pip安装问题解决办法

jupyter notebook使用方法

 

第三节 python基本语法

python跟英文一样也是一门语言,这很文科

字符串

列表

元组

字典

集合

if 条件语句

for循环语句

try-except异常处理语句

 

第四节 python高级语法

切片-对想要的数据字段进行切片

列表推导式

函数

csv文件存储库

os文件路径操作库

re正则表达式(文本分析利器)

python初学者常见错误

 

第五节 网络爬虫原理

理解访问与请求

寻求网址规律

requests访问库

pyquery网页解析定位库

 

第六节 网络爬虫实战

静态网站-天涯论坛

静态网站-大众点评

静态网站-boss直聘

动态网站-百度企业信用

动态网站-京东评论

动态网站-B站弹幕

动态网站-B站评论

如何用pandas采集网页中的表格数据

 

第七节 初识文本分析

如何从不同格式的文件中读取数据

jieba分词、词频统计与可视化

海量公司年报的情感分析(中文)

英文数据的情感分析

如何对Excel、csv文件做数据分析(pandas数据分析库)

 

第八节 文本分析与机器学习

机器学习概论

用机器学习做文本分析的步骤

机器学习库scikit-learn

文本特征工程(描述数据的方式)

在线评论情感分类

了解聚类Kmeans算法

文本相似度计算

LDA话题模型

计算消费者异质性(特征向量)

文本分析在经管研究中的应用案例

 

资料下载报名后支持下载

课程目录

01   课程简介

【录播】课程介绍(3分钟)免费试学

【录播】课程知识点分布情况(4分钟)

02   环境配置

【录播】Mac环境配置(8分钟)免费试学

【录播】Windows环境配置(13分钟)

【录播】pip安装问题解决办法(3分钟)免费试学

【录播】jupyter notebook使用方法(15分钟)免费试学

03   python基本语法

【录播】python跟英文一样也是一门语言,这很文科(4分钟)免费试学

【录播】字符串(7分钟)免费试学

【录播】列表(4分钟)免费试学

【录播】元组(2分钟)免费试学

【录播】字典(5分钟)免费试学

【录播】集合(2分钟)免费试学

【录播】if条件语句(4分钟)免费试学

【录播】for循环语句(4分钟)免费试学

【录播】try-except异常处理语句(2分钟)免费试学

04   python高级语法

【录播】切片-对想要的数据片段进行切片(4分钟)免费试学

【录播】列表推导式(4分钟)免费试学

【录播】函数(11分钟)免费试学

【录播】csv文件存储库(7分钟)免费试学

【录播】os文件路径操作库(4分钟)免费试学

【录播】re正则表达式库(文本分析利器)(9分钟)免费试学

【录播】python初学者常见错误(7分钟)免费试学

05   网络爬虫原理

【录播】理解访问与请求(12分钟)免费试学

【录播】寻找网址规律(5分钟)免费试学

【录播】requests访问库(22分钟)免费试学

【录播】pyquery网页解析定位库(32分钟)免费试学

06   网络爬虫实战

【录播】静态网站-天涯论坛(7分钟)免费试学

【录播】静态网站-大众点评(22分钟)

【录播】静态网站-boss直聘(22分钟)

【录播】动态网站-百度企业信用(14分钟)免费试学

【录播】动态网站-京东评论(22分钟)免费试学

【录播】动态网站-B站弹幕(38分钟)免费试学

【录播】动态网站-B站评论(22分钟)

【录播】如何用pandas采集网页中的表格数据(22分钟)免费试学

07   初识文本分析

【录播】如何从不同格式的文件中读取数据(14分钟)

【录播】jieba分词、词频统计与可视化(35分钟)

【录播】海量公司年报的情感分析(中文)(33分钟)

【录播】英文数据的情感分析(10分钟)

【录播】pandas数据分析库(28分钟)

08   文本分析与机器学习

【录播】机器学习概论(8分钟)

【录播】用机器学习做文本分析的步骤(11分钟)

【录播】机器学习库scikit-learn(8分钟)

【录播】文本特征工程(描述数据的方式)(10分钟)

【录播】在线评论情感分类(13分钟)

【录播】了解聚类Kmeans算法(5分钟)

【录播】文本相似度计算(3分钟)

【录播】LDA话题模型(14分钟)

【录播】计算消费者异质性(特征向量)(9分钟)

【录播】文本分析在经济管理研究中的应用案例(15分钟)

了解详情/优惠购买

点击查看更多 | 立即购买课程 >>

扫码查看购买:
以上是python网络爬虫与文本数据分析教程_腾讯课堂课程的介绍,希望能帮到您!

猜你喜欢