专业自媒体运营推广——顾家有收入两不误
电话+V: 152079-09430 ,欢迎咨询爬虫看电影免费代码,[专业自媒体运营推广],[自媒体商圈业内交流],[各种运营推广课程],[解决从零到一的问题],[让你站在风口忘记焦虑]
一、.利用python获得豆瓣电影前30部电影的中文片名,排名,导演,主演,上映时间...
热门频道
首页
博客
研修院
VIP
APP
问答
下载
社区
推荐频道
活动
招聘
专题
打开CSDNAPP
Copyright?1999-2020,CSDN.NET,AllRightsReserved
打开APP
python网络爬虫1.2获取豆瓣TOP250电影的中英文名、港台名、导演、上映年份、电影分类以及评分,将数据存入文档。原创
2021-07-1901:03:15
2点赞
zynaln
码龄8年
关注
题目:
获取豆瓣TOP250电影的中英文名、港台名、导演、上映年份、电影分类以及评分,将数据存入文档。
代码:
输出结果:
文章知识点与官方知识档案匹配
Python入门技能树网络爬虫urllib
201761人正在系统学习中
打开CSDNAPP,看更多技术内容
最新发布用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)
用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)
继续访问
python
写评论
7
14
2
踩
二、第5课实例二:爬取电影
1.选择一个网站:https://www.douban.com
2.在进行爬取之前,我们先去看看它的robots协议。
协议网址:https://www.douban.com/robots.txt
3.进入首页https://movie.douban.com/top250?start=0filter=,打开检查工具,在Elements里查看这个网页,是什么结构。
点击开发者工具左上角的小箭头,选中“肖申克的救赎”,这样就定位了电影名的所在位置,审查元素中显示<spanclass="title">:<span>标签内的文本,class属性;推荐语和评分也是如此,<spanclass='inq'>,<spanclass='rating_num'>;序号:<emclass>,<em>标签内的文本,class属性;推荐语<spanclass='inq'>;链接是<a>标签里href的值。最后,它们最小共同父级标签,是<li>。
4.我们再换个电影验证下找的规律是否正确。
5.check后,我们再看一共10页,每页的url有什么相关呢?

第1页:https://movie.douban.com/top250?start=0filter=
第3页:https://movie.douban.com/top250?start=50filter=
第7页:https://movie.douban.com/top250?start=150filter=
发现只有start后面是有变化,规律就是第N页,start=(N-1)*25
6.基于以上分析,我们有两种写爬虫的思路。
思路一:先爬取最小共同父级标签<li>,然后针对每一个父级标签,提取里面的序号/电影名/评分/推荐语/链接。
思路二:分别提取所有的序号/所有的电影名/所有的评分/所有的推荐语/所有的链接,然后再按顺序一一对应起来。
importrequests#引用requests库
frombs4importBeautifulSoup#引用BeautifulSoup库
res_films=requests.get('https://movie.douban.com/')#获取数据
bs_films=BeautifulSoup(res_films.text,'html.parser')#解析数据
fil_title=bs_films.find_all(class_='title')
fil_num=bs_films.find_all(class_="")
list_all=[]#创建一个空列表,用于存储信息
forxinrange(len(fil_num)):
list_films=[fil_num[x].text[18:-14],fil_title[x].find('a')['href']]
list_all.append(list_films)
python爬虫入门教程!全网VIP电影资源下载助手
原创2021-02-2518:01·吾爱python接下来,先来观察一下代码运行之后的初始化界面。
初始化界面【GSFAI BANK FINANCING】尊享直接对接老板
电话+V: 152079-09430
专注于自媒体运营推广配套流程服务方案。为企业及个人客户提供了高性价比的运营方案,解决小微企业和个人创业难的问题
