Python爬取时光网是一个非常有趣的话题,下面给大家讲一下我如何使用Python爬取时光网的信息。
# 导入相关的库 import requests from bs4 import BeautifulSoup # 设置请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 发送请求 url = 'http://www.mtime.com/top/movie/top100/' response = requests.get(url, headers=headers) response.encoding = 'utf-8' # 解析网页 soup = BeautifulSoup(response.text, 'html.parser') items = soup.find_all(class_='mov_con') # 获取电影信息并保存到本地 for item in items: info = item.find_all('p') name = info[0].text score = info[1].text print('电影名称:', name.strip()) print('电影评分:', score.strip())
上面的代码主要通过requests和BeautifulSoup库来实现对时光网的爬取。首先,我们需要设置请求头来伪装我们的请求,避免被网站拒绝。然后发送请求,获取网页的源码。接着,我们使用BeautifulSoup库来解析网页,并找到我们需要的电影信息。最后,我们将获取到的信息打印出来,并保存到本地。
总的来说,Python爬取时光网是一个非常有趣但也需要一定技术的工作。不过只要掌握了相关的知识,就能轻松地实现对时光网的爬取。