Python 是一个功能强大的编程语言,可以用于许多不同的领域。其中一项非常流行的应用就是 Web 爬虫。在本文中,我们将介绍如何使用 Python 爬取淘票票。
首先,我们需要确定要爬取的信息。在淘票票网站上,我们可以找到许多不同的信息,包括电影名称、演员、电影类型、票房收入等等。在本文中,我们将抓取电影名称、上映日期、评分和票房收入。
import requests from bs4 import BeautifulSoup URL = 'https://www.taopiaopiao.com/movie/later' res = requests.get(URL) soup = BeautifulSoup(res.content, 'html.parser') movies = [] for movie in soup.select('.movie-card-wrap'): name = movie.find('div', {'class': 'movie-card-name'}).text date = movie.find('div', {'class': 'movie-card-date'}).text score = movie.find('div', {'class': 'movie-card-score'}).text.rstrip('分') box_office = movie.find('div', {'class': 'movie-card-boxoffice'}).text.lstrip('票房:') movies.append({'name': name, 'date': date, 'score': score, 'box_office': box_office}) print(movies)
如果你不熟悉 Python 的语法,上面的代码可能看起来有些吓人。但是,这并不是很难理解的。我们首先导入了 requests 和 BeautifulSoup 库,然后定义了要抓取的网址。然后,我们使用 requests 库获取网页内容,并使用 BeautifulSoup 解析 HTML。
我们使用 soup.select 方法来查找电影卡片的 DOM 元素。然后,我们使用 .find 方法查找卡片中的各个元素,并将它们的文本值存储在一个字典中。最后,我们将字典添加到 movies 列表中。
最后,我们打印 movies 列表,以确保我们成功地抓取了所需的信息。