随着互联网时代的到来,网络数据的获取变得越来越重要。当我们需要获取一些特定数据时,我们可以使用爬虫工具来获取数据。在本文中,我们将介绍如何使用Python编写代码,利用爬虫技术,从某些网站上获取星级信息。
import requests from bs4 import BeautifulSoup # 定义目标网站url url = "https://www.tripadvisor.cn/Attraction_Review-g60763-d108555-Reviews-Empire_State_Building-New_York_City_New_York.html" # 发送请求 response = requests.get(url) # 验证请求结果是否成功 if response.status_code == 200: # 使用html.parser进行解析 soup = BeautifulSoup(response.text, "html.parser") # 获取所有名为 "rating" 的标签元素 rating_list = soup.find_all("div", class_="rating") for rating in rating_list: # 获取星数 stars = rating.find("span", class_="ui_bubble_rating")["class"][1].split("_")[1] print(stars) else: print("请求失败")
代码说明:
- 首先,我们定义了要爬取的目标网站url。
- 然后,通过Python的requests库发起请求,并将结果保存在response中。
- 接下来,利用BeautifulSoup库对请求结果进行解析,找到所有名为 "rating" 的标签元素。
- 在循环过程中,我们通过find方法以及CSS选择器语法获取星数信息,并将其打印出来。
- 最后,我们判断是否成功发起请求,并在失败时打印信息。
在本文中,我们学习了如何使用Python编写爬虫程序,并进行网页解析,获取特定数据。当然,涉及到数据获取我们需要注意法律法规的规定,不能违反法律法规进行爬取。