淘先锋技术网

首页 1 2 3 4 5 6 7

Python是一种非常流行的编程语言,它可以用来实现很多功能,其中之一就是爬取网页内容。这篇文章将介绍如何使用Python爬取旅游评论。


# 导入必要的库
import requests
from bs4 import BeautifulSoup

# 定义爬取评论的函数
def get_reviews():
    # 设置需要爬取的网址
    url = "https://www.tripadvisor.cn/Attraction_Review-g312684-d311975-Reviews-Pyramid_of_the_Moon-Teotihuacan_Central_Mexico_and_Gulf_Coast.html"
    
    # 发送请求,获取响应
    response = requests.get(url)
    # 解析html
    soup = BeautifulSoup(response.text, "html.parser")
    # 找到评论所在的标签
    reviews = soup.find_all(class_="social-member-event-MemberEventOnObjectBlock__event_type--3njyv")
    
    # 打印评论
    for review in reviews:
        print(review.text)

# 调用函数
get_reviews()

Python爬取旅游评论

在上面的代码中,我们首先导入了需要的库——requestsBeautifulSoup。然后,定义了一个函数get_reviews,它接受一个参数url,表示需要爬取的网址。函数首先发送请求,获取响应。然后,使用BeautifulSoup库解析html,找到评论所在的标签。最后,遍历评论,打印每一个评论。

我们将上面的代码保存为crawler.py文件,并在终端中运行python crawler.py即可看到爬取的结果。

使用Python爬取旅游评论,不仅可以大大提高工作效率,还可以在分析数据时提供有价值的信息。