Python是一种非常强大的编程语言,能够轻松地实现各种自动化任务,其中之一就是爬虫。在这篇文章中,我们将介绍如何使用Python来爬取淘宝评价信息。
import requests from bs4 import BeautifulSoup def get_comments(keyword): url = 'https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20210413&ie=utf8'.format(keyword) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.11 Safari/537.36'} req = requests.get(url, headers=headers) soup = BeautifulSoup(req.text, 'html.parser') items = soup.select('.item') for item in items: comment_url = item.select('.pic a')[0]['href'] get_comment_detail(comment_url) def get_comment_detail(comment_url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.11 Safari/537.36'} req = requests.get(comment_url, headers=headers) soup = BeautifulSoup(req.text, 'html.parser') comments = soup.select('.tm-rate-fulltxt') for comment in comments: print(comment.text.strip()) get_comments('手机')
如上所示,我们使用了Requests和BeautifulSoup模块来获取淘宝页面和解析HTML。get_comments函数用于获取搜索结果页面的每个物品,然后通过get_comment_detail函数获取每个物品的评价信息。我们在评价信息所在的类(tm-rate-fulltxt)内提取评价文本并将其打印出来。
我们可以使用任何搜索关键字来替换get_comments()函数中的“手机”参数。当我们运行脚本时,将打印出搜索结果中每个物品的评价信息。