Python是一款功能强大的编程语言,它被广泛应用于各种领域。其中,爬虫是Python的代表性应用之一,Python可以帮助我们轻松地爬取各种网络资源,比如小红书图片。
import os import requests from bs4 import BeautifulSoup # 模拟浏览器访问小红书 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299', 'Referer': 'https://www.xiaohongshu.com/discovery/item/5f4ed0450000000001001aa1' } url = "https://www.xiaohongshu.com/discovery/item/5f4ed0450000000001001aa1" response = requests.get(url, headers=headers) # 解析网页 soup = BeautifulSoup(response.text, 'lxml') imgs = soup.find_all('img', class_='ru8_nImg') # 创建文件夹 if not os.path.exists('xiaohongshu'): os.mkdir('xiaohongshu') # 下载图片 for i, img in enumerate(imgs): img_url = img['src'] img_file = 'xiaohongshu/{}.jpg'.format(i) response = requests.get(img_url, headers=headers) with open(img_file, 'wb') as f: f.write(response.content) print('已下载第{}张图片'.format(i + 1))
以上是爬取小红书图片的Python代码。我们首先需要设置请求头信息,否则小红书服务器可能会拒绝我们的请求。接着,我们使用beautifulsoup库来解析小红书的网页内容,找到其中所有的图片标签。然后,我们创建一个文件夹(如果不存在的话),遍历每一张图片,并将图片下载至指定路径。
值得注意的是,在实际应用中,我们需要对代码进行适当的修改。比如,我们需要根据小红书的实际情况,修改headers信息,确保爬虫可以正常工作。另外,如果图片量很大,我们需要使用多线程或多进程来提高下载效率。