最近,学习python爬虫的小伙伴们都在打听python如何爬取1024网站上的图片。下面将介绍一下如何使用python实现该功能。
首先,我们需要安装需要的库:requests和beautifulsoup4。可以使用pip进行安装:
pip install requests pip install beautifulsoup4
接下来,我们先进行网页的请求,并解析页面内容:
import requests from bs4 import BeautifulSoup url = 'http://t66y.com/thread0806.php?fid=16&search=&page=1' headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser')
上面代码中,我们通过requests库向该网址发送请求,并使用headers伪装成浏览器发送请求。然后使用BeautifulSoup解析页面内容。
接下来,我们需要从页面中提取图片链接。可以查看页面结构,找到图片链接所在的标签,并通过BeautifulSoup提取:
img_tags = soup.find_all('input', type='image') pic_links = [img_tag.get('src') for img_tag in img_tags]
这里我们使用find_all方法寻找input标签,类型为image的标签,并通过get方法获取src属性值。
最后,我们将获取到的链接进行下载:
import os if not os.path.exists('pics'): os.mkdir('pics') for link in pic_links: filename = os.path.join('pics', link.split('/')[-1]) with open(filename, 'wb') as f: f.write(requests.get(link, headers=headers).content) print('下载完成:', filename)
上面代码中,我们先创建一个pics文件夹用于存储下载的图片。然后遍历所有链接,通过split方法获取文件名。最后使用requests库下载文件,并保存在pics文件夹中。
以上就是python爬取1024图片的全部内容。注意,爬取网站不要过于频繁,以免被封禁IP。