Python是目前互联网爬虫最流行的编程语言之一,它能够轻松地完成网站信息的抓取、数据的爬取等任务。今天我们就来看看如何利用Python编写爬虫程序来爬取小说目录。
import requests
from bs4 import BeautifulSoup
# 定义爬虫函数
def spider():
url = 'https://www.lingdiankanshu.co/88241/'
# 设置请求头,避免被反爬虫
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
# 对网页内容进行解析
soup = BeautifulSoup(response.text, 'html.parser')
# 找到小说目录所在的div标签
div_tag = soup.find('div', {'class': 'ml_box'})
# 找到所有的a标签
a_tags = div_tag.find_all('a')
# 遍历所有的a标签,并输出小说目录名称及链接
for a_tag in a_tags:
print(a_tag.get_text(), '->', a_tag.get('href'))
if __name__ == '__main__':
spider()
首先,我们需要引入requests库和BeautifulSoup库来辅助完成网页内容的抓取与解析。然后,定义spider函数,并在函数内部发送请求,获取小说目录所在的div标签。之后,找到所有的a标签,遍历打印出小说目录名称及链接。运行代码,即可轻松地爬取小说目录信息。