Python是一门可以用来爬虫的语言,可以用它爬取各种网站上的数据。在这篇文章中,我们将介绍如何使用Python爬取小说并保存到本地。
import requests from bs4 import BeautifulSoup url = 'http://www.xxxxxx.com/xxxxx.html' # 小说页面地址 file_path = './novel.txt' # 小说本地保存路径 # 请求页面数据 response = requests.get(url) response.encoding = response.apparent_encoding html = response.text # 解析页面数据,获取小说内容 soup = BeautifulSoup(html, 'html.parser') novel_div = soup.find('div', id='novel_content') # 找到小说内容所在的div novel_text = novel_div.text # 获取小说内容 # 保存小说到本地文件 with open(file_path, 'w', encoding='utf-8') as f: f.write(novel_text)
首先,我们需要知道小说所在的页面地址和保存到本地的文件路径。在代码中,我们定义了两个变量分别保存这两个信息。
接下来,我们使用requests库发起请求,并设置编码方式,同时将页面数据保存在变量html中。
然后,我们使用BeautifulSoup库解析页面数据,找到小说内容所在的div,并将内容保存在novel_text变量中。
最后,我们使用Python内置函数open打开文件,并将novel_text写入文件中。
使用以上这段简单的代码,我们就能轻松的爬取小说并保存到本地了。当然,这仅仅是开始,我们还可以在此基础上进行各种拓展和优化,让我们的爬虫更加高效、灵活。