Python可以帮助我们爬取各种网站上的数据,包括小说内容。正如我们所知,小说是一类很受欢迎的读物。现在,我们将使用Python爬取小说内容并输出到控制台。
import requests from bs4 import BeautifulSoup url = "http://novel.com/xxxx" # 小说网址 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; ...) Gecko/20100101 Firefox/64.0', } res = requests.get(url, headers=headers) # 向服务器发送请求 res.encoding = 'utf-8' # 防止出现乱码 soup = BeautifulSoup(res.text, 'html.parser') # 解析HTML content = soup.find_all('div', {'class': 'content'}) # 获取小说正文内容 for c in content: print(c.text) # 输出小说正文内容
在这段代码中,我们使用了requests库和BeautifulSoup库来请求和解析HTML。我们通过headers模拟了用户的浏览器,防止被服务器拒绝访问。
接下来,我们通过find_all()函数从HTML文档中获取小说的正文内容。我们使用一个循环来遍历返回的内容,并将每个小说段落的文本输出到控制台。
最后,我们可以通过简单的修改这段代码来适应不同的小说网站,获取自己需要的小说内容。