Python 是一种常用的编程语言,很多人喜欢用 Python 写爬虫获取网站上的数据。这里将介绍如何使用 Python 爬取小说。
第一步,需要下载并安装 Python 环境,官方网站为 https://www.python.org/
第二步,安装 requests 和 beautifulsoup4 库,可以使用以下命令:
pip install requests pip install beautifulsoup4
第三步,根据需要爬取的小说网站,编写代码。以下是一个简单的例子,假设需要爬取起点中文网的《择天记》一书:
import requests from bs4 import BeautifulSoup url = 'http://www.qidian.com/Book/2514169.aspx' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') book_title = soup.find('h1', {'class': 'book-title'}).get_text().strip() book_author = soup.find('a', {'class': 'writer'}).get_text().strip() # 获取所有的章节列表 chapter_list = soup.find_all('a', {'data-eid': 'qd_G01'}) # 遍历所有的章节 for chapter in chapter_list: chapter_title = chapter.get_text().strip() chapter_url = chapter['href'] chapter_response = requests.get(chapter_url) chapter_soup = BeautifulSoup(chapter_response.content, 'html.parser') # 获取每一章的文本内容并保存到本地 chapter_content = chapter_soup.find('div', {'class': 'read-content j_readContent'}).get_text() filename = '{} - {}.txt'.format(book_title, chapter_title) with open(filename, 'w', encoding='utf-8') as f: f.write(chapter_content)
输出的结果将会是一个个以章节为名的文本文件,内容是择天记的所有章节内容。