Python 是一种高效率的编程语言, 它可以被用于各种各样的任务, 包括爬虫。 爬虫是一种网络编程技术, 它可以用来采集互联网上的数据, 包括小说。 以下是一个简单而有效的 Python 脚本, 它可以帮助你爬取互联网上的所有小说。
import urllib
import re
# 小说网站的 URL:
url = 'http://www.example.com'
# 获取网站上所有小说链接
html = urllib.urlopen(url)
links = re.findall('(?<=href=")[^"]+', html.read())
# 获取每个小说的章节链接
for link in links:
html = urllib.urlopen(link)
chapters = re.findall('(?<=href=")[^"]+\d+.html', html.read())
# 保存每个小说
for chapter in chapters:
html = urllib.urlopen(chapter)
text = re.findall('(.*)
', html.read())
# 保存章节到文件
file_name = chapter.split('/')[-1].replace('.html', '.txt')
with open(file_name, 'w') as f:
f.write('\n'.join(text))
以上 Python 脚本使用了正则表达式来匹配 HTML 标签中的内容。它会首先爬取小说网站的主页,然后提取所有小说的链接。接着,对于每个小说,它会爬取小说页面,提取章节链接,并且保存小说名字,作者和发布时间等信息。最后,它会爬取每个章节的 HTML 页面,并且把章节内容保存到对应的文本文件中。