Python在网络爬虫方面非常强大。在这篇文章中,我们将介绍如何使用Python爬取新闻并将其保存至本地。
# 导入所需模块 import requests from bs4 import BeautifulSoup # 新闻网站URL url = 'https://news.baidu.com/' # 发送请求获取网页内容 r = requests.get(url) r.encoding = 'utf-8' # 使用BeautifulSoup解析HTML soup = BeautifulSoup(r.text, 'html.parser') # 获取新闻标题和链接 news = soup.select('.text a') for n in news: print(n.text, n['href'])
代码中,我们使用requests模块发送请求获取新闻网站的HTML代码,并使用BeautifulSoup解析HTML。然后我们可以使用CSS选择器从HTML中获取需要的信息。在这里,我们使用了一个名为“text”的CSS类,它涵盖了新闻标题和链接。
# 导入所需模块 import requests from bs4 import BeautifulSoup # 新闻网站URL url = 'https://news.baidu.com/' # 发送请求获取网页内容 r = requests.get(url) r.encoding = 'utf-8' # 使用BeautifulSoup解析HTML soup = BeautifulSoup(r.text, 'html.parser') # 获取新闻标题和链接 news = soup.select('.text a') # 将新闻写入本地文件 with open('news.txt', 'w', encoding='utf-8') as f: for n in news: f.write(n.text + '\n' + n['href'] + '\n')
在上述代码中,我们将新闻逐一写入本地文件“news.txt”中。我们使用了Python的“with open”语句来打开文件,并使用循环语句将所有新闻内容逐一写入文件中。
如此简单,我们就使用Python爬取了新闻,并将其保存至本地。如果你有其他爬虫需求,也可以使用Python来实现。祝你好运!