Python是一种优秀的编程语言,可以用来实现很多功能,其中包括网络爬虫。在网络爬虫中,最关键的部分就是如何爬取正文内容。下面就来介绍一下使用Python如何爬取网页正文。
首先,我们需要导入所需的库。其中,Requests库用来发起HTTP请求,而BeautifulSoup库用来解析HTML文档:
import requests from bs4 import BeautifulSoup接着,我们发起HTTP请求,获取网页内容:
url = 'https://www.example.com/articles/12345' response = requests.get(url)以上代码可以获取URL为https://www.example.com/articles/12345的网页内容。接着,我们需要使用BeautifulSoup库来解析HTML文档:
soup = BeautifulSoup(response.text, 'html.parser')以上代码会将网页内容解析为一个BeautifulSoup对象。接下来,我们需要从该对象中提取正文内容。一般来说,正文都包含在
标签中,因此我们可以通过查找
标签来提取正文内容:
paragraphs = soup.find_all('p')以上代码会将正文中的所有
标签提取出来。最后,我们可以使用
标签将以上代码组合在一起,以便于显示和复制:import requests from bs4 import BeautifulSoup url = 'https://www.example.com/articles/12345' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') paragraphs = soup.find_all('p') for p in paragraphs: print(p.text)以上代码就可以爬取网页正文内容了。需要注意的是,不同网站的正文内容可能包含在不同的标签中,因此需要具体情况具体分析,针对性地进行解析。