淘先锋技术网

首页 1 2 3 4 5 6 7
Python是一种优秀的编程语言,可以用来实现很多功能,其中包括网络爬虫。在网络爬虫中,最关键的部分就是如何爬取正文内容。下面就来介绍一下使用Python如何爬取网页正文。 首先,我们需要导入所需的库。其中,Requests库用来发起HTTP请求,而BeautifulSoup库用来解析HTML文档:
import requests
from bs4 import BeautifulSoup
接着,我们发起HTTP请求,获取网页内容:
url = 'https://www.example.com/articles/12345'
response = requests.get(url)
以上代码可以获取URL为https://www.example.com/articles/12345的网页内容。接着,我们需要使用BeautifulSoup库来解析HTML文档:
soup = BeautifulSoup(response.text, 'html.parser')
以上代码会将网页内容解析为一个BeautifulSoup对象。接下来,我们需要从该对象中提取正文内容。一般来说,正文都包含在

标签中,因此我们可以通过查找

标签来提取正文内容:

paragraphs = soup.find_all('p')
以上代码会将正文中的所有

标签提取出来。最后,我们可以使用

标签将以上代码组合在一起,以便于显示和复制:
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com/articles/12345'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.text)
以上代码就可以爬取网页正文内容了。需要注意的是,不同网站的正文内容可能包含在不同的标签中,因此需要具体情况具体分析,针对性地进行解析。