淘先锋技术网

首页 1 2 3 4 5 6 7

Python爬虫在网络上用途广泛,可以用来爬取各种网站的数据。本文将介绍使用Python爬取QQ看点的方法。


import requests
from bs4 import BeautifulSoup

url = 'https://i.match.qq.com/ninja/feeder?site=news&category=news_politics&userid=202206&distro=PC&mode=json&limit=1'
headers = {'User-Agent': 'Mozilla/5.0', 'referer': 'https://new.qq.com/ch/politics/'}
res = requests.get(url, headers=headers)
json_data = res.json()
news_list = json_data.get('data',{}).get('items', [])
for news in news_list:
    title = news.get('title')
    time = news.get('updateTimeStr')
    url = news.get('url')
    article_res = requests.get(url, headers=headers)
    soup = BeautifulSoup(article_res.text, 'html.parser')
    content = soup.select('.content-article')[0].text.strip()
    print(title, time, content)

Python爬取QQ看点

首先导入需要用到的库requests和BeautifulSoup。我们需要去找到请求的链接,这里通过F12查看Network选项卡,先在首页找到想要爬取的内容,然后通过抓包分析请求链接,获取到的数据是json格式。根据json格式取到我们需要的数据。

然后遍历每一篇文章的链接,获取到每篇文章详情页的html内容。通过BeautifulSoup解析html,把内容取出来,这里通过class选择器获取到文章内容的节点。最终输出每篇文章的标题、发布时间、以及文章内容。

Python爬取QQ看点只需几行代码,实现快速爬取新闻,供需要的人进行数据分析或其他用途。