工商局信息是企业、商家开展经营活动必不可少的资源,如果能够爬取相关信息,对于企业来说是一个很大的便利。本文将介绍如何使用 Python 爬取工商局信息。
# 调用 requests 库和 Beautiful Soup 库 import requests from bs4 import BeautifulSoup # 定义获取页面 HTML 代码的函数 def getHtml(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return '' # 定义解析 HTML 代码的函数 def parseHtml(html): soup = BeautifulSoup(html, 'html.parser') # 获取公司名称 name = soup.select('div.title h1')[0].text # 获取企业信息表格数据 tableData = soup.select('table tbody tr') # 遍历表格数据,获取企业信息 for data in tableData: print(data.find_all('td')[0].text) print(data.find_all('td')[1].text) # 调用函数,完成爬取工商局信息的过程 url = 'http://www.gsxt.gov.cn/index.html' html = getHtml(url) parseHtml(html)
以上代码实现了获取工商局网站首页 HTML 代码,并解析页面获取公司名称和企业信息表格数据的功能,最后遍历表格数据输出企业信息。在获取企业信息表格数据时,使用了 Beautiful Soup 库提供的 CSS 选择器语法,使用'>'符号来获取子节点的标签内容,使用' '符号来获取后代节点的标签内容。
爬取工商局信息需要注意网站的反爬机制,防止被网站拦截。此外,所爬取的信息要用途明确,不得用于非法用途。