Python 是一种流行的编程语言,可以从网站上抓取数据。本文将介绍如何使用 Python 爬虫来创建一个字典。
首先,我们需要爬取词汇的来源。在本例中,我们将从词典网站获取单词。使用 urllib 库可以非常方便地获取页面,如下所示:
import urllib url = 'http://www.dictionary.com/browse/' # 获取单词最多的两个字母排列,按字母顺序排列。 alphabet = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'] for letter1 in alphabet: for letter2 in alphabet: current_url = url + letter1 + '/' + letter2 req = urllib.request.Request(current_url, headers={'User-Agent': 'Mozilla/5.0'}) response = urllib.request.urlopen(req) page = response.read() # 处理抓取到的页面 # ...
接下来,我们需要处理页面。使用 Beautiful Soup 库可以轻松地解析 HTML 页面,如下所示:
from bs4 import BeautifulSoup soup = BeautifulSoup(page, "html.parser") # 查找所有单词元素 words = soup.find_all('section', {'class': 'css-1inca6e e1hk9ate4'}) for word in words: try: # 查找单词 term = word.h3.a.text # 查找释义 definition = word.div.div.p.text # 处理单词和释义 # ... except: pass
现在,我们可以将单词和释义存储到字典中:
dictionary = {} # 将单词和释义添加到字典中 dictionary[term] = definition
最后,我们可以将字典存储到文件中:
import json # 序列化字典并将其存储到文件中 with open('dictionary.json', 'w') as f: json.dump(dictionary, f)
现在,我们已经创建了一个简单的字典。该字典包含从词典网站抓取的单词和释义。