首页 1 2 3 4 5 6 7

python抓取手机号码_Python实战计划学习笔记:爬取手机号

这次运用数据来存储，并从中提取数据

成果展示

部分成果1.png

部分成果2.png

代码

import requests

import time

from bs4 import BeautifulSoup

from pymongo import MongoClient

client = MongoClient('localhost', 27017)

PhoneNum = client['PhoneNum']

url_list = PhoneNum['url_list']

phone_info = PhoneNum['phone_info']]

# spider 1

def get_phone_link(pages):

url = 'http://bj.58.com/shoujihao/pn{}/'.format(str(pages))

wb_data = requests.get(url)

time.sleep(1)

soup = BeautifulSoup(wb_data.text, 'lxml')

links = soup.select('li a.t')

numbers = soup.select('strong')

lk = soup.select('#infocont > span > b')

if '0' not in lk:

for number,link in zip(numbers,links):

data = {

'number': number.get_text(),

'PhoneLink' : link.get('href').split('?')[0]

}

print(data)

url_list.insert_one(data)

else:

pass

# spider 2

def get_item_info(url):

wb_data = requests.get(url)

time.sleep(1)

soup = BeautifulSoup(wb_data.text,'lxml')

titles = soup.select('div.col_sub.mainTitle > h1')

prices = soup.select('div.col_sub.sumary >ul > li > div.su_con > span')

for title, price in zip(titles,prices):

data = {

'title' :( title.get_text()).replace("\n","").replace(" ",""),

'price' : (price.get_text()).replace("\n","").replace(" ","")

}

print(data)

phone_info.insert_one(data)

for page in range(1, 200):

get_phone_link(page)

for info in url_list.find():

url = info["url"]

get_item_info(url)

总结

遇到需要采集大量的数据，最好的方式就是将功能分离开来。一次只执行一个动作

数据类型——链表的简单实现（C语言实现链表）

微信小程序错误监控方法谈

对于小程序开发者来说，如何进行错误监控一直是个头疼的问题。由于小程序开发迭代较快，会存在系统问题，机型问题和版本的兼容问题，有时候我们在自行测试中完美运行，可总是有用户抱怨使用异常。如果我们对小程序的错误进

element 树形 el-tree 修改小三角箭头图标CSS

el-tree .el-tree-node__expand-icon.expanded { -webkit-tr

使用wireshark对HTTPS解密

最近需要解析HTTPS流量，所以对wireshark的HTTPS解密进行了实测。使用wireshark解密https的方法方法一： 1、在wireshark的首选项中的protocols的tls选项里添加服务器私钥文件。p12文件需要填写密码。

Echarts dataZoom x轴横坐标缩放

https://echarts.apache.org/zh/option.html#dat

GO语言int、float32转对应16进制字符串

通常用于数据规约解析，例如我们需要将整数和浮点型小数转成16进制字符串后，再转成字节数组数据传递TCP，详细看下面的工具类， package main import ( "encoding/binary" "encoding/he

hadoop环境搭建（续预备）

继hadoop环境搭建预备节之后，开始正式搭建hadoop集群环境，先简

Kafka动态关闭、开启监听

在实际生产开发中经常会有这样的场景，因为某些场景需要暂时关闭kafka的监听，比如重刷缓存等，等刷好之后再度开启kafka监听，这里记录一下。一、首先在监听的地方，给监听加一个id。 public static

【漏洞分析】Apache Shiro身份验证绕过漏洞（CVE-2022-40664）

漏洞信息 CVE编号：CVE-2022-40664 CNVD编号：CNVD-2022-68497 Apache Shiro是一款功能强大且易于使用的Java安全框架，主要包含身份验证、授权、加密和会话管理等功能，

Fabric-Java-SDK调用（二）——调试跑通

运行测试Demo——End2endIT.java 运行结果分析 1. 先构建通道foo，把org1加入该通道，运行该通道