javascript 做爬虫

JavaScript是一种非常强大的编程语言，它不仅可以用于网页交互，还可以用于数据爬取。在互联网时代，数据成为了一种重要的资源，运用JavaScript进行数据爬取已经成为了一种非常实用的技能。

JavaScript可以通过AJAX技术向服务器发送异步请求，获取服务器上的数据。另外，还可以通过模拟浏览器行为去抓取页面中的数据。下面我们将结合这两种方式，讲解如何使用JavaScript进行数据爬取。

1.使用AJAX进行数据爬取

使用AJAX技术进行数据爬取是最为常用的方式，因为它可以直接向服务器发送异步请求获取数据。下面是使用JavaScript进行AJAX数据爬取的示例：

var xmlhttp;
if (window.XMLHttpRequest){
//  IE7+, Firefox, Chrome, Opera, Safari 浏览器执行代码
xmlhttp=new XMLHttpRequest();
}
else{
// IE6, IE5 浏览器执行代码
xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function(){
if (xmlhttp.readyState==4 && xmlhttp.status==200){
document.getElementById("myDiv").innerHTML=xmlhttp.responseText;
}
}
xmlhttp.open("GET","/ajax/demo_get.php",true);
xmlhttp.send();

这是一个最简单的AJAX请求示例，它向服务器发送GET请求获取服务器返回的数据，并将数据展示在页面上。其中，xmlhttp.readyState表示请求状态，xmlhttp.status表示请求返回的状态码，200表示请求成功，其它状态码均表示请求失败。

2.模拟浏览器行为进行数据爬取

在某些情况下，我们无法通过AJAX方式获取数据，比如一些网站对AJAX请求做了限制或防护。这时候，我们可以借助模拟浏览器行为去抓取页面中的数据。

使用JavaScript模拟浏览器行为进行数据爬取的示例代码如下所示：

const puppeteer = require('puppeteer');
async function scrapeProduct(url) {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto(url);
// 等待页面加载完成
await page.waitForSelector('.my-class');
const data = await page.evaluate(() =>{
const title = document.querySelector('h1').innerText;
const price = document.querySelector('.my-class span').innerText;
return {
title,
price
}
});
browser.close();
return data;
}
scrapeProduct('https://www.example.com/product/123');

上述代码使用了一个名为puppeteer的Node.js库，它可以模拟一个真实的浏览器环境并执行我们想要的操作。在代码中，我们使用await来等待页面加载完成，并通过page.evaluate()去获取页面中的数据。

总结

JavaScript可以帮助我们实现数据的爬取，包括AJAX请求和模拟浏览器行为两种方式。其中AJAX方式是最为常用的方式，但在一些特殊情况下，模拟浏览器行为也是非常实用的。