网站首页 > 厂商资讯 > deepflow >

npm puppeteer 的多线程执行

随着互联网技术的飞速发展，越来越多的企业和开发者开始关注自动化测试工具。其中，npm puppeteer 是一款基于 Node.js 的浏览器自动化工具，它可以帮助开发者实现网页自动化测试、数据采集等功能。然而，在实际应用中，如何高效地利用 npm puppeteer 进行多线程执行，成为了许多开发者关注的焦点。本文将深入探讨 npm puppeteer 的多线程执行方法，以帮助开发者提高工作效率。

一、npm puppeteer 简介

npm puppeteer 是一个 Node.js 库，它提供了丰富的 API，可以控制 Chrome 或 Chromium 浏览器。通过 npm puppeteer，开发者可以实现以下功能：

创建一个浏览器实例，并打开指定的网页；
模拟用户操作，如点击、输入、滚动等；
获取网页内容，如页面元素、文本、图片等；
实现网页自动化测试、数据采集等功能。

二、多线程执行的意义

在处理大量网页时，单线程执行会导致效率低下。为了提高工作效率，多线程执行成为了一种有效的解决方案。在 npm puppeteer 中，多线程执行可以通过以下方式实现：

利用 Node.js 的 cluster 模块，创建多个子进程，实现多线程执行；
使用第三方库，如 puppeteer-cluster，简化多线程执行过程。

三、npm puppeteer 多线程执行方法

使用 cluster 模块实现多线程执行

const puppeteer = require('puppeteer');

const cluster = require('cluster');

const os = require('os');



if (cluster.isMaster) {

  const numCPUs = os.cpus().length;

  console.log(`Master ${process.pid} is running`);



  for (let i = 0; i < numCPUs; i++) {

    cluster.fork();

  }



  cluster.on('exit', (worker, code, signal) => {

    console.log(`worker ${worker.process.pid} died`);

  });

} else {

  (async () => {

    const browser = await puppeteer.launch();

    const page = await browser.newPage();

    await page.goto('http://example.com');

    // 进行相关操作

    await browser.close();

  })();

}

使用 puppeteer-cluster 库实现多线程执行

const puppeteer = require('puppeteer-cluster');

const os = require('os');



puppeteer.cluster.launch({

  concurrency: puppeteer-cluster.CONCURRENCY_LIMITED,

  maxConcurrentRequests: 10

}).then(cluster => {

  cluster.on('taskerror', (err, task) => {

    console.error(`Error running task ${task.id}:`, err);

  });



  cluster.on('task success', task => {

    console.log(`Task ${task.id} completed`);

  });



  cluster.on('task failure', (err, task) => {

    console.error(`Error running task ${task.id}:`, err);

  });



  cluster.on('worker ready', worker => {

    console.log(`Worker ${worker.process.pid} is ready`);

  });



  cluster.on('worker exit', worker => {

    console.log(`Worker ${worker.process.pid} exited`);

  });



  (async () => {

    for (const page of cluster.pages) {

      await page.goto('http://example.com');

      // 进行相关操作

    }

  })();

});

四、案例分析

假设我们需要对 1000 个网页进行数据采集，以下是如何使用 npm puppeteer 多线程执行实现：

使用 cluster 模块实现多线程执行

const puppeteer = require('puppeteer');

const cluster = require('cluster');

const os = require('os');



if (cluster.isMaster) {

  const numCPUs = os.cpus().length;

  console.log(`Master ${process.pid} is running`);



  for (let i = 0; i < numCPUs; i++) {

    cluster.fork();

  }



  cluster.on('exit', (worker, code, signal) => {

    console.log(`worker ${worker.process.pid} died`);

  });

} else {

  (async () => {

    const browser = await puppeteer.launch();

    const page = await browser.newPage();

    const url = `http://example.com/page${Math.floor(Math.random() * 1000) + 1}`;

    await page.goto(url);

    // 进行数据采集

    await browser.close();

  })();

}

使用 puppeteer-cluster 库实现多线程执行

const puppeteer = require('puppeteer-cluster');

const os = require('os');



puppeteer.cluster.launch({

  concurrency: puppeteer-cluster.CONCURRENCY_LIMITED,

  maxConcurrentRequests: 10

}).then(cluster => {

  cluster.on('taskerror', (err, task) => {

    console.error(`Error running task ${task.id}:`, err);

  });



  cluster.on('task success', task => {

    console.log(`Task ${task.id} completed`);

  });



  cluster.on('task failure', (err, task) => {

    console.error(`Error running task ${task.id}:`, err);

  });



  cluster.on('worker ready', worker => {

    console.log(`Worker ${worker.process.pid} is ready`);

  });



  cluster.on('worker exit', worker => {

    console.log(`Worker ${worker.process.pid} exited`);

  });



  (async () => {

    for (let i = 1; i <= 1000; i++) {

      const url = `http://example.com/page${i}`;

      await cluster.queue(async () => {

        const page = await cluster.page();

        await page.goto(url);

        // 进行数据采集

      });

    }

  })();

});

通过以上两种方法，我们可以快速、高效地对大量网页进行数据采集，提高工作效率。