Skip to content

爬虫

以下内容基于Crawlee来讲述

爬虫的基本原则

从分析开始,先有足够的分析信息,再去进行实操

  • 从最简单的思路开始:抓包=>API=>内容解析
  • 去重:跳过相同的URL,以避免得到重复数据
  • 反爬考虑:网站是否有反爬策略,如何解决
  • 选型
    • Static:vanilla strategy
    • API
    • Dynamic:headless browsers

基本流程

  • Create Crawler
  • Add RequestHandler
  • Maintain RequestQueue

常用属性

  • maxRequestsPerCrawl:每次爬取的最大请求数