爬虫

以下内容基于Crawlee来讲述

爬虫的基本原则

从分析开始，先有足够的分析信息，再去进行实操

从最简单的思路开始：抓包=>API=>内容解析
去重：跳过相同的URL，以避免得到重复数据
反爬考虑：网站是否有反爬策略，如何解决
选型
- Static：vanilla strategy
- API
- Dynamic：headless browsers

基本流程

Create Crawler
Add RequestHandler
Maintain RequestQueue

常用属性

maxRequestsPerCrawl：每次爬取的最大请求数