Skip to content
Intact
Search
K
Main Navigation
Home
FrontEnd
HTML
CSS
JavaScript
Ts
React
Next
Umi
Vue
Angular
Other
BackEnd
Node
Database
Java
C#
Docker
Kubernetes
Jenkins
other
AI
Python
MachineLearning
NLP
Huggingface
Middleware
git
npm
turborepo
webpack
test
Axios
wsl
Nginx
VIM
MAC
tmux
other
Article
面试总结
从小工到专家
真正的生活
如今的编程
对开发的思考
如何学习新知识
做新产品失败的总结
Tool
PP
Unity
Unity VisualNovel
Unity 2D Platform
Other
方法论
工具一览
沟通与合作
计网
计组
设计模式
数据结构与算法
音视频
工程实践
Appearance
Menu
Return to top
On this page
爬虫
以下内容基于
Crawlee
来讲述
爬虫的基本原则
从分析开始,先有足够的分析信息,再去进行实操
从最简单的思路开始:抓包=>API=>内容解析
去重:跳过相同的URL,以避免得到重复数据
反爬考虑:网站是否有反爬策略,如何解决
选型
Static:vanilla strategy
API
Dynamic:headless browsers
基本流程
Create Crawler
Add RequestHandler
Maintain RequestQueue
常用属性
maxRequestsPerCrawl:每次爬取的最大请求数