---
type: concept
title: Web Scraping
created: 2026-05-31
updated: 2026-05-31
tags: [web-scraping, python, crawler, framework]
---

## 定义

Web Scraping（网页抓取）指从网站中自动提取数据的技术方法，涵盖从简单 HTTP 请求到复杂浏览器自动化的全谱系。

## 核心要点

- **数据源**：网站 HTML、结构化数据（JSON API）、动态渲染内容
- **技术谱系**：正则匹配 → HTML 解析 → CSS/XPath 选择器 → 浏览器自动化
- **核心挑战**：反机器人检测（Cloudflare、Turnstile）、网站结构变化维护成本、IP 封禁
- **工具生态**：Scrapy（生态丰富）、Playwright/Puppeteer（浏览器自动化）、Scrapling（自适应解析）

## 不同来源的说法

| 来源 | 观点 |
|------|------|
| [[library/ScraplingdocsREADME_CN.md at main.md]] | 自适应解析是降低维护成本的关键，元素跟踪算法让网站改版后无需修改代码 |
| [[library/如何设计一套优秀的商城(电商)系统？—BizSpring商城]] | 电商系统中的爬虫需要支持代理轮换、并发控制、暂停/恢复 |

## 框架对比

| 框架 | 特点 | 适用场景 |
|------|------|---------|
| Scrapy | 成熟生态，完整 Spider 框架 | 大规模结构化网站 |
| Scrapling | 自适应解析，反机器人内置 | 需要抗网站变化的中小规模抓取 |
| Playwright | 浏览器级控制 | 动态渲染、JavaScript-heavy 站点 |
| BS4 | 轻量，API 友好 | 一次性简单抓取 |

## 相关实体

- [[entities/scrapling|Scrapling]]
- [[entities/bizspring-mall|BizSpring 商城]]（电商系统设计方）

## 参考来源

- [[library/ScraplingdocsREADME_CN.md at main.md]]