0、个人曾经的爬虫
Requests库、Beautiful Soup。
本科毕业设计:微博爬虫。
1、Scrapy
Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
Scrap,是碎片的意思,这个Python的爬虫框架叫Scrapy。外号小刮刮。
2、前言
语言无关论者
数据格式:csv、json、xml、txt
数据库:mongodb、sqlalchemy、postges
前端:html、css、js、squery
Beautiful Soup、lxml、XPath、selectors。
https://stackoverflow.com/questions/tagged/scrapy
https://scrapy.org/community/
最小可行产品(Minimum Viable Product, MVP)
初创公司、精益创业
3、认识Scrapy
数据清晰、格式化、装饰以及存储到数据库。
XPath选择HTML元素:$x工具函数。(在浏览器console中使用)
使用//语法去的某一指定类型的元素。使用/语法即前一个父类下的最近子集。
符号@(选择属性)、text()函数、符号* 等等。
一个特殊的网站:example.com
4、安装Scrapy
pip install scrapy
import scrapy
5、UR2IM流程
U:URL
R:Request
R:Response
I:Item
M:More URL