September 15, 2012

Python 爬虫框架

学Python的应该都写过爬虫吧,如果希望提高爬虫的效率就要用到并发,可以选择的用多线程、多进程,还有最近很火的Gevent,据说是基于一种新的概念,协程,不管什么程,总之好用就行了。写一个爬虫有一系列的东西需要处理,如果有一个好用的框架就会事半功倍。

在42qu.com源码里面,有个教主写的爬虫框架,很好用,是基于Gevent的,处理url采用和web开发类似的映射方法,教主还写了一个简单的html处理库,extract,虽没有Beautifulsoup那样强大,但是简单好用,基本能满足常见的要求。HTTP请求使用了requests,requests是个处理HTTP的库,用官方的话说“Req......