python即时网络爬虫：api说明

api说明——下载gsextractor内容提取器

1，接口名称

下载内容提取器

2，接口说明

如果您想编写一个网络爬虫程序，您会发现大部分时间耗费在调测网页内容提取规则上，不讲正则表达式的语法如何怪异，即便使用xpath，您也得逐个编写和调试。

如果要从一个网页上提取很多字段，逐个调试xpath将是十分耗时的。通过这个接口，你可以直接获得一个调测好的提取器脚本程序，是标准的xslt程序，您只需针对目标网页的dom运行它，就能获得xml格式的结果，所有字段一次性获得。这个xslt提取器可以是您用ms谋数台生成的，也可以是其他人共享给您的，只要您有读权限，皆可下载使用。用于数据分析和数据挖掘的网络爬虫程序中，内容提取器是影响通用性的关键障碍，如果这个提取器是从api获得的，您的网络爬虫程序就能写成通用的框架。

3，接口规范3.1，接口地址（url）

http://www.gooseeker.com/api/getextractor

3.2，请求类型（contenttype）

不限3.3，请求方法

http get3.4，请求参数

key 必选：yes；类型：string；说明：申请api时分配的appkey

theme 必选：yes；类型：string；说明：提取器名，就是用ms谋数台定义的规则名

middle 必选：no；类型：string；说明：规则编号，如果相同规则名下定义了多个规则，需填写

bname 必选：no；类型：string；说明：整理箱名，如果规则含有多个整理箱，需填写

3.5，返回类型（contenttype）

text/xml; charset=utf-83.6，返回参数

http消息头中的参数，如下：

more-extractor 类型：string；说明：相同规则名下有多少个提取器。通常只在可选参数没有填写的时候需要关注这个参数，用以提示客户端有多个规则和整理箱，客户端自己决定是否要在发送请求时携带明确的参数

3.7，返回错误信息

消息层错误以http 400返回，比如，url中的参数不符合本规范

应用层错误以http 200 ok返回，具体错误码用xml文件放在消息体中，xml结构如下：

具体的错误码

具体的code值如下：keyerror：权限验证失败

keyerror：权限验证失败
paramerror：url中传来的参数有误，比如，参数名称或值不正确

4，用法范例（python语言）

示例代码：

# -*- coding: utf-8 -*-
from urllib import request
url = ‘http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名’
resp = request.urlopen(url)
content = resp.read()
if(content):
print(content)

接下来我会对此api进行测试

发表评论 取消回复

发表评论取消回复