首页 > 科技 > 互联网 > 正文

雅虎开源web爬虫工具Anthelion,能解析网页结构化数据

文章来源:IT经理网
字体:
发布时间:2016-07-29 14:51:46

yahoo-alibaba-group-china

雅虎近日宣布开源web爬虫工具Anthelion,该工具可以解析HTML页面中的结构化数据。

Web爬虫是雅虎的核心技术,因此雅虎在这个领域发布开源工具显得不同寻常。此前雅虎刚刚宣布将剥离一些核心业务(但不包括阿里巴巴的股份),此外雅虎首席执行官Marissa Mayer刚刚生下双胞胎。

去年在上海的一个信息知识管理会议上,雅虎曾在一篇论文中详细介绍了Anthelion。该论文的作者指出:“雅虎的爬虫技术开创了业界的先河,那就是专注于那些通过Microdata、Microformats或RDFa等markup语言嵌入HTML页面的语义数据。

Microdata和RDFa是标记不同结构化数据的句法格式,他们都兼容Schema.org的结构化数据词汇库,而Schema.org是谷歌、雅虎和Bing搜索引擎共同支持的项目。

雅虎研究人员还在论文中展示了Anthelion爬虫技术的部署如何提高了搜索查询的相关结果数量。

Anthelion的源代码目前已经托管到GitHub,作为Apache Nutch开源web爬虫项目的一个组件。

雅虎研究人员在Tumblr发博文指出,Anthelion能定向检索特定网页,例如那些使用markup标记电影名称和演员等至少两种属性的网页。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表