（垂直）搜索爬虫抓取技术的发展

作者: onebird

时间: 2009-04-25 04:02

最早是
wget + find
后来是 rgex
再后来找文本前后缀，找xpath，vpis
再后来分化了
有人网自动提取发展（规则+统计），有人做更好的标注工具（做的像样的我只知道某著名的论坛搜索）生成regex或者xpath模板
但是都遇到js和富客户端的逻辑的问题。
从人肉分析到用jscenter 做js render。不过遇到js事件都没辙。
最近我在想，应该把标注工具更进一步发展为actionRecorder，做到能记录人访问到信息的步骤和特征（url输入变化，js事件变化，表单提交，所选中的xpath）来提取。这是比较近能看到的大幅度提高生产力的方法。
就说到这。

标签: none

（垂直）搜索爬虫抓取技术的发展

添加新评论

最新文章

最近回复

分类

归档

其它