(垂直)搜索爬虫抓取技术的发展
最早是
wget + find
后来是 rgex
再后来找文本前后缀,找xpath,vpis
再后来分化了
有人网自动提取发展(规则+统计), 有人做更好的标注工具(做的像样的我只知道某著名的论坛搜索)生成regex或者xpath模板
但是都遇到js和富客户端的逻辑的问题。
从人肉分析 到用jscenter 做js render。不过遇到js事件都没辙。
最近我在想,应该把标注工具更进一步发展为actionRecorder
,做到能记录人访问到信息的步骤和特征(url输入变化,js事件变化,表单提交,所选中的xpath)来提取。这是比较近能看到的大幅度提高生产力的方法。
就说到这。