2009年4月

问:
你是自满的人吗
答:不是
问:
你大部分时间都足够谦虚吗
答: 不是
那你就还是一个自满的人

问:
你一事差不多就这样吗
答:嗯
问:
这就是最后的本质吗
答: 不是

最早是
wget  + find
后来是 rgex
再后来找文本前后缀,找xpath,vpis
再后来分化了
有人网自动提取发展(规则+统计), 有人做更好的标注工具(做的像样的我只知道某著名的论坛搜索)生成regex或者xpath模板
但是都遇到js和富客户端的逻辑的问题。
从人肉分析 到用jscenter 做js render。不过遇到js事件都没辙。
最近我在想,应该把标注工具更进一步发展为actionRecorder,做到能记录人访问到信息的步骤和特征(url输入变化,js事件变化,表单提交,所选中的xpath)来提取。这是比较近能看到的大幅度提高生产力的方法。
就说到这。