Result:
---
东莞网上报警
作者: onebird
发布时间: 2007-10-03 22:59
分类: 生活
---
东莞网上报警
作者: onebird
发布时间: 2007-10-03 22:59
分类: 生活
不要不回他人邮件,尤其是询问邮件-------------------这是非常消极的。
不要经常说 “哦,忘了”
------------------似乎忘了,并不是不会做,或者没能力做,实际比“没做好” 更糟糕。
自己和另一人差不多水平的时候,往往以为自己是水平高的那个,这是普遍现象
------------------这是牛根生说的,借用一下
一定不要把一点工作说的特别大。
------------------ 其实最好听的是:其实没做什么,就是按目标顺利完成了。
最后,一点是个人喜好
我很讨厌那种msn nick上酸溜溜 或者 故弄玄虚发牢骚的做法。我觉得有屁还是一下放出来比较好,即便是臭屁也没关系。不要在众人面前小段小段的放真恶心。
最后2个是:
一定要勤奋,努力,严谨。考试可以耍小聪明考好的 工作肯定不是。
一定要保持学习,努力学习。山外青山楼外楼,不要因为对工作熟悉了就以为自己水平见长了。
错误 如下
on device: mod_rewrite: could not create rewrite_log_lock[Thu Sep 06 23:37:09 2007] [crit] (2No space left on device: mod_rewrite: could not create rewrite_log_lock[Thu Sep 06 23:42:13 2007] [crit] (2No space left on device: mod_rewrite: could not create rewrite_log_loc
apache无法启动。
解决 ipcs -s| grep apache | cut -f2 -d" "| xargs ipcrm sem
哪个程序用了这么多sem 还没检查
周末因为产品升级出了问题,两天都出于紧张和在家加班的状态。
周一和周二连续精神不充沛。
突然想起校友录的高中班级宣言:
"恭喜发财!!!发财不忘健康,大家都快P3啦,不再年轻咯。呵呵 "
一下觉得自己老了好多,青春不在啊。
中学点滴印象仍然历历在目。
酷讯校园招聘产品,还在完善中,如有任何想法请即刻回帖我和我联系!
如您觉得好用,请帮忙宣传(blog,bbs,webstie)。
http://offer.kooxoo.com
python写了一个分词程序
作者: onebird
发布时间: 2007-08-26 00:11
分类: 技术
主要为了写一些python小爬虫和数据分类过滤用。针对GBK编码文本的(实际代码是可以参数化支持utf8和GBK的)
原计划3个小时写完,实际花了6个小时。主要是对python一些语言细节还是不够熟悉。不知道ord这个函数以及对传引用的一些问题折腾了好一阵时间。
目前只是实现了 段分,句分,最长匹配分词。计划明天花2小时加上全角英文单词,国名,姓名的处理。
实验如下
1 class A: 2 def __init__(self): 3 self.n =1 4 def f(a): 5 a.n = 2 6 def g(a): 7 a.n = 3 8 return a 9 a = A() 10 print a.n 11 f(a) 12 print a.n 13 b = A() 14 print b.n 15 b = g(a) 16 print b.n 17 print a.n 18 b.n =100 19 print a.n
结果
onebird@bee:~$ python test.py 12133100
今天想起来,除了酷讯外 酷我,酷流,优酷 三家公司都是我差点去的。
不过好像这四家发展都不错。其实北京真的很小,我在北京接触的人基本上反复遇到。
还遇到不少同村同乡。
---
与google竞争
作者: onebird
发布时间: 2007-05-19 21:43
分类: 工作
Google.cn 发布了生活搜索。定位与酷讯完全一致,从很大程度可说是模仿酷讯。其实这是个好事情,为什么就不多解释了。
我想说的就是今后要和同事更加努力,以最接近事情本质的方式去改进产品。虽然目前google的产品质量比我们还差很远 ,但是我们要有足够的危机感平静努力有创意的去工作。
以后我会定期发布一些http://google.cn/shenghuo的质量对比报告,有兴趣的朋友请给我提意见。
其它不说了:
有敢于和google团队竞争,保持领先有信心的朋友请加入酷讯!联系人onebird at gmail.com
七天的歌会
水木年华和天空乐队
所谓编码转换是将字符文本用一种编码的值表示转换成另一种编码的值表示。编码的转换过程需要用到两种编码的映射表。不过这一个映射过程的转换已经有开源的库libiconv实现了。在编码转换过程其实很简单。难的是:1文本源编码的识别。(这个我们以后再讨论讨论,假设我们已知源编码)2编码不纯粹。文本中某个字符损坏了,如丢了一个字节。或者夹杂了若干别的编码的字符。
具体来说
iconv转换要求从一个正确的开始位置开始转换。iconv(cd, &inbuf, &inbytesleft, &outbuf, &outbytesleft);如果开始位置不是一个完整字符,如mybuf="我的好朋友" inbuf=mybuf+1转换则会出错。如果开始位置正确但是中途遇到某个字节的杂质,则转换也会停止返回错误退出。剩下的文本就不处理了。但是我们留心ie或者firefox就会发现,虽然某些网页也有文件中含有别的编码字符或者残缺的字节。浏览器会对这个别字节用问号(有的用别的符号)代替。跳过这些字符又显示正确了。但是如Cterm之类的许多其他软件软件,再遇到半个汉字的情况整个文本都会显示乱码或者截断不能显示。这差别是怎么就是由于文本中的杂质导致转换失败或者雪崩错乱(如GBK编码识别连续错位一个字节)。其实是利用字符编码的一些规律。举2个典型例子如下utf8转换倒别的编码的情况。由于utf8 二进制 第一个字节不会以10开头 0xc0; 其它字节都以10开头。a 所以遇到转换失败时候,从转换失败处跳过一个字节,然后连续跳过所有不符合此规则的字节。b 遇到符合要求的字节开始重新用iconf转换。重复以上两个过程即可。转换成代码则是:
while(inbytesleft>0){ while((inbytesleft>0) &&(inbuf!='' &&(( (unsigned char )inbuf&0xc0)==0x80)) //0xc0 == 11000000b ; 0x80 == 10000000b { //skip rot inbuf++; inbytesleft--; } if(inbytesleft<=0 || (inbuf=='') break; iconv_ret = iconv(cd, &inbuf, &inbytesleft, &outbuf, &outbytesleft); if(iconv_ret<0){ inbuf++; inbytesleft--; }iWriteBytes = outbuf - pszLocale; iconv_close(cd);} GBK转倒别的编码比较麻烦。因为GBK每个字符之间没有明显的边界(UTF8字符第一个字节都不以10开头).所以GBK遇到杂质字节错误终止可能会连续错一小片直到某个条件发生。这个条件也是利用GBK编码的特征。和过程ab不同的是跳过杂质尽快找到一个正确字符开头的条件如下 1if( ((unsigned char )inbuf<0x40) )//不在GBk编码空间外 必定为ascii 雪崩停止2if( ((unsigned char )(inbuf+1) != '' && (inbytesleft>2)){if( ( ((unsigned char )inbuf)<0x80 ) && ( (*(unsigned char *)inbuf)>=0x40 ){ // 落在0x80-ox40之前 必定为中文第二个字节 或者 英文,直接取下一个> 字节即可