2006 年 6 月

终于搞懂怎么用weka做文本分类测试了

今天晚上终于彻底找出了方法。不过执行巨慢，生成词表估计就要一晚上，用weka分析估计也不快。
x31的笔记本作文本向量生成 cpu100%，无法使用了。
P42.8双核还行，50%多的cpu：）还能用来写blog。

打算明天用4台4路至强、4g内存的6650进行同时的weka分析了。做网管也就这点好处了。

晚上完成大论文。采用C+V大法。

======================
文本分类具体方法：
＊选取２０K个文本，每个文本大于１０K。
＊用程序取出所有的词，列词表。进行一定的预处理，如去掉标点。
*用程序生成文本向量arff文件。每一行是一个文本，包括：分类名、每一个单词出现的次数。这个文件估计有小１G。
*用weka打开。强烈建议用服务器。ｐｃ多半死机。
*最好先做spare，把稀疏矩阵转化一下。
*然后就可以做分类了。用nativeBayes或者神经网络法，选取不同训练集，算吧。。。

恩，这个流程，我用了两天才明白，才调通文本处理。重温了一把perl。发现和php还是很相似的：）

一个好东西

http://www.tartarus.org/~martin/PorterStemmer/

一个去掉英语同词根的算法。在数据挖掘中有点用。

使用新工具碰到问题怎么解决？

当我们使用一个新的工具的时候，可能会碰到很多问题
一些问题是大家都碰到过的，这里列出可以解决这些问题的文章
希望这支帖子对你有所帮助，希望大家有时间和兴趣读这些文章

在碰到问题的时候，这个老掉牙的方法对新手总是有效的
RTFM & STFW
RTFM: Read The Fucking Manul 阅读手册
STFW: Search The Fucking Web 搜索网络
这是一个良好的习惯
请读
[url]http://bbs.chinaunix.net/forum/viewtopic.php?t=113564[/url]

[quote]Q0：我很急，高手帮帮我，有人知道怎么解决么？
A:请亲自到厕所解决，如果解决周期较长，建议打印一纸 [url]http://bbs.chinaunix.net/forum/viewtopic.php?t=113564[/url] 带上阅读[/quote]

[quote]Q1：不行啊
A：有两种解决方法：
1.去电线杆上找个老军医的手机，他是专治+包治这个的
2.仔细比对回复的内容和你操作的差别，比对回复者的测试环境与你的差别，如果还有问题，列出你的出错信息和现象，供大家帮助你解决问题[/quote]

两天内搞定weka

我的资源是：
可以上网搜索借鉴
有熬夜环境
有几台4Xeon4G内存的服务器可以用来运算

还需要一个分析文档。。。
恩，看看我到底行不行了。

近日作专业课p2p作业的几个发现

是与P2P代理网络相关的。稍微研究之下发现还挺有意思的。而且发现我只学php确实不太好，少了编程中的很多乐趣。我好像发现了一点编程的乐趣了。

http://midcom-p2p.sourceforge.net/ sourceforge上面的p2p代理资料
http://epan.cnblogs.com/articles/98370.html 另外一篇关于p2p及NAT的资料
http://blog.csdn.net/hxhbluestar 一个颇有研究的哥们的翻译
http://blogs.impx.net/dragonimp/archive/2005/04/19/775.aspx 另一个颇有研究的哥们的一个初级软件，貌似没有后续开发了

为了反编译上面这个哥们的.net，找到了反编译工具Reflector,同时发现一篇文章研究反编译：
http://www.microsoft.com/taiwan/msdn/columns/DoNet/ToDeoNottoDe.htm
每个.net开发者应该用的10个工具
http://www.brynosaurus.com/pub/net/p2pnat/

reflector的下载：
http://www.aisto.com/roeder/dotnet/
在这里景仰一把Lutz Roeder这哥们

reflector不能直接把.net源代码拷贝出来，需要另外一个哥们denisbauer的工具
http://www.denisbauer.com/NETTools/

可惜了，我不会.net。把文档搞出来先。

我观念中的理想web设计

第一条：文字大小由css定义，但是是可以改变大小的，即通过查看-文字大小。css的使用使很多人都失去了这种权利，很糟糕。推荐用yahoo的ui的css部分。
第二条：不要有什么beta版。俗，太俗了。第一个是高雅，第十个是流行，第100个就是恶俗。
第三条：不要有那么多帮助信息在页面上。用户不是傻瓜，你也不用显示你对用户有多关心，怕人家不会用。做个点击弹出的就行了。
第四条：不要盲目无度的用ajax。这只会让人发晕，晕菜，无法后退。ajax是一道辅菜，而不是主菜。
第五条：模仿创意，拷贝模式？ok,拷贝不是问题，问题是拷贝了还拷贝的很烂，拷贝了外形而失去了精髓。
第六条：web2.0非得是那么简单吗？色块？web其实可以很有想象力的，就像小学时候的黑板报，每个人画出心中的世界。web2.0一来，瞬间所有的网站长得都一样了，至于吗？推荐看看苹果树下。
第七条：想不出来了。想出来再补上。

复习数学有感

3天看了不到一章。每次看不到10分钟，就无法忍受，转而上网或者看xvid或者听歌。
虽然很想专心的学习一会儿，但是无法专心。why?
其实不只是学习，在开发的时候也是这样子。正经编程的时间每次不到10分钟就走神。
多线程和专注是个矛盾。
做个实验：这几天不用电脑，看我还能怎么样？

今天看日澳之战明白了一个道理

从小区里的狂吼
网上的帖子
自身的感受
明白了：
敌人的失败，就是自己的胜利！

中国人民向澳洲人民发去贺电！

最好用的删除恢复软件却没有crack

easyrecovery不管用，不认分区。
back2life 2.4找的出来，速度剧快。可是不注册只能恢复100k以下。。。
recover4all查找n久。寻找注册码中。

开始使用phpGTK

phpgtk 开发必备 — phpGladeTool

phpGladeTool这个小工具,能够很快的帮你完成phpgtk的界面设计.

使用方法:

首先用Glade2设计界面,这里有windows版本的Glade工具:Glade on Windows. 设计并保存,会生成xml的界面描述文件.
接下来使用phpGladeTool,(这里有详细的使用说明)生成php代码

界面部分的工作已经完成,你可以这样查看完成的界面设计(注:这里的php是支持phpgtk的命令行工具)
[shell]php 生成的文件.php[/shell]
剩下的事情就是补充你的业务代码了:) 如果你愿意,甚至可以用gnope这个工具来发布你的phpgtk程序,和大家共享你的劳动成果