终于搞懂怎么用weka做文本分类测试了

今天晚上终于彻底找出了方法。不过执行巨慢,生成词表估计就要一晚上,用weka分析估计也不快。
x31的笔记本作文本向量生成 cpu100%,无法使用了。
P42.8双核还行,50%多的cpu:)还能用来写blog。

打算明天用4台4路至强、4g内存的6650进行同时的weka分析了。做网管也就这点好处了。

晚上完成大论文。采用C+V大法。

======================
文本分类具体方法:
*选取20K个文本,每个文本大于10K。
*用程序取出所有的词,列词表。进行一定的预处理,如去掉标点。
*用程序生成文本向量arff文件。每一行是一个文本,包括:分类名、每一个单词出现的次数。这个文件估计有小1G。
*用weka打开。强烈建议用服务器。pc多半死机。
*最好先做spare,把稀疏矩阵转化一下。
*然后就可以做分类了。用nativeBayes或者神经网络法,选取不同训练集,算吧。。。

恩,这个流程,我用了两天才明白,才调通文本处理。重温了一把perl。发现和php还是很相似的:)

使用新工具碰到问题怎么解决?

当我们使用一个新的工具的时候,可能会碰到很多问题
一些问题是大家都碰到过的, 这里列出可以解决这些问题的文章
希望这支帖子对你有所帮助,希望大家有时间和兴趣读这些文章

在碰到问题的时候,这个老掉牙的方法对新手总是有效的
RTFM & STFW
RTFM: Read The Fucking Manul 阅读手册
STFW: Search The Fucking Web 搜索网络
这是一个良好的习惯
请读
[url]http://bbs.chinaunix.net/forum/viewtopic.php?t=113564[/url]

[quote]Q0:我很急,高手帮帮我,有人知道怎么解决么?
A:请亲自到厕所解决,如果解决周期较长,建议打印一纸 [url]http://bbs.chinaunix.net/forum/viewtopic.php?t=113564[/url] 带上阅读[/quote]

[quote]Q1:不行啊
A:有两种解决方法:
1.去电线杆上找个老军医的手机,他是专治+包治这个的
2.仔细比对回复的内容和你操作的差别,比对回复者的测试环境与你的差别,如果还有问题,列出你的出错信息和现象,供大家帮助你解决问题[/quote]

近日作专业课p2p作业的几个发现

是与P2P代理网络相关的。稍微研究之下发现还挺有意思的。而且发现我只学php确实不太好,少了编程中的很多乐趣。我好像发现了一点编程的乐趣了。

http://midcom-p2p.sourceforge.net/ sourceforge上面的p2p代理资料
http://epan.cnblogs.com/articles/98370.html 另外一篇关于p2p及NAT的资料
http://blog.csdn.net/hxhbluestar 一个颇有研究的哥们的翻译
http://blogs.impx.net/dragonimp/archive/2005/04/19/775.aspx 另一个颇有研究的哥们的一个初级软件,貌似没有后续开发了

为了反编译上面这个哥们的.net,找到了反编译工具Reflector,同时发现一篇文章研究反编译:
http://www.microsoft.com/taiwan/msdn/columns/DoNet/ToDeoNottoDe.htm
每个.net开发者应该用的10个工具
http://www.brynosaurus.com/pub/net/p2pnat/

reflector的下载:
http://www.aisto.com/roeder/dotnet/
在这里景仰一把Lutz Roeder这哥们

reflector不能直接把.net源代码拷贝出来,需要另外一个哥们denisbauer的工具
http://www.denisbauer.com/NETTools/

可惜了,我不会.net。把文档搞出来先。

我观念中的理想web设计

第一条:文字大小由css定义,但是是可以改变大小的,即通过 查看-文字大小。css的使用使很多人都失去了这种权利,很糟糕。推荐用yahoo的ui的css部分。
第二条:不要有什么beta版。俗,太俗了。第一个是高雅,第十个是流行,第100个就是恶俗。
第三条:不要有那么多帮助信息在页面上。用户不是傻瓜,你也不用显示你对用户有多关心,怕人家不会用。做个点击弹出的就行了。
第四条:不要盲目无度的用ajax。这只会让人发晕,晕菜,无法后退。ajax是一道辅菜,而不是主菜。
第五条:模仿创意,拷贝模式?ok,拷贝不是问题,问题是拷贝了还拷贝的很烂,拷贝了外形而失去了精髓。
第六条:web2.0非得是那么简单吗?色块?web其实可以很有想象力的,就像小学时候的黑板报,每个人画出心中的世界。web2.0一来,瞬间所有的网站长得都一样了,至于吗?推荐看看 苹果树下。
第七条:想不出来了。想出来再补上。

复习数学有感

3天看了不到一章。每次看不到10分钟,就无法忍受,转而上网或者看xvid或者听歌。
虽然很想专心的学习一会儿,但是无法专心。why?
其实不只是学习,在开发的时候也是这样子。正经编程的时间每次不到10分钟就走神。
多线程和专注是个矛盾。
做个实验:这几天不用电脑,看我还能怎么样?

开始使用phpGTK

phpgtk 开发必备 — phpGladeTool

phpGladeTool这个小工具,能够很快的帮你完成phpgtk的界面设计.

使用方法:

首先用Glade2设计界面,这里有windows版本的Glade工具:Glade on Windows. 设计并保存,会生成xml的界面描述文件.
接下来使用phpGladeTool,(这里有详细的使用说明)生成php代码

界面部分的工作已经完成,你可以这样查看完成的界面设计(注:这里的php是支持phpgtk的命令行工具)
[shell]php 生成的文件.php[/shell]
剩下的事情就是补充你的业务代码了:) 如果你愿意,甚至可以用gnope这个工具来发布你的phpgtk程序,和大家共享你的劳动成果