2006年06月26日 上午 03:55 | 作者:firefly
今天晚上终于彻底找出了方法。不过执行巨慢,生成词表估计就要一晚上,用weka分析估计也不快。
x31的笔记本作文本向量生成 cpu100%,无法使用了。
P42.8双核还行,50%多的cpu:)还能用来写blog。
打算明天用4台4路至强、4g内存的6650进行同时的weka分析了。做网管也就这点好处了。
晚上完成大论文。采用C+V大法。
======================
文本分类具体方法:
*选取20K个文本,每个文本大于10K。
*用程序取出所有的词,列词表。进行一定的预处理,如去掉标点。
*用程序生成文本向量arff文件。每一行是一个文本,包括:分类名、每一个单词出现的次数。这个文件估计有小1G。
*用weka打开。强烈建议用服务器。pc多半死机。
*最好先做spare,把稀疏矩阵转化一下。
*然后就可以做分类了。用nativeBayes或者神经网络法,选取不同训练集,算吧。。。
恩,这个流程,我用了两天才明白,才调通文本处理。重温了一把perl。发现和php还是很相似的:)
分类:未分类 | 评论(5)
2006年06月24日 上午 02:34 | 作者:firefly
http://www.tartarus.org/~martin/PorterStemmer/
一个去掉英语同词根的算法。在数据挖掘中有点用。
分类:未分类 | 没有评论
2006年06月24日 上午 01:19 | 作者:firefly
当我们使用一个新的工具的时候,可能会碰到很多问题
一些问题是大家都碰到过的, 这里列出可以解决这些问题的文章
希望这支帖子对你有所帮助,希望大家有时间和兴趣读这些文章
在碰到问题的时候,这个老掉牙的方法对新手总是有效的
RTFM & STFW
RTFM: Read The Fucking Manul 阅读手册
STFW: Search The Fucking Web 搜索网络
这是一个良好的习惯
请读
[url]http://bbs.chinaunix.net/forum/viewtopic.php?t=113564[/url]
[quote]Q0:我很急,高手帮帮我,有人知道怎么解决么?
A:请亲自到厕所解决,如果解决周期较长,建议打印一纸 [url]http://bbs.chinaunix.net/forum/viewtopic.php?t=113564[/url] 带上阅读[/quote]
[quote]Q1:不行啊
A:有两种解决方法:
1.去电线杆上找个老军医的手机,他是专治+包治这个的
2.仔细比对回复的内容和你操作的差别,比对回复者的测试环境与你的差别,如果还有问题,列出你的出错信息和现象,供大家帮助你解决问题[/quote]
分类:未分类 | 没有评论
2006年06月24日 上午 12:13 | 作者:firefly
我的资源是:
可以上网搜索借鉴
有熬夜环境
有几台4Xeon4G内存的服务器可以用来运算
还需要一个分析文档。。。
恩,看看我到底行不行了。
分类:未分类 | 没有评论
2006年06月22日 上午 12:07 | 作者:firefly
是与P2P代理网络相关的。稍微研究之下发现还挺有意思的。而且发现我只学php确实不太好,少了编程中的很多乐趣。我好像发现了一点编程的乐趣了。
http://midcom-p2p.sourceforge.net/ sourceforge上面的p2p代理资料
http://epan.cnblogs.com/articles/98370.html 另外一篇关于p2p及NAT的资料
http://blog.csdn.net/hxhbluestar 一个颇有研究的哥们的翻译
http://blogs.impx.net/dragonimp/archive/2005/04/19/775.aspx 另一个颇有研究的哥们的一个初级软件,貌似没有后续开发了
为了反编译上面这个哥们的.net,找到了反编译工具Reflector,同时发现一篇文章研究反编译:
http://www.microsoft.com/taiwan/msdn/columns/DoNet/ToDeoNottoDe.htm
每个.net开发者应该用的10个工具
http://www.brynosaurus.com/pub/net/p2pnat/
reflector的下载:
http://www.aisto.com/roeder/dotnet/
在这里景仰一把Lutz Roeder这哥们
reflector不能直接把.net源代码拷贝出来,需要另外一个哥们denisbauer的工具
http://www.denisbauer.com/NETTools/
可惜了,我不会.net。把文档搞出来先。
分类:挨踢 | 没有评论
2006年06月20日 下午 11:26 | 作者:firefly
第一条:文字大小由css定义,但是是可以改变大小的,即通过 查看-文字大小。css的使用使很多人都失去了这种权利,很糟糕。推荐用yahoo的ui的css部分。
第二条:不要有什么beta版。俗,太俗了。第一个是高雅,第十个是流行,第100个就是恶俗。
第三条:不要有那么多帮助信息在页面上。用户不是傻瓜,你也不用显示你对用户有多关心,怕人家不会用。做个点击弹出的就行了。
第四条:不要盲目无度的用ajax。这只会让人发晕,晕菜,无法后退。ajax是一道辅菜,而不是主菜。
第五条:模仿创意,拷贝模式?ok,拷贝不是问题,问题是拷贝了还拷贝的很烂,拷贝了外形而失去了精髓。
第六条:web2.0非得是那么简单吗?色块?web其实可以很有想象力的,就像小学时候的黑板报,每个人画出心中的世界。web2.0一来,瞬间所有的网站长得都一样了,至于吗?推荐看看 苹果树下。
第七条:想不出来了。想出来再补上。
分类:未分类 | 没有评论
2006年06月14日 下午 11:39 | 作者:firefly
3天看了不到一章。每次看不到10分钟,就无法忍受,转而上网或者看xvid或者听歌。
虽然很想专心的学习一会儿,但是无法专心。why?
其实不只是学习,在开发的时候也是这样子。正经编程的时间每次不到10分钟就走神。
多线程和专注是个矛盾。
做个实验:这几天不用电脑,看我还能怎么样?
分类:未分类 | 没有评论
2006年06月12日 下午 11:16 | 作者:firefly
从小区里的狂吼
网上的帖子
自身的感受
明白了:
敌人的失败,就是自己的胜利!
中国人民向澳洲人民发去贺电!
分类:未分类 | 没有评论
2006年06月7日 下午 05:45 | 作者:firefly
easyrecovery不管用,不认分区。
back2life 2.4找的出来,速度剧快。可是不注册只能恢复100k以下。。。
recover4all查找n久。寻找注册码中。
分类:未分类 | 没有评论
2006年06月6日 下午 01:45 | 作者:firefly
http://www.ooso.net/index.php/archives/145
phpGladeTool这个小工具,能够很快的帮你完成phpgtk的界面设计.
使用方法:
首先用Glade2设计界面,这里有windows版本的Glade工具:Glade on Windows. 设计并保存,会生成xml的界面描述文件.
接下来使用phpGladeTool,(这里有详细的使用说明)生成php代码
界面部分的工作已经完成,你可以这样查看完成的界面设计(注:这里的php是支持phpgtk的命令行工具)
[shell]php 生成的文件.php[/shell]
剩下的事情就是补充你的业务代码了:) 如果你愿意,甚至可以用gnope这个工具来发布你的phpgtk程序,和大家共享你的劳动成果
分类:未分类 | 没有评论