今天晚上终于彻底找出了方法。不过执行巨慢,生成词表估计就要一晚上,用weka分析估计也不快。
x31的笔记本作文本向量生成 cpu100%,无法使用了。
P42.8双核还行,50%多的cpu:)还能用来写blog。
打算明天用4台4路至强、4g内存的6650进行同时的weka分析了。做网管也就这点好处了。
晚上完成大论文。采用C+V大法。
======================
文本分类具体方法:
*选取20K个文本,每个文本大于10K。
*用程序取出所有的词,列词表。进行一定的预处理,如去掉标点。
*用程序生成文本向量arff文件。每一行是一个文本,包括:分类名、每一个单词出现的次数。这个文件估计有小1G。
*用weka打开。强烈建议用服务器。pc多半死机。
*最好先做spare,把稀疏矩阵转化一下。
*然后就可以做分类了。用nativeBayes或者神经网络法,选取不同训练集,算吧。。。
恩,这个流程,我用了两天才明白,才调通文本处理。重温了一把perl。发现和php还是很相似的:)