终于搞懂怎么用weka做文本分类测试了

今天晚上终于彻底找出了方法。不过执行巨慢，生成词表估计就要一晚上，用weka分析估计也不快。
x31的笔记本作文本向量生成 cpu100%，无法使用了。
P42.8双核还行，50%多的cpu：）还能用来写blog。

打算明天用4台4路至强、4g内存的6650进行同时的weka分析了。做网管也就这点好处了。

晚上完成大论文。采用C+V大法。

======================
文本分类具体方法：
＊选取２０K个文本，每个文本大于１０K。
＊用程序取出所有的词，列词表。进行一定的预处理，如去掉标点。
*用程序生成文本向量arff文件。每一行是一个文本，包括：分类名、每一个单词出现的次数。这个文件估计有小１G。
*用weka打开。强烈建议用服务器。ｐｃ多半死机。
*最好先做spare，把稀疏矩阵转化一下。
*然后就可以做分类了。用nativeBayes或者神经网络法，选取不同训练集，算吧。。。

恩，这个流程，我用了两天才明白，才调通文本处理。重温了一把perl。发现和php还是很相似的：）

《终于搞懂怎么用weka做文本分类测试了》有6个想法

ltt说道：

2009 年 07 月 01 日下午 2:30

我也在一直研究如何使用WEKA进行文本分类，但是有一些问题一直没弄没明白，就是如何将TXT文档转换为ARFF文件？~可否给予指点~谢谢~
ltt说道：

2009 年 07 月 01 日下午 2:32

我也在一直研究如何使用WEKA进行文本分类，但是有一些问题一直没弄没明白，就是如何将TXT文档转换为ARFF文件？不知道可否给予指点~谢谢了!
shotgun_p说道：

2009 年 09 月 01 日上午 10:19

weka的arff文件是不能从txt自动转化生成的，自己写程序吧，俺就是这么干的，从分词后的文本生成arff文件
FM说道：

2009 年 10 月 04 日下午 2:14

可以在EXCEL里面导入TXT，然后另存为.CSV格式的文件（这个格式WEKA也是可以识别的），然后打开WEKA，–》TOOL–》arffviewer中打开刚才的.CSV文件，另存为.arff就OK了！不知道你说的是不是这个，我知道的就这么多了。
zm说道：

2009 年 12 月 01 日下午 9:31

我想请问下测试集的类别那个缺失值就是“？”要怎么写，是要手工填进去吗，还是怎么填？我用excle把那一列改成‘？’，可是来测试的时候说训练集和测试集不匹配，是怎么回事啊？
landry说道：

2011 年 05 月 09 日下午 12:55

小弟求txt转换成arff文件的code? 希望指点

《终于搞懂怎么用weka做文本分类测试了》有6个想法

发表回复