终于搞懂怎么用weka做文本分类测试了

今天晚上终于彻底找出了方法。不过执行巨慢,生成词表估计就要一晚上,用weka分析估计也不快。
x31的笔记本作文本向量生成 cpu100%,无法使用了。
P42.8双核还行,50%多的cpu:)还能用来写blog。

打算明天用4台4路至强、4g内存的6650进行同时的weka分析了。做网管也就这点好处了。

晚上完成大论文。采用C+V大法。

======================
文本分类具体方法:
*选取20K个文本,每个文本大于10K。
*用程序取出所有的词,列词表。进行一定的预处理,如去掉标点。
*用程序生成文本向量arff文件。每一行是一个文本,包括:分类名、每一个单词出现的次数。这个文件估计有小1G。
*用weka打开。强烈建议用服务器。pc多半死机。
*最好先做spare,把稀疏矩阵转化一下。
*然后就可以做分类了。用nativeBayes或者神经网络法,选取不同训练集,算吧。。。

恩,这个流程,我用了两天才明白,才调通文本处理。重温了一把perl。发现和php还是很相似的:)

《终于搞懂怎么用weka做文本分类测试了》有6个想法

  1. 我也在一直研究如何使用WEKA进行文本分类,但是有一些问题一直没弄没明白,就是如何将TXT文档转换为ARFF文件?~可否给予指点~谢谢~

  2. 我也在一直研究如何使用WEKA进行文本分类,但是有一些问题一直没弄没明白,就是如何将TXT文档转换为ARFF文件?不知道可否给予指点~谢谢了!

  3. weka的arff文件是不能从txt自动转化生成的,自己写程序吧,俺就是这么干的,从分词后的文本生成arff文件

  4. 可以在EXCEL里面导入TXT,然后另存为.CSV格式的文件(这个格式WEKA也是可以识别的),然后打开WEKA,–》TOOL–》arffviewer中打开刚才的.CSV文件,另存为.arff就OK了!不知道你说的是不是这个,我知道的就这么多了。

  5. 我想请问下测试集的类别那个缺失值就是“?”要怎么写,是要手工填进去吗,还是怎么填?我用excle把那一列改成‘?’,可是来测试的时候说训练集和测试集不匹配,是怎么回事啊?

发表评论

电子邮件地址不会被公开。 必填项已用*标注