Skip to the content.

《Machine Learning In Action》 中Navie Bayes部分代码精简优化


Contact me:

Blog -> https://cugtyt.github.io/blog/index
Email -> cugtyt@qq.com
GitHub -> Cugtyt@GitHub


本系列博客主页及相关见此处
此处粘贴的代码来源为https://github.com/Jack-Cherish/Machine-Learning


1. createVocabList函数,创建词汇表

原代码:

def createVocabList(dataSet):
    vocabSet = set([])                      #创建一个空的不重复列表
    for document in dataSet:               
        vocabSet = vocabSet | set(document) #取并集
    return list(vocabSet)

问题:

简单的for循环可以使用列表推导实现,逻辑清晰易懂

参考修改:

def createVocabList(dataSet):
    vocabSet = [d for data in dataSet for d in data]
    return list(set(vocabSet))

2. setOfWords2Vec函数,将word转换为向量

原代码:

def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)                                    #创建一个其中所含元素都为0的向量
    for word in inputSet:                                                #遍历每个词条
        if word in vocabList:                                            #如果词条存在于词汇表中,则置1
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec                                                    #返回文档向量

问题:

遍历词汇表更加简洁有效

参考修改:

def setOfWords2Vec(vocabList, inputSet):
    returnVec = [int(val in inputSet) for val in vocabList]
    return returnVec    

3. classifyNB判断分类函数

原代码:

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = reduce(lambda x,y:x*y, vec2Classify * p1Vec) * pClass1             #对应元素相乘
    p0 = reduce(lambda x,y:x*y, vec2Classify * p0Vec) * (1.0 - pClass1)
    print('p0:',p0)
    print('p1:',p1)
    if p1 > p0:
        return 1
    else: 
        return 0

问题:

直接返回更好,使用内置mul而不要自己写

参考修改:

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = reduce(mul, vec2Classify * p1Vec) * pClass1             #对应元素相乘
    p0 = reduce(mul, vec2Classify * p0Vec) * (1.0 - pClass1)
    print('p0:',p0)
    print('p1:',p1)
    return p1 > p0

4. 简单for使用列表推导

原代码:

trainMat=[]
for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))

问题:

使用列表推导更加简洁高效

参考修改:

trainMat = [setOfWords2Vec(myVocabList, postinDoc) for postinDoc in listOPosts]

5. 使用defaultdict简化字典创建

原代码:

all_words_dict = {}                                            #统计训练集词频
for word_list in train_data_list:
    for word in word_list:
        if word in all_words_dict.keys():
            all_words_dict[word] += 1
        else:
            all_words_dict[word] = 1

问题:

对于dict初始值赋值可以使用defaultdict简洁代码

参考修改:

all_words_dict = defaultdict(int)                                            #统计训练集词频
for word_list in train_data_list:
    for word in word_list:
        all_words_dict[word] += 1