《Machine Learning In Action》 中Navie Bayes部分代码精简优化
Contact me:
Blog -> https://cugtyt.github.io/blog/index
Email -> cugtyt@qq.com
GitHub -> Cugtyt@GitHub
本系列博客主页及相关见此处
此处粘贴的代码来源为https://github.com/Jack-Cherish/Machine-Learning
1. createVocabList函数,创建词汇表
原代码:
def createVocabList(dataSet):
vocabSet = set([]) #创建一个空的不重复列表
for document in dataSet:
vocabSet = vocabSet | set(document) #取并集
return list(vocabSet)
问题:
简单的for循环可以使用列表推导实现,逻辑清晰易懂
参考修改:
def createVocabList(dataSet):
vocabSet = [d for data in dataSet for d in data]
return list(set(vocabSet))
2. setOfWords2Vec函数,将word转换为向量
原代码:
def setOfWords2Vec(vocabList, inputSet):
returnVec = [0] * len(vocabList) #创建一个其中所含元素都为0的向量
for word in inputSet: #遍历每个词条
if word in vocabList: #如果词条存在于词汇表中,则置1
returnVec[vocabList.index(word)] = 1
else: print("the word: %s is not in my Vocabulary!" % word)
return returnVec #返回文档向量
问题:
遍历词汇表更加简洁有效
参考修改:
def setOfWords2Vec(vocabList, inputSet):
returnVec = [int(val in inputSet) for val in vocabList]
return returnVec
3. classifyNB判断分类函数
原代码:
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
p1 = reduce(lambda x,y:x*y, vec2Classify * p1Vec) * pClass1 #对应元素相乘
p0 = reduce(lambda x,y:x*y, vec2Classify * p0Vec) * (1.0 - pClass1)
print('p0:',p0)
print('p1:',p1)
if p1 > p0:
return 1
else:
return 0
问题:
直接返回更好,使用内置mul而不要自己写
参考修改:
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
p1 = reduce(mul, vec2Classify * p1Vec) * pClass1 #对应元素相乘
p0 = reduce(mul, vec2Classify * p0Vec) * (1.0 - pClass1)
print('p0:',p0)
print('p1:',p1)
return p1 > p0
4. 简单for使用列表推导
原代码:
trainMat=[]
for postinDoc in listOPosts:
trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
问题:
使用列表推导更加简洁高效
参考修改:
trainMat = [setOfWords2Vec(myVocabList, postinDoc) for postinDoc in listOPosts]
5. 使用defaultdict简化字典创建
原代码:
all_words_dict = {} #统计训练集词频
for word_list in train_data_list:
for word in word_list:
if word in all_words_dict.keys():
all_words_dict[word] += 1
else:
all_words_dict[word] = 1
问题:
对于dict初始值赋值可以使用defaultdict简洁代码
参考修改:
all_words_dict = defaultdict(int) #统计训练集词频
for word_list in train_data_list:
for word in word_list:
all_words_dict[word] += 1