pickle序列化与反序列化

import pickle as plk
plk.dump(obj,file) # 将序列化后的二进制写入文件
plk.dumps(obj) # 返回一个二进制序列

plk.load(file) # 读文件对象中的二进制,转化成对象返回
plk.loads(bytes_object) # 将二进制序列转化成对象

obj1=dict(),obj2=dict()
plk.dump(obj1,file)
plk.dump(obj2,file)

obj1=plk.load(file)
obj2=plk.load(file)
plk.load(file) # EOFError: Ran out of input

文本分类与关键词排名

文本分类(Text Categorization, TC)

特征-倒文本频率(Term-Inverse Document Frequency, TF-IDF)

信息增益(Information Gain, IG)

互信息(Multi-Information, MI)

卡方统计 (Chi-square, CHI)

期 望 交 叉 熵(Expected Cross Entropy, ECE )

文本证据权( Weight of Evidence for Text, WET)

TextRank(与PageRank的原理相同)

HITS(Hyperlink-Induced Topic Search)

卡方统计模型(CHI)

卡方分布

其中$Z_i \sim N(0,1)$(标准正太分布)

则$X$被称为服从自由度为$k$的卡方分布,记作:

卡方分布的概率密度函数:

期望和方差:

模型通过观察值和理论值的偏差来确定理论是否正确

基于词袋模型(文档由词组成,不考虑词的顺序)

通过考虑词语与类别的相关度把由词语组成的文档归为某一类别

HITS

  • 一个高质量的权威页面会被很多高质量的枢纽页面所指向。
  • 一个高质量的枢纽页面会指向很多高质量的权威页面。

由PageRank算法演变而来,将当前页面出链也做为考虑当前页面的重要性的一个因素

参考

https://github.com/wangjiang0624/Note/blob/master/MachineLearning/%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB.md

http://blog.zhengyi.one/PageRank-HITS.html