从文本数据到异构网络的构建
1, 从海量的文本数据中挖掘短语(最小语义单位)
2, 实体识别与类型
3, 关系提取
4, 异构信息网络的构建
为什么从海量的语料库中挖掘短语?
1单词是模糊不清的,但是短语是自然的,明确的语义单元
例如:“United”, vs. United States, United Airline, United Parcel Service
2挖掘语义有意义的短语
将文本数据从字粒度变换到短语粒度
利用信息网络增强处理未结构化数据的能力
3短语挖掘,大多数自然语言处理方法可能需要注释和训练
注释数百个文档作为训练数据
基于部分语音特征的训练模型
?限制:高标注成本
?可能不能扩展到特定领域的动态的,新兴的应用程序
?科学领域,查询日志,或者社会媒体,例如Yelp,推特
最少的/没有训练的但是能够充分利用大规模的语料库
短语挖掘策略
策略1:同时推断短语和主题
1二元局部模型,n元局部模型和短语发现主题模型
2高模型复杂度:倾向于高度拟合,推理成本高,慢
策略2:话题建模短语构造
标签的话题,Turbo话题和KERT
在同一个短语中的短语可能分为不同的主题
例如,knowledge discovery using least squares support vector machine
(基于最小二乘支持向量积的知识发现)
解决方案1:
首先短语挖掘然后话题建模(没有训练数据)
解决方案2:
短语挖掘和文档分割相结合(以最少的训练数据)
整体短语挖掘框架
1首先短语构建,然后主题挖掘
与KERT对比,首先主题建模,然后短语挖掘
2框架
a进行频繁的连续模式挖掘来提取候选短语和计数
b执行相邻元的凝聚合并作为评分的指导意义-这一段每一个文件变成一个包短语。
c最新形成的包短语作为PhraseLDA的输入,LDA的延伸,这限制了每一个分享相同的潜在主题的短语的所有单词。
什么样的短语是“高质量”
1. 判断短语的质量
通俗性
信息检索和跨语言的语言检索
2. 一致性
“powerful tea” vs. “strong tea”
 “active learning” vs. “learning classification”
3. 忠实度
“this paper” (frequent but not discriminative, not informative)
4.完整性
“vector machine” vs. “support vector machine”
为什么需要短语分割
1. 短语分割可以告诉我们那一个词语是更合适的
提高短语分割
1. 再循环提高短语分割
2. 反馈
a. 利用整流频率,重新计算这些基于原始频率先前计算的特征。
3. 过程:用一小组标签或者用通用知识库远程训练进行分类。
分类—>短语分割 //SegPhrase
—>分类—>短语分割 //SegPhrase+
4. 计算质量分数的影响

实验:基于短语的相似性搜索
1. 响应用户的短语查询,SegPhrase+生成高质量的,语义上相似的短语
在多语言中挖掘高质量短语
至page23
以下来自大数据文摘
数据挖掘有哪些方法?
1. 分类:首先从数据中选出分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
2. 聚类(Clustering):就是将数据分组成多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的差别较大。
3. 预测:将已有数据和模型用于对未知变量的预言。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
4. 关联(Association Rules):反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注