形式概念分析学术研讨会

感觉:脑对直接作用于感觉器官的客观事物个别属性的反映。 知觉:脑对直接作用于感觉器官的客观事物整体属性的反映。 ①客体相似性内涵:心理距离取向;特征取向;结构取向;转换取向。②客体相似性表征:是指可以反复指代某事物的任何符号和符号集。③事物可比较性和不可比较性公理;事物相容性和不相容性公理。 世间万物都可以用多层次,变尺度,多簇集的偏序结构来表示 研究“属性的属性”“背景的背景” 属性的可分支:最大共有属性VS共有属性VS独有属性VS矛盾属性(区别于对立属性)VS互斥属性VS互不包含属性(三支决策问题)VS伴生属性VS最近伴生属性VS多属性伴生属性VS类独有属性。 必然特征和似然特征概念区分; 考虑问题,考虑主要特征外,还应考虑到基础比率问题。 动态三支决策三原则: 知识越多,三支决策越有效; 分组决策的效率高于统一决策; 能够诱导出相协调决策的知识会被筛选出来。 ...
Read More

有关大数据ppt部分内容

从文本数据到异构网络的构建 1, 从海量的文本数据中挖掘短语(最小语义单位) 2, 实体识别与类型 3, 关系提取 4, 异构信息网络的构建 为什么从海量的语料库中挖掘短语? 1单词是模糊不清的,但是短语是自然的,明确的语义单元 例如:“United”, vs. United States, United Airline, United Parcel Service 2挖掘语义有意义的短语 将文本数据从字粒度变换到短语粒度 利用信息网络增强处理未结构化数据的能力 3短语挖掘,大多数自然语言处理方法可能需要注释和训练 注释数百个文档作为训练数据 基于部分语音特征的训练模型 ?限制:高标注成本 ?可能不能扩展到特定领域的动态的,新兴的应用程序 ?科学领域,查询日志,或者社会媒体,例如Yelp,推特 最少的/没有训练的但是能够充分利用大规模的语料库 短语挖掘策略 策略1:同时推断短语和主题 1二元局部模型,n元局部模型和短语发现主题模型 2高模型复杂度:倾向于高度拟合,推理成本高,慢 策略2:话题建模短语构造 标签的话题,Turbo话题和KERT 在同一个短语中的短语可能分为不同的主题 例如,knowledge discovery using least squares support vector machine (基于最小二乘支持向量积的知识发现) 解决方案1: 首先短语挖掘然后话题建模(没有训练数据) 解决方案2: 短语挖掘和文档分割相结合(以最少的训练数据) 整体短语挖掘框架 1首先短语构建,然后主题挖掘 与KERT对比,首先主题建模,然后短语挖掘 2框架 a进行频繁的连续模式挖掘来提取候选短语和计数 b执行相邻元的凝聚合并作为评分的指导意义-这一段每一个文件变成一个包短语。 c最新形成的包短语作为PhraseLDA的输入,LDA的延伸,这限制了每一个分享相同的潜在主题的短语的所有单词。 什么样的短语是“高质量” 1. 判断短语的质量 通俗性 信息检索和跨语言的语言检索 2. 一致性 “powerful tea” vs. “strong tea”  “active learning” vs. “learning classification” 3. 忠实度 “this paper” (frequent but not discriminative, not informative) 4.完整性 “vector machine” vs. “support vector machine” 为什么需要短语分割 1. 短语分割可以告诉我们那一个词语是更合适的 提高短语分割 1. 再循环提高短语分割 2. 反馈 a. 利用整流频率,重新计算这些基于原始频率先前计算的特征。 3. 过程:用一小组标签或者用通用知识库远程训练进行分类。 分类—>短语分割 //SegPhrase —>分类—>短语分割 //SegPhrase+ 4. 计算质量分数的影响 实验:基于短语的相似性搜索 1. 响应用户的短语查询,SegPhrase+生成高质量的,语义上相似的短语 在多语言中挖掘高质量短语 至page23 以下来自大数据文摘 数据挖掘有哪些方法? 1. 分类:首先从数据中选出分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。 2. 聚类(Clustering):就是将数据分组成多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的差别较大。 3. ...
Read More

一周工作时间安排记录情况

一周进展情况记录: 2015.9.10 —— 上午两节课,下午双选会,晚6:00-9:50 进行相机控制代码的编写和测试。 2015.9.11 —— 上午上课,下午1:00-9:00 ,实验室相机控制,整体结构已搭好,明天进行单个功能的添加和测试。 2015.9.12 —— 下午2.30-9:10,由于昨天对控件认识不清,导致今天进展很小,今天修改昨天构架,明天继续未完成的工作。 2015.9.13 —— 下午2:30-4:36矩阵分析;相机控制控件被加密,需要自己写一个EosCtrl控件才能在后期使用。 2015.9.14 —— 晚6:35-9:40,看有关大数据知识的文章,韩家炜ppt。 2015.9.15 —— 晚7-9,韩家炜ppt,page6-12,几乎没看懂。 2015.9.16 —— 晚7-9,继续韩家炜ppt。page6-18,查阅关于Active控件编写的相关资料。 2015.9.17 —— 晚7-9:15,韩家炜ppt,page19-23。 ...
Read More