2015年9月18日 – Tao Team

有关大数据ppt部分内容

2015年9月18日2017年1月26日 by 张猛No Comments

从文本数据到异构网络的构建 1，从海量的文本数据中挖掘短语（最小语义单位） 2，实体识别与类型 3，关系提取 4，异构信息网络的构建为什么从海量的语料库中挖掘短语？ 1单词是模糊不清的，但是短语是自然的，明确的语义单元例如：“United”， vs. United States, United Airline, United Parcel Service 2挖掘语义有意义的短语将文本数据从字粒度变换到短语粒度利用信息网络增强处理未结构化数据的能力 3短语挖掘，大多数自然语言处理方法可能需要注释和训练注释数百个文档作为训练数据基于部分语音特征的训练模型？限制：高标注成本？可能不能扩展到特定领域的动态的，新兴的应用程序？科学领域，查询日志，或者社会媒体，例如Yelp，推特最少的/没有训练的但是能够充分利用大规模的语料库短语挖掘策略策略1：同时推断短语和主题 1二元局部模型，n元局部模型和短语发现主题模型 2高模型复杂度：倾向于高度拟合，推理成本高，慢策略2：话题建模短语构造标签的话题，Turbo话题和KERT 在同一个短语中的短语可能分为不同的主题例如，knowledge discovery using least squares support vector machine （基于最小二乘支持向量积的知识发现）解决方案1：首先短语挖掘然后话题建模（没有训练数据）解决方案2：短语挖掘和文档分割相结合（以最少的训练数据）整体短语挖掘框架 1首先短语构建，然后主题挖掘与KERT对比，首先主题建模，然后短语挖掘 2框架 a进行频繁的连续模式挖掘来提取候选短语和计数 b执行相邻元的凝聚合并作为评分的指导意义-这一段每一个文件变成一个包短语。 c最新形成的包短语作为PhraseLDA的输入，LDA的延伸，这限制了每一个分享相同的潜在主题的短语的所有单词。什么样的短语是“高质量” 1. 判断短语的质量通俗性信息检索和跨语言的语言检索 2. 一致性 “powerful tea” vs. “strong tea”  “active learning” vs. “learning classification” 3. 忠实度 “this paper” (frequent but not discriminative, not informative) 4．完整性 “vector machine” vs. “support vector machine” 为什么需要短语分割 1. 短语分割可以告诉我们那一个词语是更合适的提高短语分割 1. 再循环提高短语分割 2. 反馈 a. 利用整流频率，重新计算这些基于原始频率先前计算的特征。 3. 过程：用一小组标签或者用通用知识库远程训练进行分类。分类—>短语分割 //SegPhrase —>分类—>短语分割 //SegPhrase+ 4. 计算质量分数的影响实验：基于短语的相似性搜索 1. 响应用户的短语查询，SegPhrase+生成高质量的，语义上相似的短语在多语言中挖掘高质量短语至page23 以下来自大数据文摘数据挖掘有哪些方法？ 1. 分类：首先从数据中选出分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。 2. 聚类（Clustering）：就是将数据分组成多个类（Cluster）。在同一个类内对象之间具有较高的相似度，不同类之间的差别较大。 3. ...

一周工作时间安排记录情况

2015年9月18日2017年1月26日 by 张猛No Comments

一周进展情况记录： 2015.9.10 —— 上午两节课，下午双选会，晚6:00-9:50 进行相机控制代码的编写和测试。 2015.9.11 —— 上午上课，下午1:00-9:00 ，实验室相机控制，整体结构已搭好，明天进行单个功能的添加和测试。 2015.9.12 —— 下午2.30-9:10,由于昨天对控件认识不清，导致今天进展很小，今天修改昨天构架，明天继续未完成的工作。 2015.9.13 —— 下午2:30-4:36矩阵分析；相机控制控件被加密，需要自己写一个EosCtrl控件才能在后期使用。 2015.9.14 —— 晚6：35-9：40，看有关大数据知识的文章，韩家炜ppt。 2015.9.15 —— 晚7-9，韩家炜ppt，page6-12,几乎没看懂。 2015.9.16 —— 晚7-9，继续韩家炜ppt。page6-18,查阅关于Active控件编写的相关资料。 2015.9.17 —— 晚7-9：15，韩家炜ppt,page19-23。 ...

关于软件著作权错误登记信息的更正

2015年9月18日2017年1月26日 by 魏昕宇No Comments

软件著作权对信息的审查比较严格，应尽量避免错误。如果发生错误，应按以下流程处理： 1）已提交电子申报尚未寄送纸质材料的情况下，直接重新提交电子申报，继续申报流程即可。 2）对于已经审核的申请文件发生错误，如果错误在盖章页，需联系审查员重新开放权限，重新寄送登记材料。 3）注意：以下联系方式，可能无效 1>登记页中，我的登记栏目下，我要咨询栏目——长时间无人回复 2>网站联系电话无效，长时间无人接听 http://www.ccopyright.com.cn/cms/ArticleServlet?articleID=1544 4）可能有效的联系方式：审查员：宋燕云电话：010-64097552 email地址：songyanyun@ccopyright.com （比较热心的审查员，查询信息需要流水号） ...

2015年 9月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30