知识图谱
RDF的初步了解
W3C推荐的语义网标准栈
企业全量数据应用挑战 1.多源异构数据难以融合 2.数据模式动态变迁困难 3.非结构化数据计算机难以理解 4.数据使用专业化程序过高 5.分散的数据难以统一消费利用
知识图谱
推理、问答、辅助决策 知识建模 - 知识抽取 - 实体链接 - 知识存储 - 知识推理 - 主义搜索 - 可视化 - 知识融合 - 图挖掘 web document --> web data www.wikidata.org RDF(Resource Description Framework资源描述框架) 核心包括资源(resource)、属性(property)、RDF陈述(RDF statement)等, 最核心的就是三元组,资源——关系——资源 (Subject -- predicate -- Object) OWL(Web Ontology Language 终极本体语言) RDFS本质上是RDF词汇的一个扩展。后来人们发现RDFS的表达能力还是相当有限, 因此提出了OWL。我们也可以把OWL当做是RDFS的一个扩展,其添加了额外的预定义词汇。 三元组知识 微软 concept graph openKG.cn 中文知识图谱 cnSchema 开放的中文知识图谱 json for link data 知识图谱分布式表示:张量分解 神经网络 WEB:象建议文本链接一样,建议数据的语义链接 NLP:从文本中抽取语义和结构化数据 MR:用计算机符号表示和处理知识 AI:利用知识库辅助理解人的语言 DB:用图的方式存贮知识 做好KG要包容并蓄,综合运用KR,NLP,WEB,ML,DB等技术 openKG 中文知识图谱 cnSchema.org 开放的中文知识图谱 知识图谱: 辅助搜索,辅助问答,辅助常识推理 知识构建、知识整合 全量数据 挑战: 1.多元数据融合困难 2.数据模式动态变迁困难: 自由可扩展模式 3.百结构化数据计算机难以理解 4。数据专业化程度高 结构化数据、半结构化数据、无结构数据 实体识别、关系抽取 知识整合、语义消歧 数据存储 图数据库-泰坦 计算广告学 精确投放、精准测量效果 刘鹏 计算广告学 广告策划+传播学+数据分析+IT及互联网技术‘ 关联模式挖掘 文本挖掘 复杂网络和图论算法 Weka,java-ML,mahout,MLLib机器学习算法库 Neo4J图数据库