SPARQL查询:如何高效检索Web数据 (5)

发布时间 2023-11-10 05:35:55作者: JasonHao

本文内容预告

本文将带您深入了解如何使用SPARQL查询语言来检索RDF数据,掌握其基础语法,并通过实例学习如何执行查询。

什么是 SPARQL

SPARQL,即SPARQL Protocol and RDF Query Language,是W3C推荐的RDF数据查询语言。作为语义网技术的核心之一,SPARQL为图数据库提供了强大的查询能力。相比于SQL这种关系型数据库查询语言,SPARQL为我们在图数据库中检索信息提供了全新的途径。

SPARQL 语法组成部分

  • PREFIX:定义前缀,简化URI的书写,类似于Python中的import语句。
  • SELECT:声明所需检索的变量。
  • WHERE:设定查询条件,WHERE 条件使用的一些保留字的命名空间要在 PREFIX 中指定。
  • 变量:作为检索结果的列名,如?movie,在SELECTWHERE子句中使用。

写个查询看看漫威系列有哪些电影

打开DBPedia的查询终端https://dbpedia.org/sparql,尝试以下查询以发现漫威系列电影:

PREFIX dbo: <http://dbpedia.org/ontology/>
PREFIX dbr: <http://dbpedia.org/resource/>

SELECT ?movie ?movieName WHERE {
  ?movie dbp:publisher dbr:Marvel_Comics ; 
         rdfs:label ?movieName .  
  # ?movie dbo:starring ?actor .
  FILTER (LANG(?movieName) = 'en') 
}

查询结果将显示漫威的经典之作,第一个结果就是《美国队长》

基本的符号

  • 逗号 , 分号 ; 还有句号 . 的用法跟它们在 RDF 中 Turtle 语法一样。,用于分格共用同一谓语的多个宾语,;分格共用同一主语的多个谓语,.表示逻辑  。 ?用于构造变量名称。比如 ?var?friend_1 等等。

  • # 用于注释,与 Python 中的注释类似。比如# ?movie dbo:starring ?actor .

  • <> 用于包围 URI。比如 dbr:Marvel_Comics 可以用 <http://dbpedia.org/resource/Marvel_Comics> 代替。

  • * 和 + 正则匹配 ”零个或多个“ 和 ”一个或多个“ 谓语。比如:假设朋友的朋友也是我的朋友,我想查找所有朋友可以用 `

SELECT * WHERE {
	?friend ex:friend+ ex:jason
}

查询的结果会包含ex:jenaex:lily, 和ex:saber_lion。这里注意SELECT中的*跟 SQL 中的用法类似返回所有的变量值。

image.png

  • ^ 用来反向谓语匹配,比如,同样查询我的所有的朋友,可以这样写
SELECT * WHERE {
	ex:jason ^ex:friend+ ?friend
}

因为 ex:friend 这个关系里ex:jason在谓语的位置,如果要把ex:jason作为主语使用,那意味着要构造一个新的反向谓语 (^ex:friend) 要以ex:jason作为主语。

  • | 用来表示谓语 1 或者谓语 2。比如我想查找 ex:jason的最近的朋友或者女朋友,我们可以这样写
SELECT * WHERE {
	ex:jason (^ex:friend | ex:girlfriend) ?friend
}

此时结果会返回 ex:saber_lion 和 ex:annie

  • / 用来分割多个连续谓语。比如查询所有我的距离为 2 朋友。我们可以这样写
SELECT * WHERE {
	?friend ex:friend/ex:friend ex:jason
}
  • ><>=<=,= 用于数值比较。 比如查询年纪大于 20 的人。
SELECT ?person WHERE {?person ex:age ?age . FILTER(?age > 20)}
  • ! 表示布尔否定,&& 表示布尔与,|| 表示布尔或。一般在 FILTER 子句中使用来构造筛选条件,也可以用在HAVING子句中。比如查询年纪大于 20 的男性。
SELECT ?person WHERE {
	?person ex:age ?age . 
	?person ex:sex ?sex . 
	FILTER(?age > 20 && ?sex == "man")
}

查询类型

SELECT 查询是最常用的一种获取数据的查询,跟SQL查询类比。

SELECT [DISTINCT] <VAR> [<VAR> ...]
[FROM ...]
WHERE
{
    triple pattern 1.
    [triple pattern 2.]
    ...
    [附加条件...]
}
[OFFSET 数字]
[LIMIT 数字]
[ORDER BY | GROUP BY <VAR>]

triple pattern 是一个三元组,它的结构跟 RDF 三元组要求基本相同,唯一不同的就是他的主谓宾可以是变量。比如 ?s ?p ?o 这个会匹配 RDF 图数据中所有的三元组。

DISTINCT 的使用跟它在 SQL 中一样,用于去掉重复数据值。

FROM 用于指定在哪个数据图中检索。因为一个数据终端可以检索多个 RDF 数据图的内容,比如 FROM <http://dbpedia.org> 就是从这个 URI <http://dbpedia.org> 指定的数据图中检索。

OFFSET n 用于指定跳过前 n 个检索结果。

LIMIT m 用于指定返回结果的数量 m。

ORDER BY VAR 根据变量VAR的值对返回的结果排序。对比 SQL。

GROUP BY VAR 根据变量VAR的值对返回结果进行分组。对比 SQL。

CONSTRUCT 查询 跟 SELECT 查询同样用于查询数据,但是前者返回的是列表,这个返回的是 RDF 图数据。CONSTRUCT 中的

CONSTRUCT 
{ 
    triple pattern .
    ...
} 
WHERE 
{ 
    triple pattern . 
    ...
    [附加条件...]
}

ASK 查询 用于验证结果真假,判断 RDF 数据中是否包含指定的结果。

ASK    
{   
    triple pattern . 
    ...
    [附加条件...] 
}

DESCRIBE 查询 用于返回关于某个 URI 或者 变量 的 RDF 数据。

DESCRIBE <VAR>|<URI> [<VAR>|<URI> ...]  
WHERE   
{  
    triple pattern .  
    ...
    [附加条件...]
}

之前的文章

关注不走丢,欢迎反馈、点赞、加星

参考

  1. Scientific Data Management & Knowledge Graph, by Maria-Esther Vidal
  2. https://docs.data.world/tutorials/sparql/index.html
  3. https://cosmosning.github.io/2020/07/22/sparql-grammar-tutorial/