A estrutura do Wikidata

Dados tabulados x Dados ligados entre si

Para aprender como usar o Wikidata Query Service, você primeiro precisará entender a estrutura do Wikidata. Isto é, qual a cara de um banco de dados ligados entre si.

Neste tutorial, muitos exemplos se baseiam nos dados apresentados nesta tabela:

ID do item títulodiretorduraçãobilheteria
wd:Q17738 Star Wars Episódio IV: Uma Nova EsperançaGeorge Lucas121775398007
wd:Q181795 Star Wars Episódio V: O Império Contra-AtacaIrvin Kershner124538400000
wd:Q181803 Star Wars Episódio VI: O Retorno de JediRichard Marquand134475100000
wd:Q165713 Star Wars Episódio I: A Ameaça FantasmaGeorge Lucas1361027044677
wd:Q181069 Star Wars Episódio II: Ataque dos ClonesGeorge Lucas142649398328
wd:Q42051 Star Wars Episódio III: A Vingança dos SithGeorge Lucas140848800000
wd:Q6074 Star Wars Episódio VII: O Despertar da ForçaJ. J. Abrams1352068223624
wd:Q18486021 Star Wars Episódio VIII: Os Últimos JediRian Johnson1521332539889
wd:Q20977110 Star Wars Episódio IX: A Ascensão SkywalkerJ. J. Abrams 141 851058441

A tabela acima é um pequeno conjunto de dados, ou dataset, que organiza informações sobre os filmes da saga Star Wars. Nela, encontramos alguns dos atributos ou propriedades de cada um dos filmes: título, diretor, duração (em minutos), e a bilheteria acumulada (em dólares). Se você está habituado(a) com Excel ou SQL, esta forma de visualização dos dados deve ser familiar. Entretanto, o Wikidata não é um banco de dados armazenados em tabelas, como esta mostrada acima, mas de dados armazenados no formato de dados ligados entre si, ou linked data. O que isso significa?

Em um modelo de linked data, os dados da primeira linha da tabela acima seriam representados como neste gráfico: 

O Wikidata, que usa o formato de dados interligados entre si, armazena as informações na forma de declarações (ou statements). Declarações, previamente conhecidas como triplas de “sujeito, predicado e objeto”, seguem uma estrutura de Item – Propriedade – Valor. 

Por exemplo, a declaração “O céu é da cor azul” é composta por:
(1) um sujeito (“O céu”);
(2) um predicado (“é da cor”);
(3) um objeto (“azul”).

De forma semelhante, “Star Wars Episódio IV: Uma Nova Esperança foi dirigido por George Lucas” é composta por (1) um sujeito/Item (“Star Wars Episódio IV: Uma Nova Esperança”), (2) um predicado/Propriedade (“foi dirigido por”) e um objeto/valor (“George Lucas”).

Você pode pensar em cada linha da tabela acima como sendo um Item, os títulos das colunas como Propriedades, e as células da tabela como Valores.

Outra forma de descrever esses dados é através de declarações. Por exemplo, para o primeiro item da tabela, os dados podem ser descritos pelas seguintes declarações:

ItemPropriedadeValor
Q17738títuloStar Wars Episódio IV: Uma Nova Esperança
Q17738 diretorGeorge Lucas
Q17738 duração121 minutes
Q17738 bilheteria775398007

Declarações descrevem características detalhadas de um item, e consistem em pares de propriedade-valor, como “diretor: George Lucas” ou “duração: 121 minutos”). Propriedades no Wikidata são representadas por um P seguido de um número. Por exemplo, a propriedade “diretor” é P57. O valor desta propriedade para o item Q17738 (Star Wars Episódio IV: Uma Nova Esperança) é George Lucas, que também possui um item próprio – Q38222.

Nem todos os valores são itens. Por exemplo, o valor para a propriedade “duração” (P2047) para o item Q17738 é 121 minutos.

Algumas propriedades podem ter valores que não sejam itens. Por exemplo, o valor da propriedade “duração” (P2047) para o item Q17738 é ‘121 minutos’, uma quantidade. O valor de “data de publicação” (P577) nos Estados Unidos é “25 de maio de 1977”, uma data. Outros tipos de dados comumente usados são strings (uma cadeia de caracteres, como textos ou códigos), coordenadas geográficas e textos monolinguais (uma string que não é traduzida para outros idiomas). O Wikidata possui 17 tipos de dados distintos no total, e você pode encontrar mais informações sobre eles aqui.

Skip to content