Introdução

Introdução ao Wikidata

Wikidata é um projeto internacional da Fundação Wikimedia que almeja ser o maior banco de dados livres, da mesma forma que a Wikipédia se tornou a fonte mais popular de conhecimento do mundo.

Wikidata é uma base de conhecimento livre e aberta que pode ser editada tanto por humanos quanto por máquinas. O Wikidata atua como um repositório central para os dados estruturados de seus projetos irmãos, como a Wikipédia, o Wikivoyage, o Wikcionário, o Wikisource, entre outros.

O Wikidata também oferece suporte a muitos sites e serviços além dos projetos Wikimedia! O conteúdo do Wikidata está disponível sob uma licença livre, pode ser exportado em formatos padronizados e interconectado a outros bancos de dados abertos na internet.

Wikidata/dados ligados entre si explicados

O Wikidata é um repositório central que consiste principalmente de itens. Um item é uma coisa, uma entidade, um conceito. Pode ser um objeto, uma pessoa, um evento, um lugar, uma obra de arte, mas também pode ser um conceito mais abstrato como amor ou socialismo. Itens são identificados exclusivamente pela letra Q, seguida de um número.

Por exemplo, o item Q17738 representa o filme “Star Wars” de 1977. Cada item também possui um rótulo, que é o nome principal que lhe foi dado em um determinado idioma. Isso permite que a informação básica necessária para identificar o assunto do qual o item trata possa ser traduzida sem favorecer um idioma em particular.

Rótulos não precisam ser únicos. Por exemplo, Star Wars (Q462) representa a série de filmes, livros e outras mídias que formam o universo Star Wars. Já Star Wars (Q54317) representa o videogame lançado em 1983. A descrição de um item no Wikidata é uma frase curta cujo intuito é distinguir itens com rótulos iguais ou semelhantes. Descrições também não precisam ser únicas; múltiplos itens podem ter a mesma descrição. Entretanto, dois itens não podem ter, simultaneamente, o mesmo rótulo e a mesma descrição.

A estrutura do Wikidata

Dados tabulados x Dados ligados entre si

Para aprender como usar o Wikidata Query Service, você primeiro precisará entender a estrutura do Wikidata. Isto é, qual a cara de um banco de dados ligados entre si.

Neste tutorial, muitos exemplos se baseiam nos dados apresentados nesta tabela:

ID do item títulodiretorduraçãobilheteria
wd:Q17738 Star Wars Episódio IV: Uma Nova EsperançaGeorge Lucas121775398007
wd:Q181795 Star Wars Episódio V: O Império Contra-AtacaIrvin Kershner124538400000
wd:Q181803 Star Wars Episódio VI: O Retorno de JediRichard Marquand134475100000
wd:Q165713 Star Wars Episódio I: A Ameaça FantasmaGeorge Lucas1361027044677
wd:Q181069 Star Wars Episódio II: Ataque dos ClonesGeorge Lucas142649398328
wd:Q42051 Star Wars Episódio III: A Vingança dos SithGeorge Lucas140848800000
wd:Q6074 Star Wars Episódio VII: O Despertar da ForçaJ. J. Abrams1352068223624
wd:Q18486021 Star Wars Episódio VIII: Os Últimos JediRian Johnson1521332539889
wd:Q20977110 Star Wars Episódio IX: A Ascensão SkywalkerJ. J. Abrams 141 851058441

A tabela acima é um pequeno conjunto de dados, ou dataset, que organiza informações sobre os filmes da saga Star Wars. Nela, encontramos alguns dos atributos ou propriedades de cada um dos filmes: título, diretor, duração (em minutos), e a bilheteria acumulada (em dólares). Se você está habituado(a) com Excel ou SQL, esta forma de visualização dos dados deve ser familiar. Entretanto, o Wikidata não é um banco de dados armazenados em tabelas, como esta mostrada acima, mas de dados armazenados no formato de dados ligados entre si, ou linked data. O que isso significa?

Em um modelo de linked data, os dados da primeira linha da tabela acima seriam representados como neste gráfico: 

O Wikidata, que usa o formato de dados interligados entre si, armazena as informações na forma de declarações (ou statements). Declarações, previamente conhecidas como triplas de “sujeito, predicado e objeto”, seguem uma estrutura de Item – Propriedade – Valor. 

Por exemplo, a declaração “O céu é da cor azul” é composta por:
(1) um sujeito (“O céu”);
(2) um predicado (“é da cor”);
(3) um objeto (“azul”).

De forma semelhante, “Star Wars Episódio IV: Uma Nova Esperança foi dirigido por George Lucas” é composta por (1) um sujeito/Item (“Star Wars Episódio IV: Uma Nova Esperança”), (2) um predicado/Propriedade (“foi dirigido por”) e um objeto/valor (“George Lucas”).

Você pode pensar em cada linha da tabela acima como sendo um Item, os títulos das colunas como Propriedades, e as células da tabela como Valores.

Outra forma de descrever esses dados é através de declarações. Por exemplo, para o primeiro item da tabela, os dados podem ser descritos pelas seguintes declarações:

ItemPropriedadeValor
Q17738títuloStar Wars Episódio IV: Uma Nova Esperança
Q17738 diretorGeorge Lucas
Q17738 duração121 minutes
Q17738 bilheteria775398007

Declarações descrevem características detalhadas de um item, e consistem em pares de propriedade-valor, como “diretor: George Lucas” ou “duração: 121 minutos”). Propriedades no Wikidata são representadas por um P seguido de um número. Por exemplo, a propriedade “diretor” é P57. O valor desta propriedade para o item Q17738 (Star Wars Episódio IV: Uma Nova Esperança) é George Lucas, que também possui um item próprio – Q38222.

Nem todos os valores são itens. Por exemplo, o valor para a propriedade “duração” (P2047) para o item Q17738 é 121 minutos.

Algumas propriedades podem ter valores que não sejam itens. Por exemplo, o valor da propriedade “duração” (P2047) para o item Q17738 é ‘121 minutos’, uma quantidade. O valor de “data de publicação” (P577) nos Estados Unidos é “25 de maio de 1977”, uma data. Outros tipos de dados comumente usados são strings (uma cadeia de caracteres, como textos ou códigos), coordenadas geográficas e textos monolinguais (uma string que não é traduzida para outros idiomas). O Wikidata possui 17 tipos de dados distintos no total, e você pode encontrar mais informações sobre eles aqui.

Skip to content