Wikidata é um projeto internacional da Fundação Wikimedia que almeja ser o maior banco de dados livres, da mesma forma que a Wikipédia se tornou a fonte mais popular de conhecimento do mundo.
Wikidata é uma base de conhecimento livre e aberta que pode ser editada tanto por humanos quanto por máquinas. O Wikidata atua como um repositório central para os dados estruturados de seus projetos irmãos, como a Wikipédia, o Wikivoyage, o Wikcionário, o Wikisource, entre outros.
O Wikidata também oferece suporte a muitos sites e serviços além dos projetos Wikimedia! O conteúdo do Wikidata está disponível sob uma licença livre, pode ser exportado em formatos padronizados e interconectado a outros bancos de dados abertos na internet.
Wikidata/dados ligados entre si explicados
O Wikidata é um repositório central que consiste principalmente de itens. Um item é uma coisa, uma entidade, um conceito. Pode ser um objeto, uma pessoa, um evento, um lugar, uma obra de arte, mas também pode ser um conceito mais abstrato como amor ou socialismo. Itens são identificados exclusivamente pela letra Q, seguida de um número.
Por exemplo, o item Q17738 representa o filme “Star Wars” de 1977. Cada item também possui um rótulo, que é o nome principal que lhe foi dado em um determinado idioma. Isso permite que a informação básica necessária para identificar o assunto do qual o item trata possa ser traduzida sem favorecer um idioma em particular.
Rótulos não precisam ser únicos. Por exemplo, Star Wars (Q462) representa a série de filmes, livros e outras mídias que formam o universo Star Wars. Já Star Wars (Q54317) representa o videogame lançado em 1983. A descrição de um item no Wikidata é uma frase curta cujo intuito é distinguir itens com rótulos iguais ou semelhantes. Descrições também não precisam ser únicas; múltiplos itens podem ter a mesma descrição. Entretanto, dois itens não podem ter, simultaneamente, o mesmo rótulo e a mesma descrição.
Para aprender como usar o Wikidata Query Service, você primeiro precisará entender a estrutura do Wikidata. Isto é, qual a cara de um banco de dados ligados entre si.
Neste tutorial, muitos exemplos se baseiam nos dados apresentados nesta tabela:
A tabela acima é um pequeno conjunto de dados, ou dataset, que organiza informações sobre os filmes da saga Star Wars. Nela, encontramos alguns dos atributos ou propriedades de cada um dos filmes: título, diretor, duração (em minutos), e a bilheteria acumulada (em dólares). Se você está habituado(a) com Excel ou SQL, esta forma de visualização dos dados deve ser familiar. Entretanto, o Wikidata não é um banco de dados armazenados em tabelas, como esta mostrada acima, mas de dados armazenados no formato de dados ligados entre si, ou linked data. O que isso significa?
Em um modelo de linked data, os dados da primeira linha da tabela acima seriam representados como neste gráfico:
O Wikidata, que usa o formato de dados interligados entre si, armazena as informações na forma de declarações (ou statements). Declarações, previamente conhecidas como triplas de “sujeito, predicado e objeto”, seguem uma estrutura de Item – Propriedade – Valor.
Por exemplo, a declaração “O céu é da cor azul” é composta por:
(1) um sujeito (“O céu”);
(2) um predicado (“é da cor”);
(3) um objeto (“azul”).
De forma semelhante, “Star Wars Episódio IV: Uma Nova Esperança foi dirigido por George Lucas” é composta por (1) um sujeito/Item (“Star Wars Episódio IV: Uma Nova Esperança”), (2) um predicado/Propriedade (“foi dirigido por”) e um objeto/valor (“George Lucas”).
Você pode pensar em cada linha da tabela acima como sendo um Item, os títulos das colunas como Propriedades, e as células da tabela como Valores.
Outra forma de descrever esses dados é através de declarações. Por exemplo, para o primeiro item da tabela, os dados podem ser descritos pelas seguintes declarações:
Item
Propriedade
Valor
Q17738
título
Star Wars Episódio IV: Uma Nova Esperança
Q17738
diretor
George Lucas
Q17738
duração
121 minutes
Q17738
bilheteria
775398007
Declarações descrevem características detalhadas de um item, e consistem em pares de propriedade-valor, como “diretor: George Lucas” ou “duração: 121 minutos”). Propriedades no Wikidata são representadas por um P seguido de um número. Por exemplo, a propriedade “diretor” é P57. O valor desta propriedade para o item Q17738 (Star Wars Episódio IV: Uma Nova Esperança) é George Lucas, que também possui um item próprio – Q38222.
Nem todos os valores são itens. Por exemplo, o valor para a propriedade “duração” (P2047) para o item Q17738 é 121 minutos.
Algumas propriedades podem ter valores que não sejam itens. Por exemplo, o valor da propriedade “duração” (P2047) para o item Q17738 é ‘121 minutos’, uma quantidade. O valor de “data de publicação” (P577) nos Estados Unidos é “25 de maio de 1977”, uma data. Outros tipos de dados comumente usados são strings (uma cadeia de caracteres, como textos ou códigos), coordenadas geográficas e textos monolinguais (uma string que não é traduzida para outros idiomas). O Wikidata possui 17 tipos de dados distintos no total, e você pode encontrar mais informações sobre eles aqui.