מבוא לוויקינתונים

מה זה ויקינתונים?

ויקינתונים, או ויקידאטה, הוא מיזם בינלאומי של תנועת ויקימדיה, שמטרתו להפוך למסד הנתונים החופשי הגדול בעולם, כפי שוויקיפדיה הפכה למקור המידע הנפוץ ביותר.

ויקינתונים הוא מאגר נתונים פתוח וחופשי שניתן לכתיבה ולעריכה על ידי בני אדם וגם על ידי מכונות. ויקינתונים מהווה מאגר מרכזי לכל המידע המובנה במיזמי ויקימדיה, כגון: ויקיפדיה, ויקימילון, ויקיטקסט, ויקימסע, ואחרים.

ויקינתונים גם מספק תמיכה לאתרים ושירותים אחרים מעבר למיזמים של ויקימדיה. התוכן בוויקינתונים זמין ברישיון חופשי, ניתן לייצא אותו בפורמטים סטנדרטיים, ולקשרו למערכי נתונים אחרים ברשת האינטרנט.

הסבר על ויקינתונים ונתונים מקושרים

ויקינתונים הוא מאגר אחסון מרכזי המורכב בעיקר מפריטים, שיכולים לייצג כל דבר, יישות או מושג. פריט יכול להיות חפץ, אדם, אירוע, מקום, יצירת אמנות, אך גם מושגים מופשטים יותר כמו אהבה או סוציאליזם. פריטים מקבלים מזהה ייחודי המתחיל באות Q ואחריה מספר.

למשל, פריט Q17738 מייצג את הסרט "מלחמת הכוכבים" משנת 1977 . לכל פריט יש גם תווית – השם המקובל לאותו פריט בשפה מסוימת. ניתן להזין תווית בכל שפה נתונה. בצורה זו ניתן לזהות את הפריט ולהציג מידע בסיסי עבורו בצורה שאינה תלוית-שפה ולא מתעדפת שפה אחת על פני השנייה.

תוויות של פריטים לא חייבות להיות ייחודיות. למשל, הפריט "מלחמת הכוכבים" (Q462) מייצג את סדרת סרטי המדע הבדיוני וזיכיון המדיה. גם לפריט Q54317 יש את אותה התווית "מלחמת הכוכבים", אך הוא מייצג את משחק הווידאו בשם זה, מ-1983. התיאור של פריט ויקינתונים הוא ביטוי קצר שמטרתו להבחין בין פריטים שיש להם תווית זהה או דומה. גם התיאור של פריט לא צריך להיות ייחודי – לפריטים רבים יש את אותו תיאור. אבל לא יכולים להיות שני פריטים עם אותה תווית ואותו תיאור.

המבנה של ויקינתונים

נתונים טבלאיים לעומת נתונים מקושרים

כדי ללמוד להשתמש בממשק השאילתות של ויקינתונים, צריך קודם להבין את המבנה של ויקינתונים, כלומר, איך נראה מסד של נתונים מקושרים.

דוגמאות רבות במדריך הזה מבוססות על הטבלה הבאה:

מספר מזהה שםבמאימשךפדיון קופת כרטיסים ($)
wd:Q17738 מלחמת הכוכבים – פרק 4: תקווה חדשה ג'ורג' לוקאס121775398007
wd:Q181795 מלחמת הכוכבים – פרק 5: האימפריה מכה שניתארווין קרשנר124538400000
wd:Q181803 מלחמת הכוכבים – פרק 6: שובו של הג'דייריצ'רד מרקאנד134475100000
wd:Q165713 מלחמת הכוכבים – פרק 1: אימת הפנטוםג'ורג' לוקאס1361027044677
wd:Q181069 מלחמת הכוכבים – פרק 2: מתקפת המשובטיםג'ורג' לוקאס142649398328
wd:Q42051 מלחמת הכוכבים – פרק 3: נקמת הסית'ג'ורג' לוקאס140848800000
wd:Q6074 מלחמת הכוכבים – פרק 7: הכוח מתעוררג'יי ג'יי אברהמס1352068223624
wd:Q18486021 מלחמת הכוכבים – פרק 8: אחרוני הג'דייריאן ג'ונסון1521332539889
wd:Q20977110 מלחמת הכוכבים – פרק 9: עליית סקייווקרג'יי ג'יי אברהמס141 851058441

זהו מערך נתונים קטן שמפרט מידע על סרטים בסדרת מלחמת הכוכבים. עבור כל סרט מוצגות כמה תכונות או מאפיינים: שם הסרט, הבמאי שלו, משך הזמן שלו (בדקות) וההכנסות מכרטיסים שצבר הסרט (בדולרים). דרך זו של הצגת נתונים אמורה להיראות מוכרת למי שמכיר תוכנות כמו אקסל (Excel) או SQL. אבל ויקינתונים אינו מסד נתונים המבוסס על טבלאות, כמו זה שלמעלה, אלא בעל פורמט של "נתונים מקושרים". מה זה אומר?

כך תיוצג השורה הראשונה של הטבלה בצורה של נתונים מקושרים:

בתצוגת נתונים מקושרים (או "תצוגה גרפית"), המאפיין (באנגלית, "property") המסומן בחץ שחור מקשר את הפריט (בכחול) עם הערכים (בירוק) שכל מאפיין מקבל, בהתאמה.

בוויקינתונים, שמשתמש בפורמט של נתונים מקושרים, המידע נשמר בצורה של הצהרות. להצהרות – הידועות פורמלית כשלישיות של "נושא, נשוא מושא" – יש מבנה של "פריט-מאפיין-ערך".

למשל, ההצהרה "השמיים בצבע תכלת" מורכבת מ:
(1) נושא ("השמיים")
(2) נשוא ("בצבע")
(3) מושא ("תכלת").
באופן דומה, ההצהרה "מלחמת הכוכבים – פרק 4: תקווה חדשה בוים על ידי ג'ורג' לוקאס" מורכבת מהנושא/פריט "מלחמת הכוכבים – פרק 4: תקווה חדשה", הנשוא/מאפיין "בוים על ידי", והמושא/ערך "ג'ורג' לוקאס" .

אפשר לחשוב על כל שורה בטבלה לעיל כעל פריט, כשכותרות העמודות הן שמות המאפיינים, והתוכן של כל תא הוא הערך שהמאפיין מקבל.

דרך אחרת לתאר נתונים אלה היא בעזרת הצהרות. למשל, הפריט בשורה הראשונה של הטבלה ניתן לתיאור על-ידי ההצהרות:

פריט (Item)מאפיין (Property)ערך (Value)
Q17738שםמלחמת הכוכבים – פרק 4: תקווה חדשה
Q17738 במאיג'ורג לוקאס
Q17738 משך121 דקות
Q17738 פדיון קופת כרטיסים775398007

ויקינתונים שומר את המידע על פריטים בצורה של קביעות. קביעות מתארות בפירוט מאפיינים של פריט, ומורכבות מצמדים של מאפיין וערך. מאפיינים בוויקינתונים מזוהים על ידי האות P ואחריה מספר. למשל, המאפיין "במאי" הוא P57.
הערך שהמאפיין הזה מקבל עבור פריט Q17738 (מלחמת הכוכבים – פרק 4: תקווה חדשה) הוא "ג'ורג' לוקאס", שהוא גם פריט בפני עצמו – Q38222. אבל לא כל ערך הוא גם פריט. למשל, הערך למאפיין "משך" (P2047) עבור הפריט Q17738 הוא 121 דקות.

יש מאפיינים שצריכים לקבל ערכים שאינם פריטים. למשל, ראינו שהערך של המאפיין "משך" עבור הפריט Q17738 הוא 121 דקות – ערך כמותי. הערך של המאפיין "תאריך הוצאה לאור" (P577) בארצות הברית הוא "25 במאי 1977", ערך מסוג תאריך. סוגי נתונים נפוצים אחרים הם מחרוזת (רצף של תווים, למשל של אותיות או קוד), קואורדינטות, וטקסט חד-לשוני (מחרוזת שאינה מתורגמת לשפות אחרות). בוויקינתונים יש כיום 27 סוגי נתונים שונים. עוד מידע עליהם ניתן למצוא כאן.

דילוג לתוכן