יום שלישי, 30 באפריל 2019

רואים תוצאות (חלק 6) - מנוע החיפוש OMNITY

עכשיו, שהסתיים חג הפסח, אני שמחה לומר שעשיתי סדר יסודי למדי. לא, לא במטבח (הוא עוד מחכה...) אלא במקורות המידע שאני אוספת כל ימות השנה, וממתינים לרגע שבו אעמיק בהם קצת יותר. אז בזכות הסדר הזה מצאתי מידע ששמרתי כבר לפני כשלוש שנים, העוסק בהשקתו של מנוע חיפוש סמנטי רב תחומי חדש. ממש בזמן (נס חנוכה מוקדם?) כדי להיות הפרק השישי בסדרה העוסקת בהצגת תוצאות חיפוש מבוסס בינה מלאכותית בצורה ויזואלית.
אנחנו מצויים בתקופה של הצפת מידע: מעל ל - 2500 מאמרים מדעיים ו - 2200 בקשות לפטנטים מתפרסמים מדי יום (כך על פי הרשום כאן, במאמרו של המידען מרכוס זילמן על מנוע החיפוש Ominty). היכולת האנושית להתמודד עם כמות כזו של חומר היא מוגבלת, הן בתחום המקצועי של כל אחד, ועל אחת כמה וכמה בראיה בין תחומית.
טכנולוגיות חדשות, היודעות להתמודד עם כמויות עצומות של מידע (Big Data) ולהבינו במהירות, טכנולוגיות המבוססות על בינה מלאכותית, הן הטכנולוגיות שיהוו ככל הנראה את הבסיס לפתרון לצריכת המידע והבנתו בשנים הבאות. הטכנולוגיה של בינה מלאכותית מתפתחת במהירות בשנים האחרונות, בתחומים רבים ושונים. גם בתחום מנועי החיפוש ניתן לראות יותר ויותר דוגמאות למנועים מבוססי בינה מלאכותית. מרבית המנועים האלה עדין בראשית דרכם, בגרסאות בטא, עם כיסוי חלקי של החומר. אך נראה כי הם אלו שיהפכו למובילים בשנים הבאות על פני מנועי החיפוש המסורתיים.

תמונה 1. https://www.omnity.io/

Ominty

Ominty הושק בשנת 2016 לאחר 4 שנות פיתוח. עם מייסדי החברה, שמקום מושבה סן פרנסיסקו,  נמנה  Brain Sager המשמש גם כמנכ"ל.
Ominty מכסה מקורות מידע בתחומי ההנדסה, המדעים, הרפואה, הפיננסים, המשפטים והפטנטים. כמו גם מקורות מידע חדשותיים, ואף ויקיפדיה וסרטוני טד.
המימון ההתחלתי של החברה היה מבוסס על גרנטים של National Science Foundation.

לא רק רשימת מסמכים - מה מיוחד ב - Omnity?

מנוע החיפוש Ominty מבוסס על טכנולוגיות סמנטיות. הוא מאפשר גילוי של קשרים בין מסמכים מורכבים בתחום מסוים או בין תחומים על בסיס ההקשר של הטקסט שלהם (בניגוד למילות חיפוש מסויימות בלבד), גם אם הם לא מצטטים זה את זה או מקשרים זה לזה. הקשר בין המסמכים נוצר על בסיס הבנה של המשמעות של המסמך כולו. טכנולוגיה זו מייתרת למעשה את הצורך במילות מפתח, ופותחת אפשרויות לגילוי מידע חדש גם אם לא יודעים בדיוק באילו מלים להגדירו. הרעיון של צורת חיפוש זו ושל מנוע החיפוש Ominty מוצג כאן בסרטון. כמובן, שתרומתה האדירה של הטכנולוגיה כאן, מעבר לשיטת החיפוש עצמה, היא המהירות העצומה שבה החיפוש מתרחש, דבר שהיה לוקח לבני אדם לבצע במשך שנים ארוכות מתרחש כאן בשניות בודדות.
הקשרים בין התוצאות מוצגים גם בצורה ויזואלית לפי פרמטרים שונים כמו מקור המידע, זמן הפרסום, אזור גאוגרפי ועוד.

איך זה עובד?

החיפוש הבסיסי במנוע הוא חופשי. כלים מתקדמים יותר, וכיסוי של מאגרים שאינם חינמיים קיים בתשלום. בשלב ראשון יש להרשם לאתר (בחינם). באחת הכתבות על האתר היה כתוב שרישום עם אימייל אקדמי מקנה גישה מורחבת יותר למידע, בפועל לא ראיתי שיש הבדל אבל אולי בכל זאת קיים.
החיפוש מתבצע עם הכנסת מלות חיפוש, מחבר או פרמטרים נוספים. אולם החיפוש הייחודי של Omnity הוא באמצעות העלאת מסמך שלם למנוע החיפוש - המשמש למעשה כשאילתת החיפוש-  באחת משלוש דרכים: גרירת המסמך, העלאתו מהמחשב או באמצעות סימון קטע מהרשת והעלאתו בעזרת Web clipper (ניתן להורידו לדפדפן כרום מכאן - עדין בגרסת בטא). ניתן לבחור באילו מאגרים לפי תחומים ותתי תחומים יתבצע החיפוש.
לאחר קבלת התוצאות הראשוניות אפשר לחדד את החיפוש ולהוסיף מלים (כולל מלים שמוצעות לפי תוכן המאמרים),  חוקרים, מוסדות ועוד.

תצוגה ויזואלית

בפינה הימנית העליונה יש גישה לתצוגה ויזואלית של תוצאות החיפוש. כאן ניתן לראות את הקשרים בין התוצאות. התצוגה הויזואלית היא לפי רלוונטיות, קהילה, תאריך, מיקום גאוגרפי ועוד.

תמונה 2.דוגמה לתצוגה הויזואלית של תוצאות החיפוש ב - Omnity לפי קהילות


חיפוש: הדור הבא

כלי מדליק שקיים בגרסה בתשלום הוא בניית שאילתא, שבה את מקומן של מילות המפתח תופסים מאמרים. סקיצה של אופציה זו מוצג בתמונה 3.

תמונה 3. בונים שאילתה ממאמרים שלמים
לסיכום, Omnity הוא מנוע חיפוש נוסף המציג דרך חדשה לביצוע חיפוש רב תחומי סמנטי. הטכנולוגיה העומדת מאחוריו, כמו גם במנועי חיפוש דומים שנסקרו בסדרה, נמצאת כעת בתנופת פיתוח, וצפויה לשנות ככל הנראה את הדרך בה נחפש ונצרוך מידע בעתיד.




יום שני, 15 באפריל 2019

רואים תוצאות (חלק 5) - סקירת ספרות כפסיפס עם העוזר המדעי:Iris.ai

בפרק החמישי (את הפרקים הקודמים ניתן לקרוא כאן) בנושא כלים לסקירת ספרות ויזואלית אני שמחה לכתוב על הכלי Iris.ai. זהו כלי שהחל את דרכו בקיץ 2015 בהובלתם  של ארבעה מייסדים (מתוכם 2 נשים!) ממקומות שונים בעולם (כיום המשרד הראשי נמצא בברלין), על רקע התסכול שחשו בכל הקשור לביצוע סקירת ספרות מדעית. המטרה, במקום הקלישאה של "להפוך את העולם למקום טוב יותר" הוגדרה כ - "לעשות מדען אחד מאושר בכל פעם". מקור השם הוא שמה של האלה היוונית איריס, אלת הקשת בענן, שהיתה שליחת האלים להעברת הוראות ופקודות לבני האדם. אני לא בטוחה שהבנתי את הקשר, אולי כי על מנת לבצע את תפקידה היא נעה במהירות עצומה, בדומה למהירות שבה מבקש הכלי החדש לעזור לנו לבצע סקירת ספרות. תובנות נוספות בנושא יתקבלו בשמחה בתגובות לפוסט 😊.
על פי יוצרי Iris.ai, הכלי מקצר את משך סקירת הספרות, מקטין פספוסי מאמרים רלוונטיים, ומשפר את החיפוש בנושאים רב תחומיים. על הכלי כתב גם המידען מרכוס זילמן.


תמונה 1. דוגמה לפסיפס האינטרקטיבי שיוצר Iris.ai ממאמר אחד

למי  מיועד Iris.ai?

הכלי מתאים במיוחד לחוקרים בתחילתו של פרוייקט חדש, בעיקר אם מדובר בפרויקט רב תחומי, ולכל מי שמעונין לקבל תמונת מידע רחבה על תחום מסוים.

איך Iris.ai עובד?

לכלי חלק חינמי (Exploration), וחלק פרימיום (Focus tool) הדורש תשלום. בשלב זה לא ניתן לעשות מנוי אישי בתשלום, אלא רק מנוי מוסדי.

הכלי החינמי

בכלי החינמי הכל מתחיל ממאמר אחד על פי בחירתכם, או אפשרות מקורית יותר: סרטון טד! ראשית מומלץ לפתוח חשבון חינמי, שיאפשר לכם לשמור את המפות שתיצרו ומאמרים נבחרים לרשימת הקריאה. לאחר מכן לוחצים על Exploring, ומכניסים קישור לאבסטרקט קיים (URL או DOI), כותבים כותרת ואבסטרקט של מאמר אישי שטרם פורסם, או כאמור קישור לסרטון טד. המערכת מזהה את המאמר/סרטון ומציגה את שמו. לאחר לחיצה על השם המערכת סורקת את המאמר או הסרטון, מזהה באמצעות טכנולוגיה של בינה מלאכותית מילות מפתח (Keywords), מלים נרדפות (synonyms) ושמות מכלילים (hypernym), ועל פי פרמטרים אלה מחפשת מאמרים דומים ממאגר שעומד נכון להיום על כ - 80 מליון מאמרים בגישה פתוחה. לא לגמרי ברור באילו מאגרים נמצאים מאמרים אלה (3000 מאגרים לפי האתר, ורק מאגרי מאמרים בגישה פתוחה עקב חומות התשלום), אך ככל הנראה בין היתר במאגר הרב תחומי למאמרים בגישה פתוחה Core, ומאגר הפטנטים  PatentsView (על פי המצוין בפרק הקרדיטים).  בפוסט שפורסם לאחרונה בבלוג של האתר צוין כי גם  פאבמד הוסף למאגרים הנסרקים על ידי Iris.ai, מה שמוסיף מליוני מאמרים למאגר המאמרים הנסרקים בעת החיפוש.
למעשה, חלק זה של הכלי מאפשר "לדלג" על שלב חיפוש מילות המפתח ובניית השאילתה, ומספק באופן אוטומטי רשימת מאמרים רלוונטיים. אולם המאמרים לא מופיעים כרשימה, אלא כמפה אינטראקטיבית המסודרת לפי מילות המפתח שהוצאו מהמאמר בצורה היררכית. לחיצה על כל חלק במפה מגדילה את הפירוט ומאפשרת להגיע עד לרמת המאמר הבודד השייך לנושא מסויים. בלחיצה על מאמר מסויים ניתן לראות את מידת התאמתו לנושא באחוזים, לשמור אותו לרשימת הקריאה או להתחיל ממנו חיפוש חדש.
ניתן גם לערוך (Edit) את המפות (לשנות את שמות הקבוצות ולאחד קבוצות) ולסנן (Filter) את התוצאות עם פילטרים של שנת פרסום ומאגרי המידע לחיפוש או להסרה מהחיפוש. את השינויים ניתן לשמור, ואת המפה הסופית ניתן לשתף לרשתות החברתיות או כלינק.
סרטון קצר ומומלץ מציג את הפעולות הבסיסיות של הכלי.

אפשרויות פרימיום

חלק הפרימיום של הכלי, בגישה בתשלום מוסדי בלבד, מאפשר צמצום ובניה מתוחכמת יותר של רשימת קריאה המתקבלת מהחיפוש. בין היתר הוא מאפשר גם הוספת מאגרי מידע נוספים לפי בחירה (להם יש למוסד מנוי) לאלו הנסרקים על ידי Iris.ai.

מבט לעתיד

הכלי נמצא עדין בשלבי פיתוח. כאן ניתן לראות את מפת הדרכים לפיתוח ומה צפוי בהמשך.

לסיכום ניתן לומר כי Iris.ai הוא כלי נוסף המתבסס על טכנולוגיה של בינה מלאכותית ומאפשר קבלת תוצאות חיפוש ויזואליות המקלות על איתור מהיר וקל יותר של המאמרים הנדרשים בסקירת ספרות. הכלי עדין בפיתוח, ואינו מכסה את כל מאגרי הספרות הרלוונטיים, לכן עדין אינו יכול להחליף סקירת ספרות מסורתית, אך סביר להניח שבשנים הקרובות הוא ילך ויתקרב לכך. שווה להכיר ולעקוב, כי אלו ככל הנראה יהיו שיטות החיפוש המובילות בעולם מוצף המידע בכלל והמדעי בפרט איתו אנו מתמודדים בחייי היומיום. 

יום שני, 8 באפריל 2019

USDA: מאגר הרכב המזונות מתחדש

אם נכנסתם לאחרונה לאתר המציג את הרכב המזונות של משרד החקלאות האמריקאי, ה - USDA, בוודאי שמתם לב להודעה זו:
הרכב המזונות של USDA: עובר לאתר חדש
אם קצת קשה לקרוא, הנה השורה התחתונה: משרד החקלאות האמריקאי משיק בימים אלה אתר חדש לבדיקת הרכב המזונות. האתר החדש עלה לאוויר בתאריך 3.4.19. האתר הקודם יורד מן הרשת בעוד מספר שבועות על פי הרשום, ומי שינסה לגשת אליו יופנה אוטומטית לאתר החדש.

https://fdc.nal.usda.gov/index.html

אז מה חדש באתר החדש?

האתר החדש נקרא FoodData Central, והוא כולל למעשה את מאגרי המידע שהיו קיימים באתר הקודם, בתוספת מקורות מידע חדשים. האתר החדש מספק 5 סוגי נתונים, מתוכם שני מקורות מידע חדשים, המציגים מידע שלא היה קיים בעבר.
המקורות החדשים הם:

Foundation Foods

מידע על רכיבי התזונה של מזונות הקיימים באופן מסחרי, וכן מטא-דאטה (מידע על מידע) על מזונות אלה, כגון מספר הדגימות שנבדקו, היכן נלקחו הדגימות, באיזה תאריך נלקחו, באיזו שיטה אנליטית נבדקו, ואם רלוונטי אז גם הגנוטיפ ושיטת הגידול החקלאי. נתונים אלה יכולים לשפוך אור על הגורמים הרבים להבדלים בפרופיל רכיבי התזונה של מזונות. מספר המזונות בקבוצה זו ילך ויגדל עם הזמן.

Experimental Foods

המידע בחלק זה מפנה בגרסה הנוכחית של האתר למגוון מקורות של מחקר חקלאי רלוונטי, בגרסה הבאה של האתר שתעלה בהמשך הוא יכלול מידע על מזונות שקיימים באופן נסיוני בלבד ועדין לא מסחרי.

מקור מידע קיים שלא היה זמין דרך האתר הקודם:

Food and Nutrient Database for Dietary Studies

ערכי מזונות המבוססים על הערכים ששימשו בסקרי הבריאות והתזונה של ארצות הברית (NHANES)

מקורות המידע שהיו קיימים גם באתר הקודם:

Standard Reference - SR Legacy

מקור המידע העיקרי על הרכב המזונות בארצות הברית בעשורים האחרונים, נבנה בעזרת שיטות מוקדמות לאנליזה של מזונות, הכוללות בדיקות מזון וחישובים.

USDA Global Branded Food Products Database

ערכים של רכיבי תזונה של מוצרי מזון מסחריים, שסופקו על ידי החברות השונות.

קישור למקורות מידע נוספים

באתר החדש כתוב, בחלק של השאלות והתשובות, כי האתר כולל קישורים למאגרי המידע על תוספי תזונה DSLD ו - DSID, שכתבתי עלים לאחרונה. לאחר שלא הצלחתי למצוא את הקישורים הללו באתר פניתי לתמיכה, ומתשובתם התברר שקישורים אלה טרם קיימים. יש למה לצפות!

מידע נוסף על האתר

בעת חיפוש של מזון כלשהו באתר מתקבלות תוצאות מכל חמשת מקורות המידע. ניתן לבחור רק את המקור/ות הרצוי/ים ובכך לסנן את התוצאות. טיפים נוספים לחיפוש באתר ניתן לראות כאן.
יש לציין כי החיפוש והשימוש באתר, כולל  במובייל,  נותן בינתיים תוצאות מוגבלות בלבד. לא ניתן למשל לחפש לפי רכיבי תזונה או להתאים את גודל המנה המחושבת באופן אישי, אפשרויות שקיימות באתר הקודם. בבירור שלי עם צוות האתר כלים אלה יוספו לאתר החדש בעדכוני הגרסה הבאים בהמשך.

לסיכום

יתרונו העיקרי של האתר החדש הוא בריכוז כל מקורות המידע העיקריים על הרכב המזונות בארצות הברית במקום אחד. עם זאת, בשלב זה כלים שימושיים רבים שקיימים באתר הקודם עדין לא פעילים בו. פניתי לצוות האתר שלא יורידו את האתר הקודם לפני שהאתר החדש יהיה מעודכן בכל הכלים החשובים הללו. ימים יגידו האם האתר החדש אכן יכיל את כל המידע והכלים השימושיים לאנשי המקצוע בתחום, שווה לעקוב!