הצד האפל של ה-AI: מערך נתונים פופולרי לאימון מחוללי תמונות הכיל תוכן פדופילי

LAION AI LAION AI

חוקרים מ”מצפה האינטרנט” (Internet Observatory) של אוניברסטית סטנפורד האמריקאית הצליחו לזהות כי מערך נתונים (Data Set) פומבי בשם LAION-5B, המיועד לאימון מחוללי תמונות, הכיל חומרים המוגדרים כהתעללות מינית בילדים, או CSAM (ר”ת child sexual abuse material), מערך עליו אומן גם מחולל התמונות הפופולרי Stable Diffusion.

בזמן שרובנו נהנים מהשיפורים הטכנולוגיים שהם מביאים עימם כלי הבינה המלאכותיים, הדיווח החדש מזכיר לנו כי להתקדמות הטכנולוגית המהירה ישנם גם צדדים אפלים יותר, בדגש על מחוללי תמונות, וידאו וזיוף עמוק (דיפ פייק).

ענקיות הטכנולוגיה מפעילות היום מגוון טכנולוגיות בניסיון למנוע הפצה של תכני CASM, החל מאפל ששילבה מנגנון מובנה לזיהוי תכנים אלו במכשירי החברה, כלי הסרת התכנים Take It Down של מטא ועוד. עם זאת, תכני CASM הופכים להיות בעיתיים במיוחד כאשר מדברים על מחוללי תמונות כפי שניתן להבין מהמידע החדש.

מה זה בכלל מערך נתונים?

על מנת לבצע את הפעולות השונות שלהן, מערכות בינה מלאכותיות צריכות לעבור אימון על ידי שימוש בכמויות גדולות של נתונים, כאשר חברות יכולות לספק למערכים שהן בונות מידע ממקורות יעודיים או כפי שחלקן עושות זאת, באמצעות קצירת מידע מהרשת.

במקרה של מחוללי תמונות, היכולת של המחולל לייצר תמונות באיכות גבוהה ופוטוריאליסית תלויים במידה רבה באופן בו הם עוברים אימון ועל איזו מערכי נתונים בוצע האימון, כשבלא מעט מקרים מבוצע שימוש במערכי נתונים פומביים וחופשיים דוגמת LAION-5B.

איזה חומר נכלל ב-LAION-5B?

הבדיקה של SIO על מערך ה-LAION-5B חשפה כי בין יותר מ-5 מיליארדי פרטי התמונות והמידע שנאספו על מנת ליצור את המערך נמצאו גם לפחות 1008 תמונות המכילות תוכן פדופילי. על אף שמדובר בכמות מידע זעירה ביחס לגודל המערך, בינות מלאכותיות כיום יכולות לנצל גם מידע מועט.

לפי החוקרים, מחולל התמונות המוכר Stable Diffusion אומן על מערך ה-LAION-5B הבעייתי. על אף שהחברה הייתה אמורה למנוע שימוש ויצירה של תכנים לא הולמים, גרסת ה-1.5 של המחולל מסוגלת לייצר תכנים מיניים בוטים, דבר שתוקן זאת בגרסת 2 העדכנית, הכוללת סינון תכנים בלתי הולמים. עם זאת, גרסה 1.5 זמינה עדיין ברשת.

יש לציין כי בניגוד ל-Stability AI, גוגל הצליחה לזהות בצורה מוקדמת מאוד כי קיימת בעיה במערכי המידע של LAION. מודל בינה מלאכותית אותו פיתחה החברה אומן על מערך ה-LAION-400M, גרסה ישנה יותר של ה-LAION-5B, מודל שלא נכנס לשימוש לאחר שגוגל זיהתה כי הוא מסוגל ליצור תכנים בלתי הולמים.

מהי חשיבות הדו”ח הנוכחי?

הדוח החדש של אוניברסטית סטנפורד מדגיש את חשיבות השקיפות והבדיקות שצריכים לעבור מאגרי הנתונים המשמשים לאימון של פתרונות בינה מלאכותית, כאשר במקרה זה כמות זעירה למדי של תכני CASM אסורים הצליחה “לזהם” מאגר של מעל 5 מיליארד פרמטרים ולאפשר לבינות מלאכותיות, שהשתמשו בו לאימון המודלים שלהן, לייצר תכנים אותם הם אמורים לחסום.


חלק מהפוסטים באתר כוללים קישורי תכניות שותפים, עבורם נקבל עמלה עם ביצוע רכישה בפועל של מוצרים. עמלה זו לא מייקרת את העלות הסופית של המוצרים עבורכם.

הסקירות והתכנים המופיעים באתר מהווים המלצה בלבד, וכך יש להתייחס אליהם. כל המחירים המופיעים באתר נכונים ליום הפרסום בלבד והאחריות לקניית מוצר או שירות כזה או אחר מוטלת עליך בלבד – השימוש באתר בהתאם לתנאי השימוש והפרטיות.

השוואת מפרטים