מתודולוגיה ומדדים

איך נבנתה המפה — ולמה אפשר לסמוך עליה

כל החלטה במפה הזו נמדדה, לא הונחה. הנה צינור העיבוד, שלוש עדשות ההשוואה, והמספרים שמאחורי כל בחירה.

667 פרשיות 80,179 מילים 7 נושאי־על שצפו מעצמם עברית מקצה לקצה
01

צינור העיבוד

חמישה שלבים, כולם רצים מקומית על מחשב נייד. בלי שירותי ענן, בלי תרגום לאנגלית.

  1. חלוקה לפרשיותפיצול נוסח התורה לפי סימני {פ} ו־{ס} — חלוקת הפרשיות הפתוחות והסתומות המסורתית. כך מתקבלות 667 יחידות, מבראשית ועד דברים. לא פסוקים (קצרים מדי) ולא פרקים (חלוקה מאוחרת) — אלא היחידה שהטקסט עצמו נושא.
  2. טביעת־משמעות (embedding)כל פרשייה מתורגמת לרשימת מספרים שמייצגת את משמעותה, בעזרת NeoDictaBERT — מקודד עברי של דיקטה, 768 ממדים. פרשייה ארוכה נקראת בחלקים על גבולות פסוקים ומאוחדת; שום טקסט אינו נקטע.
  3. הקרנה לתלת־ממד (UMAP)רשימת המספרים הארוכה מכווצת לשלושה ממדים כדי שאפשר יהיה להציגה כנקודה. זה המיקום שעל המפה — לתצוגה בלבד.
  4. קיבוץ לאשכולות (KMeans)הפרשיות מקובצות לפי הדמיון ביניהן — על סמך טביעת־המשמעות המלאה, לא המיקום המכווץ. הכלל: לקבץ במקום שבו המשמעות חיה, להציג במקום שבו העין עובדת.
  5. מתן שמות (DictaLM 3.0)לכל פרשייה כותרת ולכל אשכול שם — בעברית, על ידי מודל שפה עברי של דיקטה (12B), מקומי. ללא תרגום.
02

שלוש עדשות התאומים

לחיצה על פרשייה חושפת את התאומים שלה. כל עדשה אינה מודדת דמיון גולמי אלא כיול לרקע: בכמה סטיות תקן הצמד חורג מעל הדמיון הרגיל של אותה פרשייה לשאר התורה (ברוח arXiv:2506.24117). כך ה"במיוחד" אמיתי — וגם חסין לאניזוטרופיה (ראו למטה).

תוכן

מדברות על אותו דבר?

השוואת שתי הפרשיות כמקשה אחת.

מוטיבים

חולקות אותן תמונות ומילים?

התאמה בין קבוצות הפסוקים, בלי תלות בסדר. (מרחק־הסעה / Earth-Mover.)

מבנה

בנויות באותו אופן?

יישור שרשרת הפסוקים לפי הסדר — ומאתר גם מבנה־ראי (כיאסטי). (Smith-Waterman.)

03

שלושה שיפורים מדידים

שלושה שדרוגים, כל אחד נמדד ולא הונח. ההשראה: קריאת המאמר "The Anisotropy Problem".

שיפור א׳ · גאומטריה

ניקוי אניזוטרופיה בשכבת האשכולות

הטמעות של מקודדי טקסט נדחסות לחרוט צר — כולן מצביעות בערך לאותו כיוון. והכיוון השליט, אצל הפרשיות שלנו, לא היה הנושא אלא האורך. זה דלף לאשכולות: אשכול שלם היה "סל לפרשיות ארוכות", שהצמיד את חלומות יוסף לנבואת בלעם רק משום ששתיהן ארוכות.

ρ ≈ 0.74
מתאם הציר הראשי עם אורך הפרשייה
0.42 0.25
בלבול האורך (η²) לפני ואחרי הניקוי

הפתרון: all-but-the-top (Mu & Viswanath, 2018) — מקרינים החוצה את שלושת הצירים העליונים שכל הפרשיות חולקות, ומשאירים את מה שמייחד כל פרשייה. מספר הצירים (k=3) נבחר בסריקה. הניקוי נוגע רק בפריסה ובאשכולות — חיפוש התאומים נשאר על ההטמעות הגולמיות, כי הכיול־לרקע שלו כבר מנטרל את החרוט בדרכו שלו.

שיפור ב׳ · מקודד

מקודד עברי מותאם לעדשות הפסוק

עדשות המוטיבים והמבנה תלויות במרחקים עדינים בין פסוקים. השווינו מקודדים מול שתי רשימות־זהב — הקבלות סיפוריות ושיריות (T'OMIM) והקבלות חוקיות/גנאלוגיות בתורה (UBS):

מדד ההפרדה (Wasserstein) בין דמיון של הקבלות אמיתיות לבין צמדים אקראיים — גבוה יותר = הבחנה חדה יותר. העמודה האחרונה: כמה מ־46 הקבלות התורה המוכרות עלו ב־500 המובילות.
מקודדסיפורשירההקבלות התורה
NeoDictaBERT (בסיס)0.530.1734/46
MiqraBERT0.610.08 ⚠22/46
neodicta-bh-verse (שלנו)0.710.4534/46

המקודד המותאם מנצח בשני הז'אנרים ואינו נסוג בהקבלות החוקיות שהבסיס כבר היה טוב בהן. MiqraBERT נפסל — הוא משתפר בסיפור אך קורס בשירה. התוצאה במפה: תאומי מוטיבים 1315→2125, תאומי מבנה 1118→1573.

גבול שהצבנו לעצמנו: המקודד המותאם הוא למפה בלבד — הוא אומן על הטקסט המקראי, ולכן אסור שיזין את מחקר ביקורת־המקורות הנפרד (זו תהיה "אימון על המבחן").

שיפור ג׳ · ארגון

היררכיית נושאים דו־שכבתית

כמה נושאים יש בתורה? אין תשובה נכונה — מרחב ההטמעות הוא רצף, וכל k שנבחר שרירותי במקצת. לכן שתי שכבות: תצוגה מפורטת של 18 אשכולות, ותצוגת־על שממזגת אותם ל7 נושאי־על, עם כפתור מעבר ביניהן. ה־7 צפו נקיים:

  • חוקים ומצוות
  • בניית המשכן והכוהנים
  • עונשין ודיני נפשות
  • בראשית: סיפורי אבות ואימהות
  • ברכות וקללות
  • קרבנות ומצוות חגים
  • טהרה וטומאה

סיפורי בראשית נפרדים בבירור מן השכבה הכוהנית־חוקית — בדיוק המבט־על שהיררכיה אמורה לתת.

04

מדדים והערכה

השיטה נבדקה מול רשימות הקבלות מקובלות — לא מול תחושת בטן.

46
UBS Parallel Passages — צמדים בין־ספריים בתורה (חוקי/גנאלוגי). מדידת זיהוי@K בדמיון גולמי מול כיול־לרקע.
T'OMIM
רשימת־זהב להקבלות נרטיביות ושיריות (דברי־הימים מול שמואל־מלכים). מדד הפרדה בין הקבלות לצמדים אקראיים.

כל המספרים מחושבים מן הסקריפטים בקוד, מול אותן רשימות־זהב — לא הוגדרו ידנית.

05

מגבלות וכנות