מתודולוגיה ומדדים · התורה

צינור העיבוד

חמישה שלבים, כולם רצים מקומית על מחשב נייד. בלי שירותי ענן, בלי תרגום לאנגלית.

חלוקה לפרשיותפיצול נוסח התורה לפי סימני {פ} ו־{ס} — חלוקת הפרשיות הפתוחות והסתומות המסורתית. כך מתקבלות 667 יחידות, מבראשית ועד דברים. לא פסוקים (קצרים מדי) ולא פרקים (חלוקה מאוחרת) — אלא היחידה שהטקסט עצמו נושא.
טביעת־משמעות (embedding)כל פרשייה מתורגמת לרשימת מספרים שמייצגת את משמעותה, בעזרת NeoDictaBERT — מקודד עברי של דיקטה, 768 ממדים. פרשייה ארוכה נקראת בחלקים על גבולות פסוקים ומאוחדת; שום טקסט אינו נקטע.
הקרנה לתלת־ממד (UMAP)רשימת המספרים הארוכה מכווצת לשלושה ממדים כדי שאפשר יהיה להציגה כנקודה. זה המיקום שעל המפה — לתצוגה בלבד.
קיבוץ לאשכולות (KMeans)הפרשיות מקובצות לפי הדמיון ביניהן — על סמך טביעת־המשמעות המלאה, לא המיקום המכווץ. הכלל: לקבץ במקום שבו המשמעות חיה, להציג במקום שבו העין עובדת.
מתן שמות (DictaLM 3.0)לכל פרשייה כותרת ולכל אשכול שם — בעברית, על ידי מודל שפה עברי של דיקטה (12B), מקומי. ללא תרגום.

שלוש עדשות התאומים

לחיצה על פרשייה חושפת את התאומים שלה. כל עדשה אינה מודדת דמיון גולמי אלא כיול לרקע: בכמה סטיות תקן הצמד חורג מעל הדמיון הרגיל של אותה פרשייה לשאר התורה (ברוח arXiv:2506.24117). כך ה"במיוחד" אמיתי — וגם חסין לאניזוטרופיה (ראו למטה).

תוכן

מדברות על אותו דבר?

השוואת שתי הפרשיות כמקשה אחת.

מוטיבים

חולקות אותן תמונות ומילים?

התאמה בין קבוצות הפסוקים, בלי תלות בסדר. (מרחק־הסעה / Earth-Mover.)

מבנה

בנויות באותו אופן?

יישור שרשרת הפסוקים לפי הסדר — ומאתר גם מבנה־ראי (כיאסטי). (Smith-Waterman.)

שלושה שיפורים מדידים

שלושה שדרוגים, כל אחד נמדד ולא הונח. ההשראה: קריאת המאמר "The Anisotropy Problem".

שיפור א׳ · גאומטריה

ניקוי אניזוטרופיה בשכבת האשכולות

הטמעות של מקודדי טקסט נדחסות לחרוט צר — כולן מצביעות בערך לאותו כיוון. והכיוון השליט, אצל הפרשיות שלנו, לא היה הנושא אלא האורך. זה דלף לאשכולות: אשכול שלם היה "סל לפרשיות ארוכות", שהצמיד את חלומות יוסף לנבואת בלעם רק משום ששתיהן ארוכות.

ρ ≈ 0.74

מתאם הציר הראשי עם אורך הפרשייה

0.42 → 0.25

בלבול האורך (η²) לפני ואחרי הניקוי

הפתרון: all-but-the-top (Mu & Viswanath, 2018) — מקרינים החוצה את שלושת הצירים העליונים שכל הפרשיות חולקות, ומשאירים את מה שמייחד כל פרשייה. מספר הצירים (k=3) נבחר בסריקה. הניקוי נוגע רק בפריסה ובאשכולות — חיפוש התאומים נשאר על ההטמעות הגולמיות, כי הכיול־לרקע שלו כבר מנטרל את החרוט בדרכו שלו.

שיפור ב׳ · מקודד

מקודד עברי מותאם לעדשות הפסוק

עדשות המוטיבים והמבנה תלויות במרחקים עדינים בין פסוקים. השווינו מקודדים מול שתי רשימות־זהב — הקבלות סיפוריות ושיריות (T'OMIM) והקבלות חוקיות/גנאלוגיות בתורה (UBS):

מדד ההפרדה (Wasserstein) בין דמיון של הקבלות אמיתיות לבין צמדים אקראיים — גבוה יותר = הבחנה חדה יותר. העמודה האחרונה: כמה מ־46 הקבלות התורה המוכרות עלו ב־500 המובילות.
מקודד	סיפור	שירה	הקבלות התורה
NeoDictaBERT (בסיס)	0.53	0.17	34/46
MiqraBERT	0.61	0.08 ⚠	22/46
neodicta-bh-verse (שלנו)	0.71	0.45	34/46

המקודד המותאם מנצח בשני הז'אנרים ואינו נסוג בהקבלות החוקיות שהבסיס כבר היה טוב בהן. MiqraBERT נפסל — הוא משתפר בסיפור אך קורס בשירה. התוצאה במפה: תאומי מוטיבים 1315→2125, תאומי מבנה 1118→1573.

גבול שהצבנו לעצמנו: המקודד המותאם הוא למפה בלבד — הוא אומן על הטקסט המקראי, ולכן אסור שיזין את מחקר ביקורת־המקורות הנפרד (זו תהיה "אימון על המבחן").

שיפור ג׳ · ארגון

היררכיית נושאים דו־שכבתית

כמה נושאים יש בתורה? אין תשובה נכונה — מרחב ההטמעות הוא רצף, וכל k שנבחר שרירותי במקצת. לכן שתי שכבות: תצוגה מפורטת של 18 אשכולות, ותצוגת־על שממזגת אותם ל7 נושאי־על, עם כפתור מעבר ביניהן. ה־7 צפו נקיים:

חוקים ומצוות
בניית המשכן והכוהנים
עונשין ודיני נפשות
בראשית: סיפורי אבות ואימהות
ברכות וקללות
קרבנות ומצוות חגים
טהרה וטומאה

סיפורי בראשית נפרדים בבירור מן השכבה הכוהנית־חוקית — בדיוק המבט־על שהיררכיה אמורה לתת.

מדדים והערכה

השיטה נבדקה מול רשימות הקבלות מקובלות — לא מול תחושת בטן.

UBS Parallel Passages — צמדים בין־ספריים בתורה (חוקי/גנאלוגי). מדידת זיהוי@K בדמיון גולמי מול כיול־לרקע.

T'OMIM

רשימת־זהב להקבלות נרטיביות ושיריות (דברי־הימים מול שמואל־מלכים). מדד הפרדה בין הקבלות לצמדים אקראיים.

כל המספרים מחושבים מן הסקריפטים בקוד, מול אותן רשימות־זהב — לא הוגדרו ידנית.

מגבלות וכנות

האשכולות הם נושאיים וז'אנריים שצפו מעצמם — לא טענה על מקורות או מחברים. המפה מקבצת פרשיות שנקראות דומה. זו תופעה אמיתית ושימושית, אך אינה השערת התעודות ואינה מתחזה לה. (יש מחקר נפרד לכך.)
דמיון גבוה אינו הוכחה להקבלה מכוונת. הצמדים והמספרים מחושבים, אך הפרשנות בסיור היא הצעת קריאה — לא קביעה.
מיקומי ה־UMAP הם לתצוגה בלבד. זהות האשכול באה מן המרחב המלא (768 ממדים), לא מן הנקודה המכווצת.
שמות האשכולות נוצרו על ידי מודל שפה (DictaLM 3.0) ונשמרו במטמון — שימושיים, אך לא מילון רשמי.
שיפור התאומים מבוסס על הכללה מדברי־הימים/שמואל־מלכים אל הרמיזה הפנים־תורתית; רשימת־הזהב התורה מאשרת היעדר נסיגה, לא שיפור, בהקבלות החוקיות.