· Overview  · 10 min read

סקירה - זיהוי עצמים בתמונות

זיהוי עצמים בתמונה, החל משיטות עיבוד תמונה קלאסיות ועד רשתות נוירונים עמוקות, חולל מהפכה בראייה ממוחשבת. הוא מיושם בפסי ייצור, אפליקציות יומיומיות וברפואה, ומשתלב בחומרות מגוונות – ממעבדים דלי הספק ועד שרתי ענן. ההתפתחות המהירה מייעלת תהליכים, משפרת ביצועים ונוגעת כמעט בכל תחום בחיינו.

זיהוי עצמים בתמונה, החל משיטות עיבוד תמונה קלאסיות ועד רשתות נוירונים עמוקות, חולל מהפכה בראייה ממוחשבת. הוא מיושם בפסי ייצור, אפליקציות יומיומיות וברפואה, ומשתלב בחומרות מגוונות – ממעבדים דלי הספק ועד שרתי ענן. ההתפתחות המהירה מייעלת תהליכים, משפרת ביצועים ונוגעת כמעט בכל תחום בחיינו.

ההיסטוריה של זיהוי עצמים בתמונה: מהעבר ועד העתיד

בעשורים האחרונים חלה התפתחות אדירה בעולם הבינה המלאכותית, ובפרט בתחום עיבוד התמונה וזיהוי עצמים (Object Recognition). כיום, מערכות מתקדמות מסוגלות לזהות עצמים בווידאו בזמן אמת, לאתר כשלים בפסי ייצור, לאבחן ממצאים רפואיים חריגים, ואף להתאים תוכן אינטראקטיבי למשתמשים באפליקציות יומיומיות. במאמר זה נבחן את הדרך שבה הגענו עד הלום: מהשיטות הוותיקות וה”קלאסיות” לזיהוי עצמים בתמונה – שפותחו עוד לפני עידן רשתות הנוירונים העמוקות – ועד לשיטות החדשניות המנצלות את כוח העיבוד העצום הקיים בענן ובהתקני קצה. נעמוד גם על יישומים מרכזיים בתעשייה, בשימוש יומיומי וברפואה, ונבחן כיצד הם ממומשים על גבי חומרות שונות, מהתקני דלי הספק ועד למחשבים חזקים בענן.


1. הקדמה – מאיפה הכל התחיל?

זיהוי עצמים בתמונה הוא אתגר ותיק בתחום הראייה הממוחשבת (Computer Vision). עוד לפני שהמושג “בינה מלאכותית” נעשה נפוץ, חוקרים ומתכנתים התמודדו עם שאלות בסיסיות של “כיצד לגרום למחשב להבין מה הוא רואה?” או “כיצד ניתן לבצע אוטומציה של משימות פשוטות לכאורה כמו זיהוי צורות, סמלים או אותיות?“.

את הזרעים הראשונים ניתן למצוא כבר בשנות ה-60 וה-70, עם ראשית עידן עיבוד התמונה באמצעות מחשבים (Digital Image Processing). מחשבים באותה תקופה הציגו ואיכסנו תמונות ברזולוציה נמוכה, ולכן המחקרים התמקדו בנושאים בסיסיים: סינון רעשים, טכניקות להדגשת קצוות אובייקטים, וניסיונות ראשונים בזיהוי תווים או עצמים גאומטריים פשוטים. התפיסה הרווחת הייתה שיש צורך בהגדרת כללי זיהוי ידניים ומפורשים: איך נראה קו אופקי, קו אנכי, או עיגול? איך “ללמד” את המכונה להבחין בין מצב שיש בעיגול חריגה קטנה לעומת סתם שגיאת פיקסלים?

בהמשך, החל מאמצע שנות ה-80 ועד שנות ה-90, התחום התפתח עם הגעת מעבדים חזקים יותר ועם טכניקות אלגוריתמיות מתקדמות יותר. ספריות עיבוד תמונה כמו OpenCV (שפותחה על ידי אינטל) נולדו בראשית שנות ה-2000 והציעו שפע של כלים למימוש עיבוד תמונה בצורה מודולרית ונגישה. יחד עם זאת, בכל אותה תקופה, השיטות הנפוצות נשענו על עקרונות דטרמיניסטיים יחסית, המבוססים על חישוב מאפיינים חזותיים מוגדרים מראש (Features). הדגש היה על “הנדסת מאפיינים” (Feature Engineering): איך למצוא ולחשב תכונות (כמו כיווניות של קצוות, טקסטורות או מרחקים בין נקודות) שיאפשרו למערכת לזהות עצמים באופן אמין?

השינוי הגדול התחיל להתהוות עם הופעתם של מאיצי חומרה חזקים (דוגמת GPU) ועלייה בכמות המידע הדיגיטלי הזמין לאימון מודלים. כך, הפריצה הגדולה של רשתות נוירונים עמוקות בשנים 2012-2015 הביאה מהפכה של ממש, אולם כדי להבין אותה לעומק, כדאי לבחון תחילה את השיטות הוותיקות שקדמו לה.


2. השיטות הוותיקות לזיהוי עצמים בתמונה

לפני עידן הרשתות העמוקות, היו כמה גישות עיקריות לזיהוי עצמים. רוב הגישות הללו חלקו מאפיין משותף: הן דרשו הגדרה מפורשת של מאפייני ה”עניין” או ה”חתימה” של העצם אותו רוצים לזהות.

  1. Template Matching (התאמת תבנית): בשיטה זו מגדירים תבנית קבועה של העצם (למשל, צורה גאומטרית או סמל) ומחפשים התאמה שלה בחלקים שונים של התמונה. כאשר מוצאים התאמה מספקת מבחינה סטטיסטית, מניחים שהעצם אותר. זו שיטה פשוטה להבנה ולמימוש, אך היא מוגבלת מאוד: כל סטייה בתאורה, בסיבוב, או בגדלי העצם בתמונה יכולה לפגוע ביכולת הזיהוי.

  2. מאפיינים אינטרסיים (Features) כמו SIFT, SURF, ORB וכו’: אלו אלגוריתמים הבנויים לזהות נקודות עניין בתמונה – למשל פינות או אזורים בעלי טקסטורה ייחודית – ולתאר אותן בווקטור מספרי שמתאר את האזור. לאחר שמבצעים מיפוי של נקודות העניין בשתי תמונות, אפשר להשוות ביניהן ולבדוק באיזו מידה העצם בתמונה אחת “דומה” לאותו עצם בתמונה אחרת. שיטות אלו, שפיתח בין השאר דייוויד לו (David Lowe) עם אלגוריתם ה-SIFT בשנות ה-90, נחשבו לפריצת דרך אדירה בזמנן כיוון שאפשרו עמידות גדולה יותר לשינויים בתאורה ובסיבוב בהשוואה ל-Template Matching פשוט.

  3. Haar Cascades ו-HOG (Histogram of Oriented Gradients): טכניקות שהיו נפוצות בזיהוי פרצופים או עצמים מוגדרים, וכיכבו בספריות כמו OpenCV. הרעיון הוא לחשב היסטוגרמות של כיווני גרדיאנט בתמונה (HOG) או להשתמש במסננים-תבניות מסודרים במבנה היררכי (Haar Cascade), ולאמן מסווג (Classifier) לדוגמה, עץ החלטה או SVM, כדי להבדיל בין עצם חיובי (קיים בתמונה) לעצם שלילי (אינו בתמונה).

הגישה הקלאסית בכל השיטות האלו הייתה להגדיר ידנית את אופני החילוץ של המאפיינים (Feature Extraction), ולאחר מכן להשתמש במסווג סטטיסטי פשוט יחסית. כך, במודל “Bag of Features” או “Bag of Visual Words”, למשל, היינו יוצרים “מילון” של מאפיינים ייחודיים בתמונות (בדומה למילים בטקסט), ובודקים באיזה יחס הם מופיעים בתמונה חדשה שאנו רוצים לזהות. למרות ששיטות אלו אינן מתקרבות לביצועים של רשתות נוירונים עמוקות בימינו, עדיין ישנם תחומים שבהם הן שימושיות בגלל מהירותן או פשטות ההטמעה שלהן.


3. המעבר לרשתות נוירונים ולמידה עמוקה

ההתפשטות של רשתות נוירונים מלאכותיות (Artificial Neural Networks) החלה אמנם כבר בשנות ה-80, אך לקח להן זמן להגיע להישגים משמעותיים בזיהוי תמונה. הפריצה הגדולה הגיעה ב-2012 עם זכייתו של מודל ה-AlexNet בתחרות ImageNet – מודל שהראה שיפור עצום בשיעור הדיוק בהשוואה לשיטות מסורתיות. פתאום, התחום עבר מקונספט שבו היינו צריכים להנדס ידנית את כל המאפיינים לתפיסה חדשה של “למידת מאפיינים” (Feature Learning).

בגישה העמוקה, רשתות הנוירונים לומדות באופן אוטומטי את הייצוגים הנדרשים לזיהוי עצמים, באמצעות שכבות רבות (עמוקות) של נוירונים מלאכותיים, שכל שכבה מופקדת על תפיסת רמה אחרת של אבסטרקציה בתמונה (קצוות, טקסטורות, חלקים של אובייקט, לבסוף האובייקט עצמו). הדבר הוביל לא רק לזיהוי עצמים סטטיים, אלא גם לתחומים כמו זיהוי אובייקטים בתנועה, זיהוי פעולות (Action Recognition), וגם טיפולים מיוחדים בתמונות כגון סגנון אומנותי (Style Transfer).

יחד עם זאת, במאמר זה בחרנו לשים דגש על ההיסטוריה והשיטות הוותיקות, אך חשוב להבין שהמעבר לרשתות עמוקות שינה את התחום מקצה לקצה: אחוזי הדיוק והרזולוציה שבה אפשר לזהות אובייקטים עלו בצורה דרמטית, ויישומים רבים שהיו בגדר מדע בדיוני הפכו למציאות. אפילו אפליקציות בניידים המשתמשות בזיהוי תמונה בזמן אמת (למשל, פיצ’רים של Google Lens או זיהוי אוטומטי באלבום תמונות) מתבססות היום על רשתות עמוקות מאומנות.


4. זיהוי עצמים בקווי ייצור

אחד התחומים שבהם הבשיל זיהוי תמונה בשלב מוקדם יחסית הוא תחום הבקרה האוטומטית במפעלי ייצור. כבר בשנות ה-80 וה-90 החלו להשתמש במצלמות ובמערכות עיבוד תמונה פשוטות על מנת לבדוק מוצרים על פס הייצור: לזהות פגמים, למדוד גדלים מדויקים, לוודא שהמוצר מורכב כהלכה ועוד.

היתרון במערכות כאלו הוא שבסביבה מפעלית ניתן לשלוט בתאורה, בזווית הצילום ובמיקום המדויק של האובייקטים – כך שהבעיה נעשית “קלה” יותר בהשוואה לתמונות מציאותיות משתנות (למשל, רחובות או פנים של בית). לכן, גם שיטות קלאסיות כמו Template Matching או HOG, בשילוב אלגוריתם קל לסיווג, הספיקו עבור מטלות רבות. לדוגמה, מערכת בקרה האמורה לזהות פגם באריזת מוצרים תוכל להסתפק בבדיקה האם קווי האריזה נמצאים במקום צפוי בצילום ובגודל הנכון.

בשנים האחרונות, עם הירידה המשמעותית בעלויות החומרה והעלייה בזמינות המצלמות, התחילו לשלב גם רשתות למידה עמוקה – שמאפשרות זיהוי יותר גמיש ומדויק. מערכת כזו יכולה לזהות מגוון גדול של תקלות (שריטות, חורים, הדפסות מטושטשות) בלי לדרוש כתיבת חוקים מפורטים לכל תקלה. בשילוב אוטומציה רובוטית, ניתן לנתב מוצרים פגומים היישר לבדיקה נוספת או לפסילה, ובכך לשפר את היעילות ואת איכות המוצר.


5. זיהוי תמונה לאפליקציות יומיומיות

אם בעבר זיהוי תמונה נתפס כטכנולוגיה כבדה הראויה למעבדות מחקר או מפעלים מיוחדים, הרי שכיום הוא חלק שגרתי בחיי היומיום שלנו. דוגמאות רבות עומדות לנגד עינינו:

  • אפליקציות צילום בסמארטפונים: הן יודעות לזהות פרצופים, לייצב את הפוקוס באופן אוטומטי על אנשים, ואפילו להציע אפקטים בזמן אמת כמו טשטוש הרקע. הן גם מאפשרות ארגון גלריית התמונות לפי אנשים או זיהוי חפצים וסצנות (למשל “הצג לי תמונות של כלבים”).
  • אפליקציות תרגום חזותיות: ניתן לכוון את המצלמה לעבר שלט או טקסט בשפה זרה, והאפליקציה (למשל Google Translate) תתרגם אותו ישירות על גבי המסך, תוך שימוש בזיהוי טקסט אופטי (OCR) משופר.
  • מציאות רבודה (AR): משחקים ואפליקציות AR סורקים את הסביבה, מזהים עצמים גדולים (כמו משטחים, רהיטים וכו’), ואז מטמיעים שכבות מידע נוספות. Pokémon GO, למשל, השתמש באפשרות לזיהוי מיקום יחסי בסביבה, אם כי ברמה בסיסית יחסית.

היכולת של הטלפון החכם לבצע חישובים מתקדמים כמו זיהוי עצמים התאפשרה הודות למעבדים גרפיים רבי עוצמה המשולבים בערכות השבבים של הסמארטפונים המודרניים. גם בעננים של החברות הטכנולוגיות הגדולות – למשל AWS של אמזון, Azure של מייקרוסופט ו-Google Cloud – קיימים שירותים מוכנים לזיהוי עצמים, כך שמפתחי אפליקציות קטנות יותר יכולים להיעזר בהם ללא צורך לפתח את הטכנולוגיה מאפס.


6. זיהוי תמונה ברפואה

אחד התחומים המבטיחים והחשובים ביותר בתחום ראייה ממוחשבת ולמידה עמוקה הוא הרפואה. כבר שנים רבות שקיימות מערכות לזיהוי אוטומטי של נגעים בעור (כמו מלנומה), או לזיהוי אנומליות בצילומי רנטגן וסריקות CT/MRI. בתחילת הדרך, מערכות אלו השתמשו בשיטות המסורתיות: חישוב גבולות של אזורים חשודים בתמונה, מדידת טקסטורות שונות, ועוד. אולם, בגלל הצורך ברמת דיוק גבוהה מאוד, והתלות בגורמים מורכבים (תאורה, איכות הסריקה, מבנה ייחודי של רקמות), ביצועי המערכות הללו לא תמיד סיפקו את הרופאים.

עם הופעת רשתות עמוקות, חל זינוק עצום ביכולת לנתח תמונות רפואיות. מודלים כמו U-Net או Mask R-CNN – המתמקדים במטלת הסגמנטציה (כלומר, סימון מדויק של גבולות האובייקט) – מאפשרים זיהוי מדויק בהרבה של גידולים, אנומליות בכלי דם, ואפילו מבנים מורכבים כמו רקמת מוח. כיום, מחקרים רבים מראים שבמשימות מסוימות, מערכות למידה עמוקה מגיעות לביצועים דומים ואף עולים על רדיולוגים אנושיים. כמובן, אין זה אומר שהרופאים מיותרים, אך ללא ספק מדובר בכלים עוצמתיים שיכולים לסייע באבחון מוקדם, בהפחתת משך הבדיקה ובהפחתת העומס על מערכות הבריאות.


7. מימושים חומרתיים: ממעבדים דלי הספק ועד מחשוב בענן

בעבר, אחד החסמים הגדולים של זיהוי תמונה היה כוח העיבוד הנדרש. מערכות מבוססות למידה עמוקה דורשות משאבי עיבוד משמעותיים, בעיקר במהלך שלב האימון (training). אולם, בעשור האחרון חלו התפתחויות מרשימות בתחום החומרה, אשר אפשרו לממש את אותן מערכות על גבי מגוון פלטפורמות:

  1. מעבדים דלי הספק והתקני Edge: כרטיסים ייעודיים כמו NVIDIA Jetson, Google Coral או פתרונות מבוססי FPGA, מאפשרים להריץ רשתות נוירונים בהספק חשמלי נמוך ובגודל פיזי קטן. הדבר פותח דלת ליישומים כמו מצלמות אבטחה חכמות, רחפנים, רובוטים קטנים או התקני IoT (אינטרנט של הדברים) שזקוקים לזיהוי עצמים בזמן אמת, ללא תלות בקישוריות רציפה לענן. אלו מערכות שמיועדות לבצע “Inference” (שלב החיזוי) מקומי, אך לא בהכרח לאמן רשת חדשה מאפס.

  2. מחשב מקומי (Desktop / Workstation): רבים מהחוקרים, המפתחים והמהנדסים מפעילים רשתות נוירונים על גבי מחשבים שולחניים המצוידים בכרטיסים גרפיים חזקים. פתרון זה מאפשר גמישות רבה באימון מודלים, תוך עלות נמוכה יחסית (בהשוואה לשימוש מאסיבי בענן). כמובן, כשמדובר בהיקפי נתונים עצומים (למשל, מיליוני תמונות), ייתכן שהמחשב האישי יתקשה לעמוד בעומס האימון, אך בשלב הפריסה (deployment) – כלומר, כשהמודל כבר מאומן – בהחלט ניתן לבצע זיהוי תמונה מקומי ביעילות.

  3. ענן (Cloud): כשחברה או ארגון צריכים לאמן מודלים גדולים מאוד, או כשמדובר במערכת מבוזרת עם הרבה לקוחות בו-זמנית, שימוש בשירותי ענן הוא פתרון מושלם. ספקי הענן הגדולים מציעים כיום מחשבי GPU ייעודיים, TPU (Tensor Processing Unit) של גוגל, ופתרונות סקיילינג אוטומטיים. האימון והפריסה בענן מאפשרים גמישות בצריכת המשאבים: אפשר להתחיל עם עוצמת עיבוד בינונית, ולהגדיל זמנית את החומרה רק כשמבצעים אימון מורכב. כך חוסכים בעלויות תשתית מיותרות ומתמקדים במה שחשוב באמת – פיתוח המודל ושיפורו.

עם שלושת מודלי הפריסה האלה – “Edge”, מחשוב מקומי ומחשוב בענן – נוצר אקו-סיסטם שלם שמאפשר לטכנולוגיית זיהוי תמונה לחדור לכל תחום בחיינו: מכשירי בית חכם, רכבים אוטונומיים, שירותי בריאות מרחוק, תעשיית המשחקים, רובוטים תעשייתיים ועוד.


8. סיכום ומבט קדימה

זיהוי עצמים בתמונה עבר מסע מרתק מאז שיטות ההתאמה הידניות והשימוש במסננים פשוטים, ועד לפריצה הגדולה של רשתות נוירונים עמוקות שהביאה לידי מהפכה בראייה הממוחשבת. בעבר, זיהוי תמונה היה נחלת חוקרים או מפעלים עתירי טכנולוגיה בלבד, אך כיום הוא נגיש כמעט לכל אדם המחזיק בסמארטפון ונהנה מיישומים יום-יומיים כמו צילום משופר, תרגום חזותי, ואפילו מסנני פנים ברשתות חברתיות.

מלבד היישומים הצרכניים, הטכנולוגיה הזו משמשת כיום כבסיס למערכות רפואיות מתקדמות, למערכות בקרה תעשייתיות ולתשתיות תחבורה חכמה. ההתקדמות בענן ובחומרה דלת הספק מאפשרת פרישה של מערכות זיהוי עצמים בסביבות מורכבות ותובעניות, ומצמצמת את הצורך בהובלת כמויות מידע גדולות לשרתים מרוחקים.

הסתכלות קדימה מגלה שהעתיד של התחום ימשיך לשלב בין יכולות ראייה ממוחשבת לרכיבים נוספים של בינה מלאכותית, כמו הבנת שפה טבעית והפקת תובנות על סמך מידע רב-ערוצי (סנסורים נוספים, שמע, טקסט וכדומה). מעבר לכך, אנו צפויים לראות מערכות שפועלות “מקצה לקצה” (end-to-end): החל מאיסוף המידע (תמונה, וידאו) ועד לקבלת החלטות (למשל, שינוי בהליך רפואי או עצירת פס ייצור) – הכל בצורה חכמה, יעילה ובטוחה.

אין ספק כי זיהוי עצמים בתמונה לא רק שעשה כברת דרך ארוכה, אלא שהוא ממשיך לחדש ולהתפתח במהירות. בין אם מדובר בהגברת אמינות בפסי ייצור, זירוז אבחון רפואי או שיפור החוויה הדיגיטלית שלנו ביומיום – התחום הזה צפוי להמשיך להתרחב ולהשפיע על חיינו באופן עמוק ורחב מתמיד.

Share:
Back to Blog

Related Posts

View All Posts »
סקירה - בינה מלאכותית ברפואה

סקירה - בינה מלאכותית ברפואה

בינה מלאכותית (AI) משנה מקצה לקצה את תחום הרפואה, משפרת את האבחון, מטייבת את איכות הטיפול הרפואי, ומייעלת תהליכים רפואיים ואדמיניסטרטיביים. בזכות יכולות מתקדמות כמו עיבוד שפה טבעית, למידת מכונה וראייה ממוחשבת, AI מסייעת לרופאים, מטופלים וחוקרים באופנים חדשים ומגוונים. במאמר זה נסקור את השימושים הבולטים והעדכניים ביותר של AI ברפואה וכיצד הם משפיעים על עתיד התחום.

סקירה - בינה מלאכותית ומשאבי אנוש

סקירה - בינה מלאכותית ומשאבי אנוש

בינה מלאכותית משנה את תחום משאבי האנוש תוך ייעול תהליכי גיוס, איתור כישרונות ולמידה ארגונית. במקביל לחיסכון בזמן ולשיפור הדיוק, היא תורמת לבניית מסלולי פיתוח מותאמים אישית ולהגברת מעורבות עובדים. עם זאת, הצלחה בטווח הארוך תלויה ביישום אחראי המאזן בין חדשנות לבין הגנה על פרטיות ושמירה על הוגנות.

סקירה - בקרת תהליך סטטיסטית

סקירה - בקרת תהליך סטטיסטית

כל מוצר תעשייתי שאנו רוכשים - מטלפונים סלולריים ושבבים אלקטרוניים, דרך שלגונים ודגני בוקר ועד רכיבי רכב - עובר תהליך בקרת איכות קפדני. בפוסט זה נסקור את ההתפתחות: מניירת ידנית ועד בינה מלאכותית (AI) מתקדמת שמאפשרת זיהוי אנומליות בזמן אמת, וכל זאת על רקע הצורך שלנו להפוך את הייצור התעשייתי ליעיל, חסכוני ובטוח יותר.

מקרה מבחן - שיחזור תמונות CT

מקרה מבחן - שיחזור תמונות CT

נעזרנו ב-AI כדי לפתח אלגוריתם לשחזור תמונות CT. השימוש בטכנולוגיות AI לאורך כל תהליך הפיתוח אפשר לפתח אלגוריתם חדשני, אשר מתאים באופן מדויק למערכת האיסוף, וכל זאת בזמן קצר ובניצול משאבים אופטימלי.