חזרה למילון
AI

RAG

Retrieval-Augmented Generation

הגדרה קצרה

RAG הוא טכניקה שמשלבת חיפוש מסמכים עם יצירת תשובה על ידי LLM. הוא מאפשר ל-AI לענות מתוך הידע הספציפי של העסק ולא רק מתוך הידע הכללי שעליו אומן.

הסבר מלא

RAG (Retrieval-Augmented Generation) הוא תהליך דו שלבי. שלב 1: Retrieval: כשמשתמש שואל שאלה, המערכת מחפשת במאגר המסמכים של העסק את החלקים הרלוונטיים ביותר (לרוב באמצעות חיפוש סמנטי בעזרת embeddings). שלב 2: Generation: ה-LLM מקבל את השאלה + החלקים שנמצאו, ויוצר תשובה מבוססת עליהם. למה זה חשוב? כי LLM 'גנרי' (כמו ChatGPT) לא מכיר את ה-CRM שלכם, את הנהלים הפנימיים, את ההיסטוריה של לקוח X. RAG מאפשר ל-AI לענות מתוך הידע הספציפי שלכם, מבלי להאמן אותו מחדש. זה הופך RAG לשיטה הסטנדרטית לבניית עוזרים פנימיים בארגון. הסכנה: אם ה-Retrieval מביא חלקים שגויים, גם התשובה תהיה שגויה. איכות RAG תלויה באיכות ההכנה של המסמכים.

דוגמה מהשטח

חברת ביטוח בנתה RAG על מאגר הפוליסות שלה. כל נציג שירות יכול לשאול: 'מה הכיסוי של לקוח X לאשפוז'. המערכת שולפת את הפוליסה, מנתחת אותה, ומחזירה תשובה ברורה ב-5 שניות.

ארכיטקטורת RAG: איך זה עובד

**RAG בשלבים:** (1) **Ingestion** - טוענים מסמכים (PDF, Word, אתר, בסיס נתונים). (2) **Chunking** - חלוקת מסמכים לחלקים קטנים (250-500 מילים). (3) **Embedding** - כל חלק הופך לוקטור מספרי שמייצג את המשמעות הסמנטית שלו. (4) **Vector Store** - שמירת הוקטורים במסד נתונים ייעודי (Pinecone, Weaviate, pgvector). (5) **Query** - שאלה של משתמש הופכת לוקטור, נחפשים הוקטורים הדומים ביותר. (6) **Generation** - ה-LLM מקבל שאלה + קטעים רלוונטיים, ועונה. **שלב הכי קריטי:** Chunking - חלוקה לא נכונה = איכות גרועה.

הכנת מסמכים ל-RAG: מה עובד

**מה מתאים ל-RAG:** FAQ, נהלי עבודה, מחירונים, תיאורי שירותים, חוזים (גנריים), ידע מקצועי. **מה לא מתאים:** טבלאות מורכבות (מאבדות הקשר), תמונות ללא תיאור, מסמכים עם הרבה נתונים מספריים. **הכנה נכונה:** (1) נקו את המסמכים מעיצוב מיותר. (2) פצלו נושאים לפי הגיון, לא לפי עמוד. (3) הוסיפו Metadata - שם מסמך, תאריך, קטגוריה. (4) בדקו עם שאלות אמיתיות לפני ייצור. **כלל:** Garbage in, garbage out. ב-RAG זה קריטי.

Vector Database: אפשרויות לעסקים קטנים

**Pinecone** - Managed, ממשק נוח, מחיר: 0-70$/חודש. מצוין לתחילת דרך. **Weaviate** - Open source, אפשר Self-hosted. מורכב יותר. **Qdrant** - Open source, מהיר, עולה פחות. **pgvector** - תוסף לPostgreSQL. אידיאלי אם כבר משתמשים ב-Postgres. **Chroma** - מקומי, מצוין לפרוטוטייפ. **המלצה לעסק קטן:** Pinecone Starter Plan (חינם עד 100K ​וקטורים) + OpenAI Embeddings. מהיר להריץ, עלות נמוכה. בסקייל - Qdrant Self-hosted.

שגיאות נפוצות ב-RAG

**1. Chunk גדול מדי.** חלק של 2,000 מילים מבלבל את ה-LLM. **2. Chunk קטן מדי.** חלק של 50 מילים חסר הקשר. המתוק: 200-500 מילים. **3. לא לבדוק Retrieval בנפרד.** לפני שמריצים Generation - בדקו שה-Retrieval מביא את החלקים הנכונים. **4. Prompt System לא מנחה לגבי 'לא יודע'.** LLM שלא קיבל מידע רלוונטי ימציא. הוסיפו: 'אם המידע שלך לא מספיק - אמור שאינך יודע'. **5. לא לעדכן את הידע.** RAG שמבוסס על מסמכים ישנים = תשובות לא עדכניות.

עלות RAG לעסק קטן

**עלות חד-פעמית:** הכנת מסמכים + Embedding: 10-25 שעות = 3,000-8,000 ₪. **עלות שוטפת:** Vector Store: 0-70$/חודש. LLM API: משתנה לפי שימוש. בינוני: 100-300 ₪/חודש. **ROI:** Agent שעונה על 100 שאלות ביום שכל אחת חוסכת 5 דקות = 8 שעות ביום = 1,600 ₪/יום. ROI תוך ימים. **כלל:** לא כל עסק צריך RAG. אם אין מסמכים פנימיים רבים ושאלות שכיחות - Agent פשוט ב-System Prompt יספיק.

RAG לעומת Fine-tuning: מה לבחור

**Fine-tuning** = 'ללמד' מחדש את ה-LLM על נתונים פנימיים. **RAG** = לחבר LLM קיים למסמכים. **מתי RAG עדיף:** ידע שמשתנה (מחירים, נהלים), כשאין תקציב לFine-tuning (עולה פי 10-100), כשצריכים Traceability - לדעת על מה מבוסס התשובה. **מתי Fine-tuning עדיף:** צריחים לשנות 'אישיות' של המודל, ביצועים על משימה ספציפית. **למסקנה:** 99% מהעסקים הקטנים שצריכים AI עם ידע פנימי - RAG הוא הפתרון. Fine-tuning הוא לגדולים עם נתונים ותקציב.

שאלות נפוצות

כמה מסמכים מינימום צריך ל-RAG?+

טכנית: אפשר עם מסמך אחד. מעשית: RAG מאפשר 20+ מסמכים שמכסים שאלות שכיחות, נהלים, ומחירים. פחות מזה - System Prompt פשוט ב-LLM עשוי להספיק.

האם ה-RAG שומר על פרטיות המסמכים?+

ב-Self-hosted: כן מלא. בשירות ענן (Pinecone + OpenAI): המסמכים נשלחים ל-API. לרוב: סטנדרטים אירופיים (GDPR) מחייבים בדיקת מדיניות. עבור מסמכים רגישים (חוזים, נתוני לקוחות) - שקלו Self-hosted.

כמה זמן לוקח לבנות RAG ראשון?+

RAG בסיסי עם Python + LangChain + Pinecone: מפתח מנוסה - יום אחד. עם n8n/Make ללא קוד: 2-4 ימים. מוצר RAG לייצור עם בדיקות ו-UI: 2-4 שבועות. מומלץ: התחילו עם POC קטן (5-10 מסמכים, 20 שאלות ניסיון) לפני השקעה גדולה.

שירותים קשורים

מונחים קשורים

רוצים להפוך את התיאוריה לתוצאה בעסק?

בפגישת אבחון של 90 דקות נעבור על המספרים שלכם ונבנה תוכנית פעולה. אם אתם מעדיפים ללמוד עצמאית - האקדמיה כאן.