RAG

Retrieval-Augmented Generation

הגדרה קצרה

RAG הוא טכניקה שמשלבת חיפוש מסמכים עם יצירת תשובה על ידי LLM. הוא מאפשר ל-AI לענות מתוך הידע הספציפי של העסק ולא רק מתוך הידע הכללי שעליו אומן.

הסבר מלא

RAG (Retrieval-Augmented Generation) הוא תהליך דו שלבי. שלב 1: Retrieval: כשמשתמש שואל שאלה, המערכת מחפשת במאגר המסמכים של העסק את החלקים הרלוונטיים ביותר (לרוב באמצעות חיפוש סמנטי בעזרת embeddings). שלב 2: Generation: ה-LLM מקבל את השאלה + החלקים שנמצאו, ויוצר תשובה מבוססת עליהם. למה זה חשוב? כי LLM 'גנרי' (כמו ChatGPT) לא מכיר את ה-CRM שלכם, את הנהלים הפנימיים, את ההיסטוריה של לקוח X. RAG מאפשר ל-AI לענות מתוך הידע הספציפי שלכם, מבלי להאמן אותו מחדש. זה הופך RAG לשיטה הסטנדרטית לבניית עוזרים פנימיים בארגון. הסכנה: אם ה-Retrieval מביא חלקים שגויים, גם התשובה תהיה שגויה. איכות RAG תלויה באיכות ההכנה של המסמכים.

דוגמה מהשטח

חברת ביטוח בנתה RAG על מאגר הפוליסות שלה. כל נציג שירות יכול לשאול: 'מה הכיסוי של לקוח X לאשפוז'. המערכת שולפת את הפוליסה, מנתחת אותה, ומחזירה תשובה ברורה ב-5 שניות.

ארכיטקטורת RAG: איך זה עובד

**RAG בשלבים:** (1) **Ingestion** - טוענים מסמכים (PDF, Word, אתר, בסיס נתונים). (2) **Chunking** - חלוקת מסמכים לחלקים קטנים (250-500 מילים). (3) **Embedding** - כל חלק הופך לוקטור מספרי שמייצג את המשמעות הסמנטית שלו. (4) **Vector Store** - שמירת הוקטורים במסד נתונים ייעודי (Pinecone, Weaviate, pgvector). (5) **Query** - שאלה של משתמש הופכת לוקטור, נחפשים הוקטורים הדומים ביותר. (6) **Generation** - ה-LLM מקבל שאלה + קטעים רלוונטיים, ועונה. **שלב הכי קריטי:** Chunking - חלוקה לא נכונה = איכות גרועה.

הכנת מסמכים ל-RAG: מה עובד

**מה מתאים ל-RAG:** FAQ, נהלי עבודה, מחירונים, תיאורי שירותים, חוזים (גנריים), ידע מקצועי. **מה לא מתאים:** טבלאות מורכבות (מאבדות הקשר), תמונות ללא תיאור, מסמכים עם הרבה נתונים מספריים. **הכנה נכונה:** (1) נקו את המסמכים מעיצוב מיותר. (2) פצלו נושאים לפי הגיון, לא לפי עמוד. (3) הוסיפו Metadata - שם מסמך, תאריך, קטגוריה. (4) בדקו עם שאלות אמיתיות לפני ייצור. **כלל:** Garbage in, garbage out. ב-RAG זה קריטי.

Vector Database: אפשרויות לעסקים קטנים

**Pinecone** - Managed, ממשק נוח, מחיר: 0-70$/חודש. מצוין לתחילת דרך. **Weaviate** - Open source, אפשר Self-hosted. מורכב יותר. **Qdrant** - Open source, מהיר, עולה פחות. **pgvector** - תוסף לPostgreSQL. אידיאלי אם כבר משתמשים ב-Postgres. **Chroma** - מקומי, מצוין לפרוטוטייפ. **המלצה לעסק קטן:** Pinecone Starter Plan (חינם עד 100K וקטורים) + OpenAI Embeddings. מהיר להריץ, עלות נמוכה. בסקייל - Qdrant Self-hosted.

שגיאות נפוצות ב-RAG

**1. Chunk גדול מדי.** חלק של 2,000 מילים מבלבל את ה-LLM. **2. Chunk קטן מדי.** חלק של 50 מילים חסר הקשר. המתוק: 200-500 מילים. **3. לא לבדוק Retrieval בנפרד.** לפני שמריצים Generation - בדקו שה-Retrieval מביא את החלקים הנכונים. **4. Prompt System לא מנחה לגבי 'לא יודע'.** LLM שלא קיבל מידע רלוונטי ימציא. הוסיפו: 'אם המידע שלך לא מספיק - אמור שאינך יודע'. **5. לא לעדכן את הידע.** RAG שמבוסס על מסמכים ישנים = תשובות לא עדכניות.

עלות RAG לעסק קטן

**עלות חד-פעמית:** הכנת מסמכים + Embedding: 10-25 שעות = 3,000-8,000 ₪. **עלות שוטפת:** Vector Store: 0-70$/חודש. LLM API: משתנה לפי שימוש. בינוני: 100-300 ₪/חודש. **ROI:** Agent שעונה על 100 שאלות ביום שכל אחת חוסכת 5 דקות = 8 שעות ביום = 1,600 ₪/יום. ROI תוך ימים. **כלל:** לא כל עסק צריך RAG. אם אין מסמכים פנימיים רבים ושאלות שכיחות - Agent פשוט ב-System Prompt יספיק.

RAG לעומת Fine-tuning: מה לבחור

**Fine-tuning** = 'ללמד' מחדש את ה-LLM על נתונים פנימיים. **RAG** = לחבר LLM קיים למסמכים. **מתי RAG עדיף:** ידע שמשתנה (מחירים, נהלים), כשאין תקציב לFine-tuning (עולה פי 10-100), כשצריכים Traceability - לדעת על מה מבוסס התשובה. **מתי Fine-tuning עדיף:** צריחים לשנות 'אישיות' של המודל, ביצועים על משימה ספציפית. **למסקנה:** 99% מהעסקים הקטנים שצריכים AI עם ידע פנימי - RAG הוא הפתרון. Fine-tuning הוא לגדולים עם נתונים ותקציב.

שאלות נפוצות

כמה מסמכים מינימום צריך ל-RAG?+

טכנית: אפשר עם מסמך אחד. מעשית: RAG מאפשר 20+ מסמכים שמכסים שאלות שכיחות, נהלים, ומחירים. פחות מזה - System Prompt פשוט ב-LLM עשוי להספיק.

האם ה-RAG שומר על פרטיות המסמכים?+

ב-Self-hosted: כן מלא. בשירות ענן (Pinecone + OpenAI): המסמכים נשלחים ל-API. לרוב: סטנדרטים אירופיים (GDPR) מחייבים בדיקת מדיניות. עבור מסמכים רגישים (חוזים, נתוני לקוחות) - שקלו Self-hosted.

כמה זמן לוקח לבנות RAG ראשון?+

RAG בסיסי עם Python + LangChain + Pinecone: מפתח מנוסה - יום אחד. עם n8n/Make ללא קוד: 2-4 ימים. מוצר RAG לייצור עם בדיקות ו-UI: 2-4 שבועות. מומלץ: התחילו עם POC קטן (5-10 מסמכים, 20 שאלות ניסיון) לפני השקעה גדולה.

שירותים קשורים

ai-automation

מונחים קשורים

AI Agent LLM Prompt

רוצים להפוך את התיאוריה לתוצאה בעסק?

בפגישת אבחון של 90 דקות נעבור על המספרים שלכם ונבנה תוכנית פעולה. אם אתם מעדיפים ללמוד עצמאית - האקדמיה כאן.

קביעת פגישת אבחון · 990 ₪ללמוד בקצב שלי באקדמיה