
از مفاهیم دنیای هوش مصنوعی که اخیراً به شکل افراطی مورد توجه قرار گرفته، تولید بهبودیافته از طریق بازیابی (RAG)¹ است. بسیاری RAG را راهحلی جادویی برای تمام مشکلات میدانند. تا حدی که این روش تبدیل به ویروسی ذهنی شده و افراد نادانسته میخواهند همهٔ مشکلات خود را با آن حل کنند. اما آیا RAG واقعاً نوشدارویی برای تمام مشکلات ما در تعامل با مدلهای زبانی بزرگ (LLM) است؟ تجربهٔ ما در اکسپرتا نشان داده که اینطور نیست و این سیستمها برای کاربردهای خاصی طراحی شدهاند و در بسیاری از موارد، کارایی لازم را ندارند.
برای فهمیدن ماجرا، باید یک قدم به عقب برگردیم و نخست ببینیم چالش اصلی در گفتگو با مدلهای هوش مصنوعی چیست که ما را به سمت میانبرهایی مانند RAG سوق میدهد.
چالش اصلی: محدودیت پنجره ورودی (Context Window)
مشکل اساسی این است که ما با حجم عظیمی از اسناد و دادهها روبرو هستیم و پردازش همزمان تمام این اطلاعات برای مدلهای هوش مصنوعی امکانپذیر نیست. هر مدل زبانی دارای یک «پنجره ورودی»² است که تعیین میکند چه مقدار اطلاعات را میتواند در یک لحظه پردازش کند. اگرچه مدلهای جدیدتر مانند مدلهای گوگل توانایی پردازش حجم بالایی از اطلاعات، معادل هزاران صفحه کتاب را دارند، اما ارسال این حجم از داده در هر بار پرسش و پاسخ، هزینههای پردازشی بسیار بالای دارد و همچنان به صرفه نیست.
این محدودیت در حجم ورودی، همه را به سمت راهکارهای ثانویه برای مدیریت و بهینهسازی دادههای ورودی هدایت کرده است. در ادامه، سه رویکرد اصلی برای حل این چالش را بررسی میکنیم.
۱. تولید بهبودیافته از طریق بازیابی (RAG): تمرکز بر جزئیات مرتبط
همانطور که پیشتر اشاره شد، RAG یکی از محبوبترین روشهاست. در این سیستم، به جای ارسال کل محتوا به مدل، تنها بخشهای مرتبط با سوال کاربر انتخاب و ارسال میشوند. این فرآیند در چند مرحله انجام میشود:
ابتدا، متن اصلی به قطعات کوچکتر یا اصطلاحاً چانک (Chunk)³ تقسیم میشود. سپس، این چانکها برچسبگذاری میشوند. این برچسبگذاری معمولاً از طریق فرآیندی به نام امبدینگ (Embedding)⁴ صورت میگیرد که در آن، هر چانک به یک بردار ریاضی (مجموعهای از اعداد) تبدیل میشود. این بردارها، معنا و مفهوم هر قطعه از متن را در خود جای دادهاند.
هنگامی که کاربر سوالی میپرسد، سوال او نیز به یک بردار ریاضی تبدیل میشود. سپس سیستم، بردارهایی از چانکها را که بیشترین شباهت ریاضی را با بردار سوال کاربر دارند، پیدا میکند. در نهایت، این چانکهای دستچینشده به همراه سوال کاربر به هوش مصنوعی داده میشود تا بر اساس آنها، پاسخی دقیق و مرتبط تولید کند.
مزایا:
-
کاهش هزینهها: با ارسال بخش کوچکی از دادهها، هزینههای پردازشی به شدت کاهش مییابد.
-
افزایش دقت: تمرکز بر روی اطلاعات مرتبط، به تولید پاسخهای دقیقتر کمک میکند.
معایب:
-
عدم درک کلیت مطلب: این روش بر اساس روح کلی حاکم بر محتوا پاسخ نمیدهد و ممکن است درک جامعی از یک کتاب یا یک روش پیچیده ارائه ندهد.
-
وابستگی به کیفیت بازیابی: اگر فرآیند بازیابی اطلاعات مرتبط به درستی انجام نشود، کیفیت پاسخ نهایی به شدت افت میکند.
۲. خلاصهسازی و عصارهگیری: کلیات مهمتر از جزئیات
رویکرد دوم، تمرکز بر کلیات به جای جزئیات است. در این روش، به جای ارسال تکههایی از متن، یک خلاصه یا عصاره از کل محتوا تهیه میشود. برای مثال، یک کتاب ۵۰۰ صفحهای که حول یک ایده یا الگوی خاص میچرخد، میتواند به یک خلاصه ۳۰ صفحهای فشرده شود. سپس این نسخه فشرده به هوش مصنوعی ارسال میشود تا آن را پردازش کرده و بر اساس آن پاسخ دهد.
این روش اجازه میدهد تا محتوای بسیار بزرگی را که در حالت عادی در پنجره زمینه هوش مصنوعی جای نمیگیرد، به شکلی بهینه به آن منتقل کنیم. کیفیت دستورالعمل یا پرامپتی (Prompt) که برای هوش مصنوعی مینویسیم نیز در این روش اهمیت بالایی دارد.
مزایا:
-
حفظ مفهوم کلی: برخلاف RAG، این روش به هوش مصنوعی اجازه میدهد تا درک بهتری از کلیت و روح مطلب داشته باشد.
-
هزینه معقول: هزینه پردازش یک خلاصه فشرده، بسیار کمتر از پردازش کل محتواست.
معایب:
-
از دست رفتن جزئیات: در فرآیند خلاصهسازی، ممکن است جزئیات مهمی از قلم بیفتند.
-
نیاز به مرحله پیشپردازش: تهیه یک خلاصه باکیفیت، خود نیازمند زمان و احتمالاً ابزارهای دیگری است. مثلا میشود یک دور کل کتاب را برای سرویس هوش مصنوعی فرستاد و پس از آن از عصارهٔ آن استفاده کرد.
۳. استفاده از تمام ظرفیت: وقتی هزینه مهم نیست
راه سوم، استفاده از مدلهای پیشرفته با حجم ورودیهای بسیار بزرگ است. مدلهای امروزی، مانند مدلهای ارائه شده توسط گوگل، قادر به پردازش یکجای دو تا سه هزار صفحه کتاب هستند. این قابلیت، امکان تحلیل یکپارچه و عمیق محتوا را فراهم میکند.
این رویکرد برای کارهایی که نیاز به خروجی یکپارچه دارند و به صورت روتین و مداوم تکرار نمیشوند (مانند تحلیل یک گزارش جامع سالانه)، بسیار مناسب است. اگرچه این روش هزینه و زمان پردازش بیشتری میطلبد، اما در مواردی که دقت و جامعیت در اولویت قرار دارد، بهترین گزینه است.
مزایا:
-
درک کامل و یکپارچه: مدل به تمام اطلاعات دسترسی دارد و میتواند روابط پیچیده بین بخشهای مختلف متن را درک کند.
-
عدم نیاز به پیشپردازش: نیازی به فرآیندهای پیچیدهای مانند چانکبندی یا خلاصهسازی نیست.
معایب:
-
هزینه بسیار بالا: پردازش حجم عظیم داده به صورت یکجا، بسیار گران است.
-
زمان پردازش طولانی: این روش نسبت به دو روش دیگر، زمان بیشتری برای تولید پاسخ نیاز دارد.
جمعبندی
مشکل اصلی ما در تعامل با هوش مصنوعی برای پردازش حجم بالای اسناد، محدودیت «پنجره ورودی» و هزینههای مرتبط با آن است. برای حل این مشکل، سه راهکار اصلی به مرور زمان شکل گرفتهاند:
-
RAG: رویکردی گزینشی که با انتخاب و ارسال تکههای مرتبط متن، هزینهها را کاهش داده و بر دقت در جزئیات تمرکز میکند.
-
خلاصهسازی: روشی که با عصارهگیری از کل متن و حذف جزئیات، به درک کلیت مطلب با هزینه معقول کمک میکند.
-
استفاده از کل پنجره زمینه: راهحلی گرانقیمت اما جامع که با ارسال یکجای تمام محتوا، درک عمیق و یکپارچهای را ممکن میسازد.
انتخاب هر یک از این روشها به نیاز خاص، بودجه و اولویتهای شما بستگی دارد. RAG ابزار قدرتمندی است، اما نه برای همه مشکلات. درک صحیح چالشها و شناخت راهحلهای مختلف، پیشنیاز استفاده از ابزارهای مختلف هوش مصنوعی است.
¹ تولید افزوده بازیابی (Retrieval-Augmented Generation – RAG): تکنیکی در هوش مصنوعی است که مدلهای زبانی بزرگ را با یک سیستم بازیابی اطلاعات خارجی ترکیب میکند. این روش به مدل اجازه میدهد تا قبل از تولید پاسخ، به اطلاعات بهروز و مشخصی دسترسی پیدا کرده و پاسخهای خود را بر اساس آن منابع ارائه دهد.
² پنجره زمینه (Context Window): به حداکثر میزان متنی (که با توکن اندازهگیری میشود) گفته میشود که یک مدل هوش مصنوعی میتواند در یک لحظه به عنوان ورودی دریافت و پردازش کند. این پنجره مانند حافظه کوتاهمدت مدل عمل میکند.
³ چانک (Chunk): در پردازش زبان طبیعی، به فرآیند تقسیم یک متن طولانی به قطعات کوچکتر و معنادار گفته میشود. این قطعات میتوانند پاراگراف، جمله یا بخشهایی با اندازه ثابت باشند.
⁴ امبدینگ (Embedding): در یادگیری ماشین، امبدینگ به معنای تبدیل ورودیهایی مانند کلمات یا جملات به بردارهای عددی در یک فضای چندبعدی است. در این فضا، کلماتی که از نظر معنایی به هم نزدیک هستند، بردارهای نزدیکتری به یکدیگر دارند.

