यदि आप खरोंच से स्वयं ऐसा कुछ बनाना चाहते हैं, तो आप TF/IDF नामक किसी चीज़ का उपयोग करेंगे:टर्म फ़्रिक्वेंसी/इनवर्स दस्तावेज़ आवृत्ति। इसका मतलब है कि, इसे बहुत सरल बनाने के लिए, आप क्वेरी में ऐसे शब्द ढूंढते हैं जो समग्र रूप से असामान्य हैं और उन शब्दों वाले दस्तावेज़ ढूंढते हैं।
दूसरे शब्दों में, यदि कोई व्यक्ति "मैं एक हाथी खरीदना चाहता हूं" शब्दों के साथ एक प्रश्न दर्ज करता है, तो प्रश्न में शब्दों में, "हाथी" शब्द शायद आपके कॉर्पस में सबसे कम सामान्य शब्द है। "खरीदें" शायद अगला है। तो आप दस्तावेज़ों को रैंक करते हैं (आपके मामले में, पिछले प्रश्न) उनमें "हाथी" शब्द कितना है और फिर उनमें "खरीदें" शब्द कितना है। शब्द "I", "to" और "a" शायद स्टॉप-लिस्ट में हैं, इसलिए आप उन्हें पूरी तरह से अनदेखा कर देते हैं। आप प्रत्येक दस्तावेज़ (आपके मामले में पिछली क्वेरी) को कितने मिलते-जुलते शब्दों के आधार पर रैंक करते हैं (व्युत्क्रम दस्तावेज़ आवृत्ति के अनुसार भार - यानी असामान्य शब्दों के लिए उच्च वजन) और शीर्ष कुछ दिखाते हैं।
मैंने अधिक सरलीकृत किया है, और आपको इसे सही करने के लिए इस पर पढ़ना होगा, लेकिन यह वास्तव में सरल तरीके से लागू करने के लिए बहुत जटिल नहीं है। विकिपीडिया पृष्ठ शुरू करने के लिए एक अच्छी जगह हो सकती है:
http://en.wikipedia.org/wiki/Tf%E2%80 %93idf