आप जिस बारे में बात कर रहे हैं वह एक टेक्स्ट क्लस्टरिंग प्रक्रिया है। आप पाठ के समान टुकड़े खोजने की कोशिश कर रहे हैं, और मनमाने ढंग से उनमें से एक को चुन रहे हैं। मैं ऐसे किसी भी डेटाबेस से परिचित नहीं हूँ जो टेक्स्ट माइनिंग के इस रूप को करता है।
आप जो वर्णन करते हैं, उसके लिए एक बहुत ही बुनियादी पाठ खनन तकनीक शायद काम करेगी। उपयोगकर्ता नाम को छोड़कर सभी शब्दों के साथ एक टर्म-डॉक्यूमेंट मैट्रिक्स बनाएं। फिर सबसे बड़ा एकवचन मूल्य और वेक्टर प्राप्त करने के लिए एकवचन मूल्य अपघटन का उपयोग करें (यह सहसंबंध मैट्रिक्स का पहला प्रमुख घटक है)। इसी तरह की गतिविधियों को इस लाइन के साथ क्लस्टर करना चाहिए।
यदि आपके पास एक सीमित शब्दावली है और एक तालिका में शब्द हैं, तो आप दो क्रियाओं के बीच की दूरी को ओवरलैप करने वाले शब्दों के अनुपात से माप सकते हैं। क्या आपके पास क्रियाओं के सभी शब्दों की सूची है?