मैंने इस तरह के पार्सिंग पर बहुत काम किया है। क्योंकि त्रुटियां हैं, आपको 100% सटीकता नहीं मिलेगी, लेकिन कुछ चीजें हैं जो आप वहां तक पहुंचने के लिए कर सकते हैं, और फिर एक दृश्य बीएस परीक्षण करें। इसके बारे में जाने का सामान्य तरीका यहां दिया गया है। यह कोड नहीं है, क्योंकि इसे लिखना काफी अकादमिक है, इसमें कोई अजीबता नहीं है, बस बहुत सारी स्ट्रिंग हैंडलिंग है।
(अब जब आपने कुछ नमूना डेटा पोस्ट कर दिया है, तो मैंने कुछ मामूली बदलाव किए हैं)
- पिछला काम। ज़िप कोड से प्रारंभ करें, जो अंत के निकट होगा, और दो ज्ञात प्रारूपों में से एक में:XXXXX या XXXXX-XXXX। अगर यह दिखाई नहीं देता है, तो आप मान सकते हैं कि आप नीचे शहर, राज्य के हिस्से में हैं।
- ज़िप से पहले अगली चीज़ स्टेट होगी, और यह या तो दो-अक्षर के प्रारूप में होगी, या शब्दों के रूप में होगी। आप भी जानते हैं कि ये क्या होंगे -- इनमें से केवल 50 हैं। साथ ही, आप वर्तनी की त्रुटियों की भरपाई करने में सहायता के लिए शब्दों को साउंडेक्स कर सकते हैं।
- उससे पहले शहर है, और यह शायद है राज्य के समान लाइन पर। आप ज़िप-कोड डेटाबेस का उपयोग कर सकते हैं ज़िप के आधार पर शहर और राज्य की जांच करने के लिए, या कम से कम इसे बीएस डिटेक्टर के रूप में उपयोग करें।
- सड़क का पता आम तौर पर एक या दो पंक्तियों का होगा। दूसरी पंक्ति आम तौर पर सुइट संख्या होगी यदि कोई है, लेकिन यह एक पीओ बॉक्स भी हो सकता है।
- पहली या दूसरी पंक्ति पर किसी नाम का पता लगाना लगभग असंभव होगा, हालांकि अगर यह किसी संख्या के साथ उपसर्ग नहीं करता है (या यदि यह "attn:" या "ध्यान दें:" के साथ उपसर्ग करता है तो यह आपको दे सकता है यह एक संकेत है कि यह नाम है या पता पंक्ति।
मुझे आशा है कि इससे कुछ मदद मिलेगी।