उन फ़ाइलों को PHP में XMLReader
. के साथ पार्स किया जा सकता है एक compress.bzip2://
पर काम कर रहा है स्ट्रीम
. आपके पास मौजूद फ़ाइल की संरचना अनुकरणीय है (पहले 3000 तत्वों में देखें):
\-mediawiki (1)
|-siteinfo (1)
| |-sitename (1)
| |-base (1)
| |-generator (1)
| |-case (1)
| \-namespaces (1)
| \-namespace (40)
\-page (196)
|-title (196)
|-ns (196)
|-id (196)
|-restrictions (2)
|-revision (196)
| |-id (196)
| |-parentid (194)
| |-timestamp (196)
| |-contributor (196)
| | |-username (182)
| | |-id (182)
| | \-ip (14)
| |-comment (183)
| |-text (195)
| |-sha1 (195)
| |-model (195)
| |-format (195)
| \-minor (99)
\-redirect (5)
फ़ाइल स्वयं थोड़ी बड़ी है, इसलिए इसे संसाधित होने में काफी समय लगता है। वैकल्पिक रूप से XML डंप पर काम न करें, लेकिन केवल mysql
. के माध्यम से SQL डंप आयात करें कमांडलाइन टूल। SQL डंप साइट पर भी उपलब्ध हैं, अंग्रेज़ी विक्षनरी के लिए सभी डंप प्रारूप देखें। :
समग्र फ़ाइल 66 849,000 से अधिक तत्वों के साथ थोड़ी बड़ी थी:
\-mediawiki (1)
|-siteinfo (1)
| |-sitename (1)
| |-base (1)
| |-generator (1)
| |-case (1)
| \-namespaces (1)
| \-namespace (40)
\-page (3993913)
|-title (3993913)
|-ns (3993913)
|-id (3993913)
|-restrictions (552)
|-revision (3993913)
| |-id (3993913)
| |-parentid (3572237)
| |-timestamp (3993913)
| |-contributor (3993913)
| | |-username (3982087)
| | |-id (3982087)
| | \-ip (11824)
| |-comment (3917241)
| |-text (3993913)
| |-sha1 (3993913)
| |-model (3993913)
| |-format (3993913)
| \-minor (3384811)
|-redirect (27340)
\-DiscussionThreading (4698)
|-ThreadSubject (4698)
|-ThreadPage (4698)
|-ThreadID (4698)
|-ThreadAuthor (4698)
|-ThreadEditStatus (4698)
|-ThreadType (4698)
|-ThreadSignature (4698)
|-ThreadParent (3605)
|-ThreadAncestor (3605)
\-ThreadSummaryPage (11)