大容量のDBデータを準備する

そこそこ大きいDBデータが欲しいと言われたら
あなたはどうしますか?

今回はMySQLWikipediaデータを使ってmysqlに突っ込んでみましょう。

xml2sqlのインストール

wikipediaで提供しているXMLフォーマットのデータをmysqlpostgresqlにインポートできるxml2sqlというツールが用意されているので、これを利用します。

http://meta.wikimedia.org/wiki/Xml2sql


yum install expat-devel
wget http://ftp.tietew.jp/pub/wikipedia/xml2sql-0.5.tar.gz
tar zxvf xml2sql-0.5.tar.gz
cd xml2sql-0.5
./configure
make
cp xml2sql $HOME/bin/

wikipediaの全てのデータをダウンロード


wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
bzip2 -d jawiki-latest-pages-articles.xml.bz2

下記の形で展開


cat jawiki-latest-pages-articles.xml | sed -e 's/.*<\/ns>\|\|.*<\/parentid>\|\|.*<\/sha1>\|\|.*<\/model>\|\|.*<\/format>\|\|.*<\/redirect>\|//' | xml2sql


ll -h
5.8G 11月 13 01:39 2012 text.txt
139M 11月 13 01:39 2012 page.txt
189M 11月 13 01:39 2012 revision.txt

mysqlimportで展開


mysqlimport -d -L zabbio text.txt
mysqlimport -d -L zabbio page.txt
mysqlimport -d -L zabbio revision.txt