大容量のDBデータを準備する
そこそこ大きいDBデータが欲しいと言われたら
あなたはどうしますか?
今回はMySQLのWikipediaデータを使ってmysqlに突っ込んでみましょう。
xml2sqlのインストール
wikipediaで提供しているXMLフォーマットのデータをmysqlやpostgresqlにインポートできるxml2sqlというツールが用意されているので、これを利用します。
http://meta.wikimedia.org/wiki/Xml2sql
yum install expat-devel
wget http://ftp.tietew.jp/pub/wikipedia/xml2sql-0.5.tar.gz
tar zxvf xml2sql-0.5.tar.gz
cd xml2sql-0.5
./configure
make
cp xml2sql $HOME/bin/
wikipediaの全てのデータをダウンロード
wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
bzip2 -d jawiki-latest-pages-articles.xml.bz2
下記の形で展開
cat jawiki-latest-pages-articles.xml | sed -e 's/.*<\/ns>\| \| .*<\/parentid>\| \| .*<\/sha1>\| \| .*<\/model>\| \| .*<\/format>\| \| .*<\/redirect>\| //' | xml2sql
ll -h
5.8G 11月 13 01:39 2012 text.txt
139M 11月 13 01:39 2012 page.txt
189M 11月 13 01:39 2012 revision.txt
mysqlimportで展開
mysqlimport -d -L zabbio text.txt
mysqlimport -d -L zabbio page.txt
mysqlimport -d -L zabbio revision.txt