2017年3月12日日曜日

Wikipediaのダンプファイルをインポートする(挫折)

・ここからダンプをダウンロード。
・ALZipだと大きいほうのファイルが解凍できなかった。7zipで解凍。
・解凍すると10GBのXMLファイルが!・・・
・なぜかサクラエディタでもバイナリエディタでも開けない・・・Baretailだと開けた。
・文字コードはUTF-8
・このページを参考にMediaWikiのインストールをする。
・だいたいあってるけどUbuntuの場合、以下を参考にいくつか追加インストール必要。
・あっというまに稼働するWikiができてびびる。
・importDump.phpを実行。めっちゃ時間かかってるみたいだけどこれ終わるのかよ
100 (3.47 pages/sec 3.47 revs/sec)
200 (3.92 pages/sec 3.92 revs/sec)
300 (3.26 pages/sec 3.26 revs/sec)
400 (3.57 pages/sec 3.57 revs/sec)
500 (3.89 pages/sec 3.89 revs/sec)
600 (3.95 pages/sec 3.95 revs/sec)
700 (4.14 pages/sec 4.14 revs/sec)
800 (4.06 pages/sec 4.06 revs/sec)
900 (4.06 pages/sec 4.06 revs/sec)
1000 (4.12 pages/sec 4.12 revs/sec)
・1051782(日本語版全記事数)÷4.12=255286秒=70時間(絶望)
・インポート中でもWiki内容は表示できる。
・CPUがボトルネックになっているっぽい。VMでやるべきではなかったか・・・
・誠に遺憾ながらだんだん遅くなっていく。
40700 (2.06 pages/sec 2.06 revs/sec)
40800 (2.06 pages/sec 2.06 revs/sec)
40900 (2.06 pages/sec 2.06 revs/sec)
41000 (2.06 pages/sec 2.06 revs/sec)
41100 (2.06 pages/sec 2.06 revs/sec)
41200 (2.06 pages/sec 2.06 revs/sec)
41300 (2.05 pages/sec 2.05 revs/sec)
41400 (2.06 pages/sec 2.06 revs/sec)
41500 (2.06 pages/sec 2.06 revs/sec)
41600 (2.06 pages/sec 2.06 revs/sec)
・50000件くらいであきらめた・・・でもランダム表示させるだけで楽しい

・何に使うかまだ考えてない