FLEX、PHP、その他もろもろでランキングチェックツールを構築したわけですが、
最近やっと安定稼働になったので、そこらへんのメモ。
サービスの規模
・現在のワード数:1500前後
→通常のツールと違って、全SERPSを取得してさらにキャプチャも取得するので、
google,yahooへのアクセス回数は大体普通のツールの7-8倍。
(なのでGRCとかフェレットとかでいったら12000キーワードくらいまわしてる計算)
・URLのチェック件数:1600前後
→同時に競合調査とかもできるようになっているので、ワード数よりちょっと多い。
この規模感です。大きいような小さいような。
まだ稼働して1カ月で個の規模は大きいというべきか。。。
ハードウェア的には
VPS4台という笑えない状況w
大体400ワードを1VPSで裁いてる感じです。。
HDD的には
キャプチャ含めて1日分のSerpsは大体3GB↑
1か月分保存するだけで、100GB近くになる。
HDDはいくらあっても足りない状況。
現在は前月分以外はtar.gzにしてローカル保存。
スクリーンショットとかの関係で、
DBに入れず全部ファイルにしてたのがあだになったかも。。
CPU的には
余裕すぎ。というかほぼ回線とHDDのためにVPSを分散させてる状況。
回線的には
1ワード10件表示で、100位までをGとYでやるので、20アクセス。
それが1500ワードなので、3万アクセス
それを4台で賄っているので、1台あたり7500アクセス。
こんなの普通にG,YにアクセスしたらDOS攻撃になっちゃうので、
それを24時間で分散してアクセスしてます。
ちなみに最低7.5秒は感覚あけないと、Googleはすぐに弾いてきますので、
24*60*60 / 7.5 = 11520ってことで、
MAX1万ちょっとくらいしか1サーバ(てかIPかな)からはアクセスできない感じです。
Yahooはたぶんそこまでチェックはしていなっぽいです。
その他
・なぜかVPS経由のIE8相当のアクセスだと、
ロケーション取得が日によってかなりばらつきがあって、
ある日は渋谷、ある日は目黒、ある日は愛媛、ある日は鹿児島
みたいな感じで、ばっらばらになります。
・HDDが一杯になると、VNCがつながるけど、画面が真っ黒なままなんだと初めて知りました。
・改めてランキングチェックツールの大変さがよくわかりました。。。
・とりあえず普通のランキングツールと違って全Serpsが手元にあるので、
分析し放題なのだけはメリットなのかな。