トップ «前の日記(2005-11-07 [J]) 最新 次の日記(2005-11-09 [J])» 編集

Eroge RSS Checker 運営記録

Categories | メモ | 運営 | 感想 | 記号変更 | 雑記 | 雑文 | 思案

合計: 今日: 昨日:
2005年
11月
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30

rss1.0

ここは、「Eroge RSS Checker」に関する運営の記録を書きとめておく場所です。第三者に説明する文体で書いていますが、大半は備忘録です。

  1. スクリプトを汎用化して公開する。---最終目標
  2. CSSを論理的に使う。---努力目標
  3. デザインを改善する。---努力目標
  4. 攻略の完全・不完全を出来る限り判別する。---努力目標
  5. 管理要員用のページの充実。---努力目標
  6. JANコードの入手先を探す。---躊躇中
  7. ブランドの複数登録。---大規模改修のとき
  8. 登録を簡潔にしつつ、marker登録を半自動化する。---暇なとき

2005-11-08 [J]

_ [思案] フィルターのためのアクセスカウンター

フィルターに活用するために、もっと正確に測ろうということで、考えてみます。

元々、全アクセスデータを記憶するのは無理だということで、今のサイト・ゲーム個別のアクセスカウントのみのログを記憶する、という形式にしていました。ただ、自分が恐ろしく馬鹿だったことに気付きました。アクセスがあるのは、既存のデータ54878(2005年11月8日現在)のみ、後は重複することになります。このデータごとにアクセス数をカウントするという形式なら、色々な利点があります。例えば、前述のようにレコード数を数万に収められること、対応ゲームタイトルが決定されていなくともカウントできること、処理が楽に済むことなどです。

利点は他所に置いておくとして、難点と実際の活用方法を考えてみます。

まず、ゲームタイトルごとの各データのアクセス数の占有率を計算する方法について。1日1回、全タイトル別に総アクセス数を計算して、それで各データのアクセス数を割る。ただ、問題になるのは古くからあるデータ、新規のデータで必ず差が出てしまうこと。そして、データが多いタイトルの場合、必然的に全体の占有率が落ちるということです。この問題は、全体のアクセス数・個々のアクセス数、という2つの情報からしか判断していないために起こっています。この問題を解決するためには単純な占有率のみを使うのではなく、登録日(存在日数)、総データ数を加味しないとなりません。

まずは総データ数から。これは期待値を求める(といっても5つデータがあるので0.2というように非常に単純)ことで解決します。この期待値からどれだけ離れているのかを求めるわけです。偏差値を求める方法もありますが、標準偏差を求める利点は思い浮かびません。確かにアクセス数、データ数が多い場合にはより正確な値が得られます。ただそうでない場合には、占有率から期待値を引くという単純な式を大差なくなります。現状ではそれほどの精度は必要としないので簡単なだけこちらを採用することにします。

もっとも問題になるのは登録日の扱いです。この問題を処理しないと新規登録データが全てフィルターに引っかかり非表示になります。反対に新規登録一定期間フィルターを無効にすると今度は最大多数の層(新作買い)にとってフィルターの意味が薄れます。この問題の解決策はいくつもありますがどれも決定打に欠ける所があります。1日当たりのアクセス数を求め通常のアクセス数の代わりにするという手もあります。こうすれば新規登録分は一定期間有利になり非表示になることもありません(フィルターを使わない人が大多数と仮定する)。ただ、古いデータについては非常に不利になります。長い目で見れば問題は少ないですが、1ヶ月単位の話で実用性は薄い。別の方法としては、1ヶ月ごとのアクセス数を別途記憶する方法があります。直近のアクセス数のみで比較すれば新規登録が多少有利にはなるがそれも登録月のみで影響は少ない。ただ月始めには再カウントするのでフィルターが効かないということが考えられる。月の最初の一定期間を前月の実績で表示するようにする方法もあるが、新規登録は常時非表示になってしまう。一定期間、前月と今月(比重を高める)のアクセス数を加味する方法もあるが比重の掛け方がまたしてもさじ加減となり難しい。多少、面倒ではあるがもう1つだけ方法があるにはある。サイトごとのアクセス数を活用する方法がそれです。元々、未知の新規データについて登録時点で人気の良し悪しを計ろうという事自体が不可能なことだと言える。そこで手元にあるサイトごとのアクセス数(データごとのアクセス数をサイトでグループ化して合計を求める)から割り出した順位もしくはなんらかの指数が一定以上なら、登録月に限りそれを代用するという方法です。この指数を求める方法というのがまた難問ですが、これで一定期間前月・今月(比重を高める、例えば2倍する)のアクセス数を足したものを使っても問題は少なく済みます。

(データの月アクセス数 / タイトル・分類ごとの月総アクセス - データアクセス数の期待値)

ここまでの案をまとめると以上の計算式になります。新規登録の場合は、この式を「サイトのアクセス数から導いた指数」に置き換えます。

では次に、例外を考えて見ます。

もし、タイトルごとの月総アクセスがゼロだったらどうでしょう。または、数個のデータしかなく総アクセス数が一桁で片方に偏っていた場合は。サンプル数が大きくなれば、信頼係数は上がるわけですからサンプル数(アクセス数、データ数)が少ない場合、有意な値が導かれるとは限りません。とりあえず、月総アクセス数が一桁なら全表示するのがいいのではないでしょうか。なぜならそのタイトル自体に人気がない、ということは古いタイトルであるか、データ数が元々少ないと考えられるからです。フィルターが必要なのは選択の幅がありすぎて困る時なので、この場合フィルターは必要ないだろうと思えるからです。そしてもう1つの例外について。もし、全てのデータが優良だったらどうなるのかという問題です。非常に多くのアクセス数があるのに、占有率で負けているというだけでフィルターで非表示にするのは理に適っていません。そこで、アクセス数が一定以上(例えば全アクセス数の0.5%以上など)ならフィルターを解除すべきでしょう。人気タイトルの場合無条件で解除されてしまうことも考えられるので、人によってはこの例外はない方がいいと思うかもしれません。これも難しい。

思いつく限りではこれで全ての課題は解決しました。後は、これらの処理がどれほど負荷が掛かるのか、フィルターの切り替えをどうするかといった別な問題。サイトごとのアクセス数から割り出した指数によってフィルターを有効にするというもっと強力ではあるが問題も含んでいる案。を考えないとなりますが、それはまた別の機会に。

_ [思案] リンクカウンターでコンテンツの優劣が計れるのか?

なぜそのデータにアクセスするのでしょうか。それは知らないからです。知っていたらもう一度見る必要はありません(再確認は除外)。ということは、リンクカウンターは期待を反映はするけれど、コンテンツの優劣は反映しないということになります。ではなぜ偏るのか。それは当然、そのサイトに対する好悪感情を事前に持っていて信頼もしくは嫌悪から選択するためと考えるのが自然です。ですから、タイトルごとにリンクカウンターで占有率を計っても、有名なサイト、データが多く記憶されているサイトが優位に立つだけで実際には優劣は測れないということになります。無名だが、優れたコンテンツを持ったサイトへの道を絶つだけになってしまいかねません。

ならば人気投票をしてもらう方が確実なのでしょうか。そうは思いません。人気投票は相当大規模のサイトでもあまり数は集まりません。しかも、本当に他サイトと比較をしてから投票するかといえば、そういうことはほとんどないでしょう。用は済めばそれで終わり、あったとしても満足のいくデータがあればそこで他のデータを見るのをやめてしまいます。

元々、データ単位で人気を計るというのには無理があります。サイトごとでしかもコメント付き、そのコメントの可否投票付きでもなければ本当の人気を計ることは出来ません。ただ、各サイトはそれほど人気がない場合が多く、投票もコメントも期待出来ないのは間違いありません(今の数十倍のアクセスがあればもしかしたら可能)。そこで唯一収集可能なデータとしてアクセス数があげられるというわけです。確かに、欠点はあまりあるほどあります。ただないよりはましだろうと考えるわけです。

お名前:
E-mail:
コメント: