トップ «前の日記(2005-04-22 [J]) 最新 次の日記(2005-04-24 [J])» 編集

Eroge RSS Checker 運営記録

Categories | メモ | 運営 | 感想 | 記号変更 | 雑記 | 雑文 | 思案

合計: 今日: 昨日:
2005年
4月
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30

rss1.0

ここは、「Eroge RSS Checker」に関する運営の記録を書きとめておく場所です。第三者に説明する文体で書いていますが、大半は備忘録です。

  1. スクリプトを汎用化して公開する。---最終目標
  2. CSSを論理的に使う。---努力目標
  3. デザインを改善する。---努力目標
  4. 攻略の完全・不完全を出来る限り判別する。---努力目標
  5. 管理要員用のページの充実。---努力目標
  6. JANコードの入手先を探す。---躊躇中
  7. ブランドの複数登録。---大規模改修のとき
  8. 登録を簡潔にしつつ、marker登録を半自動化する。---暇なとき

2005-04-23 [J]

_ [雑記] 並べ方を変えてみた

「eroge2.php」で、分類、登録日の二つをキーにして並べ替えてみた。前は諸般の事情により並べ替えできなかったら放置していたが、さてどういう並べ方がいいだろうか?分類ごとに見やすく分離するか?その後の並べ替えはどうしよう、OUTランキングをこの並べ方に活用するのも手かもしれない、上にあるほど人気なサイトとだと認知されればそれなりの効果が期待できるかも。

_ [雑記] OUTランキングの出し方

OUTランキング = (総アクセス数÷特定サイトへのアクセス数)÷(総データ数÷特定サイトのデータ数)

もっとも単純な出し方は上の通りだろうが、これでは正しい順位が出るとは思えない。そこで、下のような方法を考えた。

ERC登録サイトの場合

OUTランキング = アクセス数÷(各(タイトルのERC登録データ数に対する1を基準にした偏差値まがい÷登録データタイトルの人気度に対する1を基準にした偏差値まがい)の総和)÷((ERC登録サイトアクセス数÷ERC登録サイトデータ数)÷(非ERC登録サイトアクセス数÷非ERC登録サイトデータ数))

簡単に書くと。

OUTランキング = アクセス数÷(データごとのクリックのされ易さ×登録データ数)÷ERCに登録されている有利を補正

(非ERC登録サイトの場合は最後の「÷」を「×」に変更)

「データごとのクリックのされ易さ」はESのコメントなどのデータ数と発売日を元に出す。偏差値まがいは50を基点とせず1を基点として+-は50で割る(偏差値30なら、0.60)。大体これでいい気がする。(+-を50で割るという時の50はマジックナンバーになってしまっているから(実質的には5ですけど)・・・素で標準偏差÷(データ数または人気度 - その平均値)がいいかも。ただ、表示数に大きな開きがあるから何倍かしたい。というかその前に正規分布なんだろうか・・?)

(何度も書き直しました。途中のみた人は忘れてください。)

_ [雑記] OUTランキングに実装前

実際どうなるか色々調べてみたが、ESからPOVコメント数を取得してもほぼこちらのデータ数と比例しているので思うように効果は得られないようだ。やはりここは、タイトルごとのカウント数を把握しそれを活用する必要があるようだ。訪問者がどこかのサイトへのリンクをクリックした場合、そのサイトのIDとデータに割り当てられているIDに共に加算していき統計を取る事が出来れば、クリックされやすいサイトとタイトルが分かり処理しやすい。セットで、毎日または毎月ログを保存出来ればそれはそれで良いのだが、莫大な数になるのでやめておく。

ということで、ほぼ固まった、後はやってみるだけ。

(タイトルのERC登録データ数に対する1を基準にした偏差値まがいの数値は、データ数、アクセス数、発売日から毎週計算する予定)

本日のツッコミ(全8件) [ツッコミを入れる]
_ Fool (2005-04-24 [J] 02:35)

たまに覗いてみるといつも面白い企画が動いていますね。<br><br>ただ、ざっと読んだところではいくつか疑問があります。<br>・特定サイトの登録全体の中から任意の一部を取り出して集計した場合は必ずランキング数値は下がる(言い換えればどんな登録であってもOUTランキングを下げることはない)<br>が実現しないとそれは有効な値でないと思うのですが、現在の式で可能でしょうか。<br><br>例えば古いタイトルが1つ入ると、全体の来訪者にとっての影響は殆どないにも関わらず、式内の割る側の数値が1前後増えます。つまりは単純に新しいタイトルのみを扱うサイトほどランキング数値が大きくなります。<br><br>>表示数に大きな開きがあるから何倍かしたい<br>という部分がその問題についてでしょうか。

_ Fool (2005-04-24 [J] 02:49)

もしかすると、登録数に拠らない数値を吐く式を作ろうとしているのでしょうか。だとすると上の私の発言はかなり見当違いですね。無視してください。<br><br>ただ、登録数に依存しないサイトの人気を比較するためのものなら、登録タイトルごとに偏差値を出して、偏差値の相加平均を取る方がよくないでしょうか。<br>これなら単独タイトル追加ではあまり動かず、複数サイトがかぶった時の人気が高ければ上がり低ければ下がりますし、タイトルにも登録数にも依存しません。全体の計算量も減るように思います。

_ Fool (2005-04-24 [J] 03:08)

↑のは受験科目や試験の満点が違う各人の学力を比較できるような数値化(学力的な意味での人気を計るのが目的)と捉えての考えです。<br>理解が正しいかどうかはちょっと自信がありませんが……。

_ 管理人 (2005-04-24 [J] 03:11)

返事を書いている途中に新しい書き込みが・・・とまず反応してみます。

_ 管理人 (2005-04-24 [J] 03:25)

正直な話、何を書かれているのか、無学者には分かりません。<br>ただ、なんとなく上の式と同じ意識の元でいわれているのではないでしょうか?<br><br>前述の式は、上で指摘してもらっているように、タイトルの人気、登録データ数、ERCに登録していることでのメリットを補正することを目的としたものです。正しいかどうかは、やってみないとなんともいえません。<br><br>つづく・・・

_ 管理人 (2005-04-24 [J] 03:41)

登録タイトルごとに偏差値を出す事が出来ないという前提(そういうデータの入手先が思い浮かばなかった)で書いた式ですが、擬似的にそれをやろうとしていたんです。<br>で、今はタイトルごとのクリック数を把握する手段を得ました。これで偏差値まがいは出せます。これは「登録データタイトルの人気度に対する1を基準にした偏差値まがい」とほぼイコールで、これだけでもなかなか良い式が出ます。<br>ただ、データ数が多いタイトル中から選ばれた事、少ないけれど特定のサイトのみがクリックされているなど色々な状況に対応できていないように思うのです。<br>素のアクセス数などいくつかのパターンを用意するつもりなので、今は人気のみを抽出できる式はないかと思って複雑になってしまいました。<br><br>プロトタイプなので、適応してみないと分かりませんし、一定のカウントがなければ無意味なので溜まったら試行錯誤してみます。<br>いまいち何が言いたいのか分からない文章になってしまいましたが、改善策は唸りながら考慮させてもらいます。<br><br><br>後。<br>>複数サイトがかぶった時の人気が高ければ上がり低ければ下がりますし、タイトルにも登録数にも依存しません。<br>この部分が何故なのか、よく分かりません。

_ Fool (2005-04-24 [J] 20:08)

「複数サイトがかぶった時の〜」というのは、単一タイトル内で複数のサイトが登録された場合の話です。サイトAとBが登録され、Aに10アクセス、Bに5アクセスがあれば、Aのランキングが上がりBのランキングが下がるのが目的と解釈しています。<br>サイトの偏差値をタイトル(科目)ごとに出してその偏差値を全科目で平均した値をサイトの総合偏差値とすれば、上述の目的に沿った値が出るとの考えです。<br><br>ただ、タイトル内での登録サイトごとのOUT状況をカウントすることが前提だと思っていたのです。このカウントの方が難しいというのなら私の発言は無意味なので忘れてください。<br><br>そもそもこのランキングの目的を私が勘違いしているのかもしれませんが、登録サイトの人気を数値化する(言い換えれば「人気とは何か」を定義する)試みと考えてよかったのでしょうか。

_ 管理人 (2005-04-24 [J] 20:51)

真夜中で頭が寝ていたようです。よくわかりました。セットでログを溜める事を前提としていたのですね。それだと、1日2000行にもなってしまい、1年では・・・73万行になってしまいます。アクセス解析など多角的に解析する場合や本格的にやる場合はその方がいいのですが、それを解析するためにはキャッシュでも作らなければ時間が掛かりすぎて表示不能になってしまうので、個別にアクセス数のみを保存する事にしました。<br><br>目的ですか・・・第一は楽しそうだから、第二は仰るとおり人気の数値化です。最新作を多く取り上げアクセス数が高いのも人気が高いと言えますし、唯一のデータが多くアクセス数が多いのも人気が高いと言えますが、できるだけそういう要素を排除して、「クリックされやすい(人気)」サイトを出そうと思っています。<br>ただ、受け取り方、式はいくつも存在すると思うのでいくつかオプションを用意しようと思っています。

お名前:
E-mail:
コメント: