トップ 最新 追記

Eroge RSS Checker 運営記録

Categories | メモ | 運営 | 感想 | 記号変更 | 雑記 | 雑文 | 思案

合計: 今日: 昨日:
2005年
5月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

rss1.0

ここは、「Eroge RSS Checker」に関する運営の記録を書きとめておく場所です。第三者に説明する文体で書いていますが、大半は備忘録です。

  1. スクリプトを汎用化して公開する。---最終目標
  2. CSSを論理的に使う。---努力目標
  3. デザインを改善する。---努力目標
  4. 攻略の完全・不完全を出来る限り判別する。---努力目標
  5. 管理要員用のページの充実。---努力目標
  6. JANコードの入手先を探す。---躊躇中
  7. ブランドの複数登録。---大規模改修のとき
  8. 登録を簡潔にしつつ、marker登録を半自動化する。---暇なとき

2005-05-01 [J]

_ [雑記] 日本語が使われているURL

ブラウザのアドレスバーに日本語を記入する場合は自動で変換されるようなので問題にならなかったが・・・。phpでリダイレクトする場合はそういう変換はされないらしい。したがって、shift-JIS以外では文字化けしてしまうらしい。なぜshift-JISなのかいまいち分からないが、後日調べることにしよう。

追記:『日本語URLとUTF-8について

_ [雑記] diff(差分?)について

wwwcheck.php』・・・高性能かつ洗練されたデザインのPHPで作ったアンテナ。(はてなアンテナ同様、diffを使用して更新部分のみを表示。)

Text_Diff』・・・インストールすれば、さくらでも使えるはずのdiff。

目による更新チェックの場合、テキスト内容全体を見るより差分を見た方が効率が良い。ただ、差分を取得する関数はphpには標準ではない。それを実現したのがこれ、チェック作業の効率は上がり、アンテナ形式で更新結果を公表することもできる。ただ、この作業は結構時間が掛かるようなので、巡回時に一緒に行うと困ったことになりそう。だからといって、巡回後だと、比較すべき以前のデータも別途保存するなど対策が必要。

とにかく、アンテナの公表も含めてGW後にやってみる。


2005-05-02 [J]

_ [雑記] 登録サイト数の上限拡張法

ネックになるのは、取得漏れ、移転、閉鎖のチェック作業の煩雑さ。そして、巡回作業の負荷拡大。前者は、アンテナとして訪問者に公開することで解決できる。後者が問題だ。リボ払いにアイデアをもらい一回の巡回サイト数を一定に保つ、今現在採用しているように最終更新日により頻度を減らす。この二つが考えられるが、どちらも問題がある。前者は登録サイト数が増えれば巡回頻度が減ってしまう。後者は間のある更新にうまく対応できない。

レンタルサーバーの規定で、CRONは30分に1回以下は認められていない。昼間は更新はないと仮定して、夜7時から朝7時の12時間を30分ごと、25回の巡回が上限になる。1回の巡回で50サイト程度なら問題はないので、1250サイトを巡回することが可能だ。2ヶ月程度更新されていないサイトの巡回を3日に1回ごとに設定すれば、場合によっては3倍程度まで可能になる。全てのレビュー・攻略・改造を合わせても1000サイトがせいぜいだろうから十分な数字だ。

ただ、登録サイト数によって1回に何サイト巡回すべきかが違ってくる。それに、今のように1日5回巡回するとなると上限は250サイトになってしまう。もっと問題なのが、1日何回巡回されるか決めることが難しいという所だ。

今これを導入するなら、1日5回巡回するとして、1巡回ごとに20サイト巡回すればいいわけで・・・・・。

と、書きながら考えたが登録サイトの大幅追加に踏み切りやすくするために、このシステムを導入しようと思う。その際、最低巡回頻度を3日に1回に引き上げようと思う。

_ [雑記] 登録作業に見合わないサイトの登録問題

例えば、気に入ったタイトルの攻略を唐突にやった場合。それ系統のコンテンツが全くなく、これからも追加する気がないサイトの登録。既に更新を停止しているサイトの登録。これらを楽にできる方法を作らなければならない。

開始・終了記号だのサイト説明だのデータ登録だのは非常に面倒だ。分類(レビュー、攻略、改造)とIDを指定するだけで登録できるようにならないと、面倒くさがりの自分は絶対にやらない。更新の少ないサイト向けにもこの機能は必要だ。ただ、忘れられるなど確実性には著しく欠ける。巡回する登録サイトとは明確に分ける必要がある(登録日を必ず0000-00-00にしたり、descriptionに非巡回を明記するなど)。

では、具体的にどうやるか。ユーザー登録してもらうしか方法がない。その際、非巡回サイト全てでデータ登録を可能にしよう。登録方法は二つ、分類を選び、タイトルIDを記入する。もうひとつはサイトIDをセッションで持ち回り、「eroge2.php」で登録用のボタンを表示するようにする。それで一つ一つ追加していく方法だ。

これがないのは、欠陥に等しいような気がしてきた。

_ [雑記] エラー続出

もう嫌になるほどエラー続出です。誰が悪いって自分ですが、慣れないノートで作業するのはことのほか疲れます。迷惑掛けていますが、金曜日までまだまだ続くかも・・・。

エラー一覧(link部分が不正、管理要員ID消去、登録サイトの登録情報修正不可、新規登録不可・・・他に登録記号の修正など未報告の変更や修正)

本日のツッコミ(全2件) [ツッコミを入れる]

_ 3-910 [ユーザー登録ってユーザーが登録するって意味ですよね。]

_ 管理人 [いや、結果的にはそうですが、ユーザー登録をしてもらい、ログインして作業してもらうという意味です。ErogameSca..]


2005-05-04 [J]

_ [雑記] まだまだの正規表現技術力

>値を取得する必要はないが、サブパターンを複数用

>いることが必要である場合も少なくありません。左括弧の後に "?:"

>を付けた場合、そのサブパターンは値の取得を行わず、値を取得する

>サブパターンの番号を計算する際にも加算されません。

とPHPのマニュアルに書かれています。

それなのに、今までどうにかして値を取得せずにサブパターンを利用できないかと考えていました。そんなことさえ忘れて昨日、取得部分の前でサブパターンを使ってしまい、取得ミスが起こりました。で、もう一度調べてみたら良く目立つところに上記の記述が・・・マニュアルは一字一句漏らさず読まないといけないと、思い知らされた出来事でした。

_ [雑記] 既存のバグ

いくつもバグを知りながら放置している。大した影響はないだろうなど怠惰な理由です。

ただ、このままだと忘れてしまいそうなので書いておく。

・登録のプレビューで正規表現が使えない。 [済み]

・1つで複数タイトルにまたがるデータを放置している。 [済み?]

・管理要員が新規にデータ登録をすると、記号を除去した比較用タイトルが生成されていないので、ID検索すると全タイトルが表示される。 [済み]

・「登録リスト」の「ErogameScape登録サイト」で全リストが表示される。

・昼の11時になるまでErogameScapeが先行した更新内容が二重に表示される。 [済み]

・サイト案内、登録方法の解説などの情報が一部古い。

・不要RSSや一部不要情報の削除が自動で行われない。

・テーブルリスト内容が最新ではない。 [済み]

・登録フォームがあるページをdenyフォルダに移動。 [済み]

・denyフォルダでファイル一覧が表示されてしまう。 [済み]

・更新履歴を更新していない。 [済み]

・管理要員にもメッセージフォームのメッセージなどを公表されるようになる旨の表示や、管理要員についての説明が欠けている。 [済み]

・リンク集を更新する。 [済み]

後は上のやることリストと・・・忘れました。

_ [雑記] サーバーメンテナンス

5/11の15時から16時までの中の30分間不通になるそうだが、告知するほどのことでもないと思うのでさらっとここに書いておく。

_ [雑記] 更新されているのに取得が遅いのでちょっと調べてみた

最終更新日が2ヶ月以上前なので3日に1回の割合で巡回するはず。

ちょうどその時期なので今日にも取得できるかもしれないが、ちょっと調べてみた。

作業は、(最終更新日によってランダム実行→)更新日チェック→GET→以前のデータと比較→データ抽出→データ登録→各種処理、という手順で行われる。

実際にGET要求したのは、92サイト中20サイトだった(その内データ抽出までいったのが6サイトで実際更新されていたのが3サイト)。巡回に掛かった時間は15秒。登録には0秒。その後の処理については分からないが、まぁ30秒は掛かっていないはず。

毎回更新チェックするサイトは59サイト、1日に1回が9サイト、3日に1回が8サイト、10日に1回が16サイト。必ず正しい更新日を返してくれるなら、もっと少なくてすむが、広告が挿入される場合はまず間違いなく現在時刻を返してくる。特におかしな所はないようだ。

今回は短時間で終わり問題はなかったが、ボトルネックになっているのはやはり、外部アクセスのようだ。


2005-05-05 [J]

_ [雑記] 続・ちょっと調べてみた

GETまで行ったのが、16サイトで30秒掛かった場合があった。かなり、各サイトのサーバーの状態に依存しているのが分かる。

それで、もう少し詳しく、一体何回くらい外部にアクセスしているのか調べてみた。すると、最終更新日チェックで61サイト、GET要求で17サイト(更新日チェック済みなので合計2回接続している)、合計78回という結果。それで19秒掛かった。

限界が近いと言った以前の発言と違和感を感じる人がいるかもしれないが、これは正常な状態での数字で、対象アドレスが見つからない時やサーバーの調子が悪いときにはかなり遅い数字になる。それでも作業を完了させるためには出来るだけ軽く、多少の異常があっても30秒に収めたいと思っている。

どうしようかと思っていたが、その後の正規表現を使った整形処理に1秒たりとも掛かっていないので、diffを間に挟んでも大したことにはならないだろう。まずは日常作業の効率化を図るためにはてなアンテナ形式で、巡回ページの更新内容を表示しよう。

_ [雑記] 『Text_Diff』を導入してみる

オブジェクトなんて扱ったことがないので、どうやったら必要なデータが取り出せるのか悩んだが、なんとか作業終了。単純比較から差分を記録するためにdiffを組み入れてみた。差分が数字のみで構成されている場合は無視するなど、差分の出方をとりあえず見守る事にする。数日中にはアンテナのレイアウトで公開予定。

ただ、半分以上、差分が空だと思うけれど。


2005-05-06 [J]

_ [メモ] アンテナの問題点

更新日などの記載が頻繁に変わる場合、更新内容が差分として取得出来ても次回アンテナ更新時にその情報が失われる。

_ [メモ] サイト数の増大でリスト表示をページングすべきかも

かも

_ [雑記] クイズ作成

馬鹿らしいと思うかもしれないが、クイズを作らないといけない。管理要員の進級テスト用に。ただ、答えが出回らないように、ランダム出題で質問数もある程度作らなければいけないし、制限時間の表示機能なども必要。下手をすると、大量に時間が取られそうなので・・・まぁ後回しにしよう。


2005-05-07 [J]

_ [雑記] 優先順位が難しい

まず、こう寝転んで、おもむろに・・・・。

ええと、何から先にやるべきか優先順位が難しい。整合性を保たなければいけないので、ある程度作業の順序は決まっているのだけれど、状況(脳内)はちょっとしたことで変化してしまう。

今は簡易登録機能とそれに伴う、登録関係の説明、レイアウトの変更が最優先課題になっている。

ただ、面倒なので細かいところから片付けたい気もする。

_ [メモ] 登録サイトのユーザー登録取り扱い

二つもユーザー登録、ログインがあると混乱するので統合すべきかも。問答無用で管理要員として登録してしまうのが、簡単か?


2005-05-08 [J]

_ [雑記] 管理要員のページをこつこつ作る

こつこつ作るが、スクリプトを書くのは、大抵長続きしないで気がそれてしまう。それというのも青写真が明確に出来ていないからだ。履歴を残し、権限によって制限し、かつ使いやすく、やりたい処理が全て出来、その中に1人の管理人が関わる必要のない・・・そんなことを実現しようとすると、どうも駄目だ。時間は掛かるが作業が進まない。その上、性悪説に則って慎重にしなければならないので、迂遠になってしまう。

とにかく、作業難航。ここは、気分転換にOUTランキングの作成でもした方がいいかも。

_ [メモ] 重いかどうか

アンケートではやや否定が優勢だけれど、ほとんど綱引きかな?個人的は昔より軽くなったくらいだと思っていますが、局地的に重くなったりしますね(裏で作業している時など)。

_ [雑記] OUTランキング進行状況

どうもうまくいかないので、簡単なものをいくつか加えてみた。

「データ当たり」は人気の高いタイトルを多く扱っていたり、発売後すぐに更新している場合に有利になる。データ数が少ない方が有利。登録初期に有利。

「期待値[÷]」は人気のないタイトルを多く扱い選ばれると有利。やはり、データ数が少ないと飛びぬけて高い数値が出る場合がある。

「期待値[−]」はデータ数が多い場合に有利。特に人気の高いタイトルを取り扱って選ばれると差が大きいだけ有利。総アクセス数が決め手。

というように全て有利不利が激しく出てしまう。


2005-05-09 [J]

_ [メモ] 休みと発売日に正直に

いつも思うのですが、示し合わせたように大量に発売された後、連休の後は、どこも更新しませんね。

_ [雑記] キャッシュを作るべきかどうか

キャッシュと言っても日々変化を重ねるサイトの場合は取るだけ無駄か、反映に時間が掛かるかどちらかになってしまう。だが、当サイトは決まった時間に更新するだけで、しかも80%程度のページは長期間固定だと考えられる。巡回可能なサイト数は半減するが、1時間に1回巡回して、1分遅れぐらいで、キャッシュの有効期限が切れるように設定していれば、複数回アクセスがあるページでは負荷を軽減できる。アクセスがあった時にだけキャッシュを作れば無駄も最低限で済む。ただ、まだまだ訪問者数も4千人程度で、どれだけ意味があるのか怪しい。万が一キャッシュの作成に失敗した時はどうなるのか、色々不安があるので導入しなかったが、夜遅いことの解決策にはなるかもしれない(MySQLに接続しないでいいので)。他の人とは違った設定で違ったページを見る人にとってはほとんど意味はないだろうけれど。


2005-05-10 [J]

_ [雑記] 『サーバの負荷と人気サイト管理者の責任』とその関連文書

いつもながら面白い内容で考えさせられます。一瞬、独自ドメイン取って専用サーバーに移転したいような気になってしまいました。ええと、さくらだと・・・月額6800円、初期費用29800円、独自ドメインXREAで取れば、年9ドル、ムームーなら年808円。後回線、ネット代が別途、月2000円くらいかな。大人の趣味に支払うお金としては大した金額ではないかも。でも、費用対効果からいうとね、今の年5000円がちょうどいいかな・・・。独自ドメインくらいなら別にとってもいいけれど、移転先もないのにとっても意味ないから、やはり当面このまま。

ついでに書けば、転送量は最大500MB、ページビューは最大30000回というのが現状。


2005-05-12 [J]

_ [雑記] 管理要員から簡易登録を可能に

簡易登録を可能にしたが、どうもまだ分かりにくかったり、面倒だったりするのでここに書くだけにとどめておく。

方法は、「簡易登録」でサイト名、アドレスを書き込み。サイトIDを作る。そのIDを「データ編集」で検索すると、データ登録ボタンが出るので、押して、subjectを選び、ErogameScapeのIDを記入すれば終了。ErogameScapeの登録サイトについても攻略などを扱っている場合があるので、データを登録できるようにした。

管理要員しか実行できないが、まぁユーザー登録だと思えば、他のユーザーが登録するリンク集と大差ないはず。後は、もう少し改良して、更新がまれなサイト用の登録方法として、公表しよう。


2005-05-13 [J]

_ [メモ] 暴走?

なにやら非常に重い。データベースサーバーがおかしくなったのか・・・・プロセスたまりまくり。表示されたと思ったら・・・・151秒??

ああ、もしかするとフォームの読み込み中に送信すると異常をきたすのかも。

_ [雑記] 無断登録意欲の増大

スクリプトいじりに飽きたのか、この頃無断登録して登録サイトを増やしたいと思っている。そろそろ、夜7時から朝7時まで1時間に1回の巡回を実行したい気もするので、1日最低1サイトずつ無断登録していこうと思う。ErogameScape登録サイトの攻略、改造データも合わせて、総データ数、2万くらいは行きたいところ。現在1万3千。

_ [雑記] 無断使用推奨

ここを見ている人なら知っているでしょうが、当サイトが1次情報源のデータについては、無断使用を推奨しています。商用で使う場合は・・・・不許可ですけど。

まぁ、とにかく推奨。使ってみて、二次使用の歯がゆさと、定点データの無意味さを思い知るのです。と言ってみた。深夜ですから。

_ [雑記] ErogameScape登録サイトの攻略データ+新規サイト登録のため

登録履歴は見ない方が身のためです。多分、これからしばらく1000件以上表示され続けるでしょうから。


2005-05-14 [J]

_ [雑記] 逆検索をどうするか

逆検索という言葉があるわけではないが、含まれているかどうか、を検索することを、ここではそうい呼ぶことにする。取得データのタイトル部分が、ゲームタイトルに含まれているか調べるのは、取得データの回数だけチェックすればいいので問題はないが、反対がやっかいだ。取得データが何件だろうと、全てのゲームタイトルを一つ一つチェックしないとならない。これが、巡回回数を増やす際のネックになりそうだ。

どんな時に必要かと言えば、「期待の大作、ゲームタイトル、ついに発売」とか書かれている場合がこれにあたる。どこからどこまでがゲームタイトルなのか、人間には一目瞭然だが、これを調べるには、逆検索するしかない。

解決策はないだろうか、なんとなくデータベースサーバーの調子が悪いらしく、5分くらいここの作業を続けているような気がする・・・。

_ [雑記] 意味不明ワード「Eroge RSS Checker」と「サイト登録型自動巡回リンク集」

「Eroge RSS Checker」と「サイト登録型自動巡回リンク集」どちらも何を意味しているか、正常な日本人には分かるはずもない。感覚で付けたのであってあまり意味はないのだからしょうがない。

「Eroge RSS Checker」を普通に解読すると「エロゲー関係のRSSチェッカー」ということになるが、これは誤り。真実はこう、「RSSを含めたエロゲー関係の更新チェッカー」、まぁ「RSS」は「飲み放題1000円ぽっきり」という誘い文句でしかない。「RSS」という言葉を入れたかっただけなんですけどね・・・。

「サイト登録型自動巡回リンク集」は人によって受け取り方は様々のはず。「サイトを登録」して「自動で巡回する」リンク集なんですが、「サイトを登録」の意味が不明です。正確には、「サイト情報とマーカーを登録」なんですが、まぁ意味不明ですね。

_ [雑記] 無断リンク・引用禁止

引用禁止は論外ですが、無断リンク禁止と言われると悩む所。Web上で露出プレーさながらに、訪問者の数を少なくコントロールしながら好き勝手にやっていたいという人は結構多いのではないかと思うからです。ブログによっては許可されたユーザー以外には見ることができないものもある。Mixiも元はそういう意識からきたのでしょう。それはおいておくとして、こちらとしてはリンクをさせてもらいたい。法律的にもリンクや見出しの取得(引用?)は認められています。ただ、日本独特(?)と言われる無断リンク禁止を容認する文化的なものが問題になるわけです。要は倫理観、仁義(?)の問題なんですよね。これはもう理屈ではなく、いじめの定義みたいなものですから、いかんともしがたいです。

それともう一つ、リンク集から来る訪問者は、管理人側から見れば質の悪い訪問者だというのも問題。なんの根拠もない話で、感覚的な話ですが、リンク集を使って比較的簡単に、明確な目的を持ってやってきた訪問者は見たら帰ってお気に入りに入れるとか積極的な行動を起こしづらいように思います。良く聞く話として、ニュースサイトに取り上げられても、数日間は大勢の訪問者がありますが、その後アクセス数が増えるわけでもなく、反応があるわけでもない。そういう場合が多いと聞きます。まぁ、実際がどうなのかは関係ありません。そう思われているとすれば、当然良い印象を持ってはもらえません。

断っておくとこれは、あくまで予想でありえる問題として書いているに過ぎません。というか、無断でなく断りを入れれば問題ないという話もありますが、それはまた別の問題です(個人的には断り入れるとなるとかなり重荷に感じるでしょう)。


2005-05-16 [J]

_ [雑記] フォームに対するjavascriptを使った操作

データ編集で毎回、IDを調べて記入するのはどうにも効率が悪い。自分ひとりが使うなら、色々工夫して効率を上げるのだけれど、初見さんにそれを要求するのは無理がある。そこで、IDをいくつか記憶しておき、自動で記入できたらと思っていたのだが、PHPでそれをやるのには限界がある。仕方ないので、javascriptでそれらしきものを調べてみた。高性能過ぎて仕組みがいまいちだが、『日付入力用カレンダー生成』がそれらしくていいかもしれない。別窓開いて、候補を表示するという形式はやりたいことと一致する。見よう見まねで作るにしてもこれは時間が掛かりそうだ。

_ [運営] RSSが差し出されたので飛びついてみた

無断登録させてもらったサイトさんに突如RSSが公開されていたので、巡回対象を変更した。どう考えてもうち用に作ってもらった物なので、ここで反応しておきます。

_ [メモ] MySQLについて

『ジャンル指定時に重かったので試しに = 文の代わりにlike文を使ってみたら1000倍近い速度差が出たので驚いた。 』とFC2ブログの製作者が書いてました。= の方が早いだろうと思って意識して = 使ってた・・・。

後は、SQL中に変数を取り込む場合。文章の中にそのまま書くのではなく、「 . $hogehoge . 」と分離するしないで結果が変わる場合があるようだ。後は、有名かもしれないが、「'」で文字列を囲むより「"」で囲んだ方が確実。要するに「\"」。このことをしていなかったために、いくつかおかしい動作をしているような・・。


2005-05-17 [J]

_ [雑記] フォームでのクオートの処理

これもずいぶん前から気になっていたので調べてみたら、フォームに「"」や「'」などを入力できても、自動で値を挿入する場合は表示できないということらしい。「value = 'hogehoge'」となっているところに、「value = '"hoge"hoge''」などと書かれてもうまく処理出来ないということのようだ。それで、他ではどうやっているのだろうと見てみたら、囲みで使っている記号を実体参照した値に置き換えているらしい。これはこれでいいのだけれど、実体参照そのものを必要とする場合も変換されてしまう、という問題が残る。さてどうしたものか。

念のために書いておくと、これはフォーム間で値を使いまわす場合に限定された問題だ。一発でデータベースに格納すれば問題は起きない。

_ [雑記] 秘密のAmazon5

あまり詳しく書くと規約違反になるのでさらっと書くと、クリック数1日平均20人前後、前回から+1500円。これが今の所の成果。ただ、自分で自分のIDを使って買い物した分が400円程度あるので、実際は1000円くらい(自分のIDで買い物すると、紹介料が上乗せされて請求される)。

もっと目立つところで中古の値段でも表示すれば倍増すると思いますが・・・小銭稼いでると勘違いされるのもなんなんですよね・・。


2005-05-18 [J]

_ [雑記] こつこつ・・・こつこつ・・・・こつこ・・・

こつこつ管理要員のページを作っている。フォームでのクオートの処理も実体参照した値に変換することでまぁ、解決ということにしておく。一括登録もバグが取れてきた。とはいえ、あれやこれやで機能はまだまだ完成しない。したらしたで、デザインや重複、効率の追求のために改善しなければいけない。なんかのアニメで、ごみの山を片付ける例え話があったのを思い出してしまう・・・(ごみの山の前で呆然とせず、近くの小さなごみから片付ければいつか片付け終わる)。

サイト登録作業は悩み中、更新履歴がうまく取得できなかったり、更新が稀にしかなかったり、一気に更新するのでタイトルが並んでいたり、コーナー分けされていてとり切れなかったり、色々とあるのでどうしようかと。

後は、デザイン(レイアウト)のセンスなさすぎるのだろうか?受けるデザインではないけれど、表部分は効率的で見やすいと思うのだけれど。こればかりはCG素材でも使わないと、センスがないので限界がある。まぁ、配色は・・・考え直す必要がありそうだけれど。

ということで、こつこつ、ちまちま作業中。当分は休み休み、ちょっと静かにやっていきます。


2005-05-19 [J]

_ [雑記] 取り忘れとRSSの日付に時間がない理由

昨日取り忘れに気付いたので、取得しました。登録履歴を見てもらえば、どこだったかは分かるはず。初期の初期の頃の話ですから・・・・一体どれだけ気付かなかったのか・・・・。

RSSの日付には時間が書かれていません。これはちょっと珍しいことです。速報、更新履歴というように生の情報を伝えるための規格ですから、普通なら時間、秒まで書くはずなんですが、なんか監視しているみたいで日付だけにしています(後、正確な時間は分かりませんしね)。アドレスで検索したら、「RSS Bandit」とかいうリーダーで正確な日付にならない、という書き込みがあったので思い出して書いておきます。

_ [雑記] 『妖精現実 フェアリアル』を読んでみて

面白かったです。すごく有名な所なのかもしれませんが、今日初めて見たもので。

特にうちと関係ありそうなのが、『なぜ人身売買が許されるべきか』ですね。要は作品が著者に従属している今の状況はおかしいと、冗談まじりに書いているわけです。まぁ、確かにミッキーマウス法と呼ばれる米国の著作権法の改正とか、疑問を感じることがありますね。歴史の浅い権利ですし、著作権者ばかりに目が行き作品はおざなりですからね。そこからいうと、電子フロンティア財団の言い分も分かりますし・・・。ファミコンのゲームソフトなどを集めた展示会「レベルX」でも、180本の著作権者が見つからず、大々的に捜索していたのも記憶に新しい。色々、改善すべき点がありますね。

後は、『「無断コピー以外」を禁止するライセンス

アンテナに捕捉されないステルスHTTPヘッダ

HTMLでの「ポップアップ・テキスト」』なんかも有用。

_ [雑記] 無関係なサイトを登録するのはだれ?

時々、完全に無関係な内容のサイトを登録する人がいる。大した頻度ではないし、なにも取得しないことがほとんどなので問題はないのだが、不思議だ。検索エンジンに一括登録するようなサービスの登録先になっているわけでもない。登録サイトの管理人が登録しているとも思えない。

それでも管理人が登録していると仮定する。思い当たる節があるとすれば、なんの登録なのか、書いていないことか。けれど、どんな内容かサイトを見ずに登録するだろうか。考えづらい。

ごくまれだが、何か対策は取れないかと考えては見るが、サイト名で判別することは出来ないし、アドレスからも無理、登録内容からは可能だが、最初の30件全てがゲームタイトルと結びつかなかったら消すというようにすると、登録記号が間違っていたり、データ件数があまりなく運が悪く結びつかない場合なども、誤って削除してしまう。そのために可否投票を導入しているが、どうだろうか。もう少し上手い手はないものか。


2005-05-20 [J]


2005-05-21 [J]

_ [雑記] IDの記憶とjavascriptによる自動挿入

やっと終わった。夕方からやっていたような気がするのに・・・・いつのまにか深夜に・・・。コードにすれば、10行程度の初歩の初歩でこれですか・・・。

詰まったのは、phpの配列で使う「[」と「]」の取り扱い、とはいえ、昨日のリンクにあるように、「form1.elements["abc[]"][0].value」変数で変化する場合なら「form1.elements["abc[$i]"].value」とすればいいわけで、かなり早い段階でそれは分かっていたのに、何かミスをしてずっと無意味な作業をしていたようだ。

というか、関数に「elements["abc[$i]"].value」の形で送ったり、「elements["abc[$i]"]」のような形で送るとそのテキスト部品へ値の挿入が出来なかった。「["abc[$i]"]」のみ送り、「form1.elements["abc[$i]"].value」を「hoge」に入れて、「form1.elements[hoge].value」と書かないと上手く行かなかった。

ということで、不真面目に実現したい機能だけ追うとこういう目にあうという例ですね。

_ [雑記] 配列をデータベースに格納する

最初に買ってそこそこ重宝した、『PHP+MySQLで作る最速Webシステム』ではにっちもさっちもいかないというか、ファイルシステム関係がぞっそり抜けていたり、何故か「echo」ではなく「print」を常用している変わった本(そのせいで私も「print」しか使わない・・)なので、古いが『例解PHP』という本を買ってみた。とにかく説明が豊富なので、オンラインマニュアルで済むようなリファレンスや初心者向けの本と違って知らなかったこと、使い方も結構載っていました。

そこで、知ったのが「serialize()」関数、配列だろうとオブジェクトだろうと、文字列表現に変換するのでデータベースに格納できる。変数用の関数にあるので、気付いてもいいものですが、あれだけ関数の種類があると見落としが在るものですね。これぞまさに、先達は先達はあらまほしき事なり、と言った所でしょうか。

_ [雑記] ゲームごとの関係性の種類

外伝 ←→ 本編

続編 ←→ 前編

通常版 ←→ 廉価版

通常版 ←→ DVDPG版

通常版 ←→ リニューアル版

PC版 ←→ 他機種版

18禁版 ←→ 全年齢版

その他 ←→ その他

シリーズ ←→ シリーズ

ざっとこんなものか。ただ、もう少しまとめてみよう。

通常版 ←→ 廉価版

通常版 ←→ DVDPG版

通常版 ←→ リニューアル版

PC版 ←→ 他機種版

18禁版 ←→ 全年齢版

これらは、基本的には同一作品なので、

同一 ←→ 同一

とすればいいかも。1方が決めればもう1方も決まらないと何かと面倒なのでこんな所でいいだろうか?シリーズは関係があまりないが、題名などでシリーズ物と分かるものということで、問題はないと思う。その他の場合が問題で一体どこまで許容すべきか。同一世界観ならまだしも、少しだけキャラクターが出てきたとかは微妙。自由コメントを付けられるようにすればいいかな。

ということで、昨日というか今日、黄色い太陽を見たりしてのってきたので、あれもこれもやっつけ仕事でこなしてしまおう。

_ [雑記] 関連性の捕捉と雑多なリンク

どちらもやってしまおうかと思うが、どうも躊躇してしまう。関連タイトルの下部に表示することは非常に有用だとは思うけれど、果たしてうちがする必要があるのか。自分がそれほど、続編やタイトルのつながりに頓着しない性質なのできちんと入力できるか不安もある。仕組みそのものは、もう細部まで詰めてあるので困難もなく出来るだろうが、もう少し発酵させることにしようと思う。

雑多なリンクについては、分類(subject)は不統一にするのかなどまだちょっと煮詰まっていないが新しくシステムを作るのが面倒なので、簡易登録で全て賄えないかと思っている。問題は分類(subject)をどうするかと、管理要員以外が登録できない事だろう。

と書いてみるが、どうも雑多な作業が増えるので導入を嫌っているのかもしれない。雑多なサイト(2chのまとめサイトやデータベースなど)を探し出して登録するのはAさんで、HolysealのIDを登録するのはBさん(実質この部分はそうなっているかも)、というように役割分担が出来て、しかもそれで各々の利益になると良いのだけれど・・・・。そうなるには、10倍以上のアクセスと利便性の追求が必要でしょうね。

ああ、管理要員の登録情報に「受け持ち」の欄を追加したらいいかもしれませんね。当然未選択も可能にすれば、だれが何をやっているのか眼に見えていいかもしれません。


2005-05-22 [J]

_ [雑記] 掛かる時間とその割合

2005-05-21 23:58:22 取得22秒 / 登録22秒 / サイト数(最終更新日)46 / サイト数(GET)19

2005-05-22 00:06:32 比較終了512秒

2005-05-22 00:06:36 全処理終了516秒

時間の掛かり方を調べたらこうなっていた。少し前に書いた、「逆検索」のために掛かってしまっている。ので、仕方ないので、比較元、比較先を配列にして「preg_grep()」で検索をすることにした。そうすると数秒で終了する。分かっていた事とはいえ・・・・さくらさんのMySQLは激しく遅い(ただ、遅くなくとも何倍かは違ってくるはず)。

_ [雑記] 文字コードの自動判別

「jcode」の自動判別では分からないサイトで出てきた。そこで少し調べた所、文字コード特有の文字列があるかどうか調べているだけらしい。要するに、特有の部分がなかったら判別が出来ない。試しに標準の判別関数の「mb_detect_encoding」を使った所正しい文字コードを検出してくれた。

一体なぜか?今回は広告部分の文字コードと本文の文字コードが違う事が原因のようだ。「mb_detect_encoding」で何故認識できたのかは謎。「ゆるい」判別でもしているのかと思い、検出順序を最後にしても正しく検出されたので何か別のロジックが働いているのかもしれない。予備として、「jcode」で判別できない場合は、「mb_detect_encoding」を使う事にした。

ついでに書いておくと、文字コードの判別は、UTF-8などは簡単だけれど、いつも間違う可能性がある。重複した実体を使っているため、ある文字コードでも可能だし、違う文字コードでも可能だからだ。

mb_convert_encoding/mb_detect_encoding について』のような問題もあるようです。

_ [雑記] 始まって以来、最高の暴走

30分近く、暴走していたようです。憶測、もしくは問題箇所は分かるのですが、何故か、はデータが失われてしまったのでどうしようもない。いまから少し調べてみる。

ということで調べてみたら、変なサイトが登録(もしくは既存データのコピー?)してあり、そのサイトの登録データが一文字の記号だったために、ID検索で負荷をかけたらしい。

同じ事が起きても、同じような事態にならない程度には対策を採ったが、明日にでももう少しきちんと見てみよう。


2005-05-23 [J]

_ [メモ] 雑記ばかりのカテゴリ

同じような事ばかり書いているのでほとんど「雑記」ばかり。カテゴリの意味がない。


2005-05-25 [J]

_ [雑記] 『GATE DIVE』登録サイト@攻略などの無断登録

『GATE DIVE』登録サイト@攻略の追加作業をやっています、ブログ(日記)だけ更新しているサイトが多く、死んでいるのか、生きているのか判断が難しいサイトが多いですね。死んでいるなら、簡易登録でささっと登録してしまうのですが、更新されそうな所はこの作業が終わるまで放置しておきます。、改造については消極的です。1サイトでほとんど用が足りますし、改造ツールやSUSIEプラグインなどを考えに入れるとちょっと大変なので。レビューはErogameScapeさんが登録されているでしょうから除外。

普通の登録も平行してやってます。登録可能で、2ヶ月以上の頻度で更新されていれば、攻略サイトの場合は無条件に。レビューサイトは気に入ったところを。今お気に入りに入っている200程度のサイトの内更新しているサイトがまだいくつもありますが、登録しにくい更新履歴の書き方だったりで登録できずにいます。

できるかどうかは、別にして200サイトくらい巡回できたらと思っています。過去の遺産さえ取得し終われば、後はぽつぽつ出てくる新サイトを登録するだけなので、面倒な作業もなくなり静かに運営できます。管理要員のページのテストも兼ねてしばらくは休み休み、気の向くままにやっていいきます。


2005-05-28 [J]

_ [雑記] 分類名の併記を許すかどうか

分類名を併記することを今まで許容してきた。といっても今まで誰も併記せず、例えばレビューと攻略を別々に書いてくれていた。ここまで、併記がないと許容しない方が何かと都合が良い。

ということで、併記された場合、分類名だけ各々の値を代入してコピーを作るようにした方がいいかもしれない。

_ [雑記] 登録希望サイトが登録出来ない理由

「ロゼヲモンド倶樂部」は、RSSが分かれていたり表記が不規則だからです。そして、ほとんど更新されない事も気が進まなかった理由(個人的には百合好きなので良くチェックしていますが)。無理をすれば登録も可能ですが、漏れが出る可能性は絶えずあります。

「いちの部屋」は、更新履歴で「セーブデータ」の事を「データ」と表記しているためです。これでは、「セーブデータ」についての情報を取得することができません。

どちらのサイトもどうにか登録出来ないかと思っていましたが、漏れが出るので様子見をしていました。

_ [雑記] 今後の予定

何か色々と放置しているような気もしますが、休養期間のようであまりやる気が起きません。お気に入りに入っているだけで、登録候補サイトが約200(半分以上日記以外更新停止していますが。)。リンクカウンターも放置状態(現状でもそこそこ役に立つ情報を提供してくれるのであれでいいといえばいいのかも)。簡易登録の告知にもこぎつけず(今でも十分完成されているのですが、かなり分かりにくいため)。ゲームごとの関係性の捕捉もどうするか決めかねている(他の事で手一杯で新しく作業を増やす気がしないため)。

どれもこれも中途半端なのがいけないのかも。ここは、義務感を射殺して、気になる機能ごとに集中してゆっくり改善していくしかないようだ。

_ [メモ] あちこちで改造データを取りこぼしている件

現状では取得できないので仕方ないといえば仕方ないが、少し気になる。

_ [雑記] 全登録サイトを対象にしたアンテナを

題名の通り、全登録サイトの登録アドレスを対象にしたアンテナを設置しようと思う。頻度は、週1程度で十分だろうと思う。その際、diffは過去の物も含めて保存できるようにしようと思う。急に更新を再開した時など色々と利用価値はあると思う。ただ、登録アドレスは年齢確認などの単なる入り口ページのサイトもあるので、それをどうしたらいいか悩むところ。CRONは現在3個設定しているので、設定可能限度は後2個。この内の一つを使って、通常の巡回をしていない昼間にやろうと思っている。ページのコピーは個別のテキストファイルとして、diffは新旧ごとに一括してテキストファイルに保存する予定。『げぇとだいぶ-巡回補足アンテナ-』と同様の機能が持たせられればと思う。


2005-05-29 [J]

_ [メモ] データの現状

総データ:45822

ErogameScape:25591

Eroge RSS Checker:20230

レビュー:31145

攻略:7295

改造:6766

登録サイト:124

ErogameScape登録サイト:515(重複あり)

簡易登録:77

管理要員:2(1人は自分)

今月に入って約8000のデータの登録があったんですね・・・。それ以前のデータが約12000。ほとんどこちらの能動的な登録。数字で見るとなんともすごい。さて、リンク集として充実したでしょうか?

_ [雑記] RSSは革命を起こせない

久しぶりに抽象的な話題で書いてみましょう。RSSというかRDFによるセマンティックウェブの実現について。私はかなり懐疑的です。以前に比べれば格段に情報が整理され、機械的に処理をすることが可能になるのは確かです。ただ、なんにしてもやるのは人間です。当サイトの運営で、一貫した更新履歴を書くことがことのほか難しい事を学びました。記号を使えば、全角になったり半角になったり、空白も同じでしかもあったりなかったり。助詞も変わったりします。毎日同じ作業しているのならともかく、人間にとって大した違いがないこれらには無頓着です。情報を細分化して、分類、関係付けをいくら上手くやってもそれを記入するのは人間です。「title」の書き方一つ取っても千差万別。自由を奪い取っても、奪い取っても、独創性に溢れた使い方、書き方をする人が出てきます。禁止されていようと可能ならばそれを止めるすべはありません。

なんだかんだ言った所で、話は単純です。人間と機械とではロジックが違うんです。機械は生物ではないために、多様性を必要としない。多様性を持たせるために色々と研究が進んでいるようですが、まだまだ時間が掛かりそうです、いや多分先天的な機能の問題で、時間が掛かる所ではないくらい先の事になるかもしれません。

ということで、RSSは言い換えれば、レポートの書き方でしかなく期待するレポートが出来上がるかは別の問題だといいたいわけです。

と、書き終わってみたら、なんかチラシの裏にでも書いた方がいい内容でしょうか?専門用語も全くないし、例や引用もない。学がない人間の書く文章というのは、これだから駄目ですね(実はこの最後の一文が書きたかっただけだったりします)。

_ [雑記] 確率に頼らずに順繰りに実行する方法

確率を利用すると当たり前だが結果が確率的にしか予測できない。確率的には低くとも、永遠に実行されないこともありえる。実際とは違い機械の中では極めて正確なサイコロを作り出せるとしても、そこには一抹の不安が付きまとう。

そこで、以下の方法で確実に実行する。

「$a % $b 剰余 $aを$bで割った余り」

というのがどの言語にでもある。これを利用する。

「対象 % 4」とすると答えは「0,1,2,3」の4通りでランダムな数値の集まりを4等分してくれる。5等分したければ4の所を5にするだけ。

問題は、今余りがいくつのIDを持ったデータについて実行したのか記憶しないとならない。その変数も合わせて配列にして、serialize関数で保存するか、普通にテキストファイルに保存するか、他の人はどうしているのだろうか?

_ [メモ] Google Bot襲来記念

記念に書いておく。

_ [雑記] アンテナのための巡回スクリプト。テスト中

フレームを使っている場合には何回もアクセスしないとならないので面倒だ。「stream_get_meta_data」で返されるステータスコードは、実際は無いのに200を返してきたり、あるのに302を返してきたり、まるで役に立たない(アドレスについてのステータスでページのではないということだろう)。500以上のテキストファイルが並ぶのもなんとも壮観だ。

とはいえ、一応動いているし、これ以上は実際にやってみないとなんとも言えない。1週間周期でデータを更新するようにしたので、2,3週間後には見れるアンテナになっていると思う。今あるアンテナのページにリンクを追加する予定だ。


2005-05-30 [J]

_ [雑記] リンクカウンターを少し改良

10アクセス以下のサイトを表示しないようにした。ついでに、1アクセスもないタイトルのデータも除外。そして、全表示可能に。

そこで、びっくりしたのが、半数以上のタイトルが1アクセスもないという真実。0ではないタイトルも旬なタイトル以外は軒並み低い数値。766位以下で既に10アクセスを切っている(5672タイトルあり)。必ずしもカウントされないとはいえ、少なすぎる気がする。