3クリック サイトマップメーカー

xmlサイトマップ その3

2007年03月01日
まずサーバーにあるファイルの一覧を取得する部分をコーディングします。

サイトマップ作成ソフトをアップロードしたディレクトリ以下のファイル(サブディレクトリのファイルを含む)を取得します。取得するファイルは拡張の一覧からユーザーが指定します。

もし以前にサイトマップを作ったことがあれば、そのときの設定を読み込むかどうかも指定できるようにします。
・ファイルをサイトマップに載せるかどうか
・更新日時(引数なしURLはファイルの更新日時が優先)
・更新頻度
・優先度

一覧表示したとき、URLだけではどのページだったかわからなくなることがあります。サイトマップを作るのに必要はないのですが、titleタグからタイトルを取得して、表示することにしました。
使う関数はRSSのときにも使用した
xml_parse_into_struct
です。xmlの構造を解析して、配列へ読み込んでくれます。htmlでも使用できます。

ところが、取得できるファイルとできないファイルがあることに気が付きました。サイトマップには載らないので、別に取得できなくてもいいのですが、ちょっと調べて見ることにしました。
すると、
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
のhttp://www.w3.org/TR/html4/loose.dtdがないと取得できないことがわかりました。http://www.w3.org/TR/html4/loose.dtdで構造を読み込んでいるんでしょう。

これでファイル一覧を表示する部分は一応終わりです。
次は各一覧表示した各ファイル(ページ)の値設定部分のコーディングです。