XML

2005年04月19日 火曜日

いろいろ調べもの…

いろいろ調べもの。今はこんなことを調べている。
XHTMLファイルの解析
SAXやDOMを使わずに、もっと簡単な方法での特定要素の中身を取り出したい。(たとえばh3要素やa要素)
プログラムコードのHTMLにおける引用の仕方
これまでpreでくくった中身をさらにcodeでくくっていたんだが、これはやっぱおかしい。もっと論理的に表現したい。
UTF-8でのファイルの保存について
1つはBOM(Byte Order Mark)を付けるべきか否か。本来UTF-8でのエンコードではエンディアン(卵を丸みがある方から食べるのが好きかのか、尖った方から食べるのが好きかとか言った区別だ)は関係ないはずなのだけど、Unicodeの規格を読むと署名として使っているらしい。BOMを付けるとおかしくなったり(たいていのエディタで付けてくれない)、無いとおかしかったり(IEは文字コードの自動認識が巧く行えない)するので、どうしたものか。2つ目は_変換表はどれが正しい?_ どれも同じ程度に微妙に違う。何を信じればいいのか… いずれにせよ全く何とかして欲しい。(それ以外はUTF-8の方が扱いやすいのよね。XMLの場合。)
X-Windowでの漢字変換
うちの環境ではGnomeもKDEもデスクトップ環境としては使ってません。(鬱陶しいんだもの。) ウィンドウマネージャはFluxboxを使っている。適当なディスプレイマネージャ(kdmやwdm)でウィンドウマネージャにFluxboxに指定してログインすると、kinput2が起動してくれないというか~/.xsessionを無視しているっぽい動作をするため、いろいろ不便な目に遭っている。なぜだろう?

2005年04月18日 月曜日

findメモ

この日記の記事(限りなくHTML4 Strictに近くて、ISO-2022JPで書かれているファイル)を諸般の事情により内容を再利用することを目的に、元の記事をを残しつつ、XHTML 1.0 Strict(UTF-8)に変換しようかと画策している。今回の見直しは結構大きめで、せっかくだからスタイルシートの指定も一気につもりつもりなのだ。
今日の努力で一日分の記事のファイル(index.html)について、上記の変換がshとsedとHTML Tidyでできるようになったのだが、変換したいファイルはyyyyが西暦年、mmが月、ddが日として
~/html/diary/yyyy/mm/dd/
と言うディレクトリに静的に入っている。個数を勘定(LS-lRしてindex.htmlを検索語にgrep書けて行数を数えただけ)してみたところ、1200個くらいのファイルがある。(足かけ5年分だとこのくらい?当然ディレクトリの個数がその程度ある。) さすがに手でやるのも気が遠いというか、そんなの人間のお仕事ではないので、再帰的にできないかなと思うわけだ。いったん1つのファイルを処理する適当に書いたシェルスクリプトはこんなかんじ。あんまり考えないで書いたので、動作の通りそのまんま。

2005年04月14日 木曜日

今日は1日中XML/HTML周りの調査

サイト全体の見直しを考えていて、これまで積んできた日記を中心とするデータの再利用を行うため、XMLやXHTML周りの調査など。うちの日記は、僕が書く際になるべくHTML4 Strictになるように書いているので、扱いやすいデータだと思うのですが、任意に何個かのファイルに対してHTML Tidyをかけてみた。割とすんなりとXHTML1.0 Strictに変換できることが分かったので、これで処理してみることにする。ざっくりと使えそうなTidyの設定ファイルは以下のようなもの。

2004年08月08日 日曜日

Lightweight Language Weekend 2日目

2日目の前半は最近はやりのblogな話題。僕は基本的に興味がないのだが一応お勉強のため… 大きなblogサイト(Livedoor Blog)やはてなダイアリーなど)の方が来ていたので、個人的には「(政府や各種圧力団体などから圧力がかかりそうな)非常にまずい記事の削除要請があった場合にどのように考えるかの立ち位置」を効きたかったのだが、LLには関係ないし、契約で乗り切れる話かもしれないし、あまりにダークなんで聞けなかった。聞いておけば良かったかな? LLの最も巨大な応用先であることは認めるが、blogだけでこんなに時間を取るんだったら他の話が聞きたかった。
Lightning Talkは詳細はあまり覚えてない。(なんせ半分くらいBitKeeperと話をしていたので。) 平内さんの「木のマッチ」では、Schemeを使用した木構造のデータに対して正規表現みたいなパターンマッチをする話。さくっとXML VallidatorがかけるあたりがSchemeのマクロらしい。久井さんの「Gauche-glによる、3次元図形言語」では、Gauche-GLとストリーム(SICP Chap3の後半)を使ったアニメーションによるプレゼンでGaucheではこんなこともできるのかと言うこともあってこれまた面白かった。
高橋さんの「日本Rubyの会設立」の話は要点とをついたインパクトのあるプレゼンで、こうあるべきかと思ったり… 早川さんの「LL侍」は最初は照れが見えたが、吹っ切れたあとはかなり面白かった。(もう一段切れが欲しかったかな。)

2004年02月10日 火曜日

Java 2 Platform, Standard Edition (J2SE) 1.5.0 Beta1

2月4日にSun MicrosystemsからJ2SE(Java 2 Platform, Standard Edition)の次期バージョンであるJ2SE 1.5.0 Beta1が公開された。JavaはまだJDK1.0のα版とかβ版とか言っていた頃の熱い時代に熱狂的に遊んでいたが、いろいろ熱が冷めるような事件があって、さらに諸般の理由があって_使わない/使えない言語_であった。いままでわりと保守的な更新を続けてきたJavaであるが、J2SE 1.5.0(コード名「Tiger」)では、Java2になったときと同じ程度、もしくはかつて例のない大きな改良が加えられることとなった。言語仕様に関わりそうなものは、ざっくり…