正規表現、UTF-8全角カタカナでマッチ
UTF-8全角カタカナでマッチさせたい。
バグが出た。。。
ワケわかんなくて
全カタカナキャラクターを書き下した正規表現の文字クラスをつくったんだが、
それってどうなの?って感じですよね。
んで社内にはすごい人がいるので、
irc的なところに質問したら、教えてもらえた!!
そうそう、バグがでるまでは、
euc-jpとかの感覚で
[ァ-ヶ]
って書けばいいだろうとおもっていたのだが、
Unicode対応 文字コード表
http://ash.jp/code/unitbl21.htm
上の「Unicode対応 文字コード表」を眺めてみると、、、
UTF-8だと
[ァ-タダ-ヶ]
だのですね。
あーただーけ
って覚えやすいですね。
野村沙知代が野村克也に言いそうですね。
phpのpreg_matchを使うときはu修飾子をつけて
/[ァ-ヶ]/u
でもいけるようです。
ありがとうございました!!