PIYO - Tech & Life -

Rubyで濁点/半濁点が分離した文字を1文字に統一するには

2015-03-17 unicode Ruby

Macのファイル名周りで発生するのでハマったことがある人もいると思うんだけど、ひらがなやカタカナの濁音や半濁音の文字を表現するのに2文字分使われていることがあったりする。

例えばFinderでぱぴぷぺぽ.txtというファイルを作ってEmacsで開いてみるとこんなふうになる。

Rubyでもこの手のファイル名から文字列を作ったりすると同じようなことが起こる。例えばこんな感じで。

同じ文字列に見えて全く違うってことが起こる。こういう文字列がデータベースに入っていると検索にかからないことがあるし他にも色々困ったことになりそうな感じがする。

なお、この手の話を真面目に語るには僕の知識は足りないので今回はどうやって回避するかを書くだけに留めるけど、軽く触れておくとUnicodeの正規化に関係する現象らしいということがわかった。

Unicode正規化 - Wikipedia

対策

このタイプの文字列が入力として入ってきそうな箇所で正規化の形式を変換しておくことで対処できた。変換にはActiveSupportのメソッドを使用した。

normalize (ActiveSupport::Multibyte::Unicode) - APIdock

# 例えばファイル名から文字列をとってくる
name = File.basename(textfile, '.txt') # "は゜ひ゜ふ゜へ゜ほ゜"
name = ActiveSupport::Multibyte::Unicode.normalize(filename, :c) # "ぱぴぷぺぽ"

LATESTS

patch-packgeでpackage.jsonの差分を含める

patch-packageっていうnpmパッケージありますよね？この記事↓が詳しいので紹介はだいぶ任せちゃうのですが、npmパッケージを手元でちょっとだけ直し …

バッテリー監視のMacアプリを作ったんだけど難しかった

久しぶりにMacアプリを作りました（5年ぶりぐらい）。難しかったです。 5年ぶりぐらいにMacのネイティブアプリ書いたけどさー、相変わらず情報なさすぎるしiOS …

フォント JetBrains Monoが素敵だったので導入しまくった

JetBrains Monoが素敵すぎていろんなエディタに設定して回ったという話です。 …

Hugoブログのタグをカラフルにしてみました

Hugoブログのタグをカラフルにしてみました

GW中にブログの見た目をだいぶいじりました。ブログ書こうにもなんとなくテンションがあがらないのを見た目を変えることで無理やりテンションを上げるという作戦です。 …

Soundflowerを使ってMacで再生中の音声をMacのサウンド入力にする

Soundflowerを使ってMacで再生中の音声をMacのサウンド入力にする

Macの画面収録と合わせて、Mac上で鳴っている音を録音したくなったことがあります。音を鳴らした状態で画面収録＋録音をするとMac標準のマイクで音を拾ってしま …

POPULAR

GitHubのsuggestion機能でプルリクエストのレビュー中にコードを提案できるらしい

GitHubのsuggestion機能でプルリクエストのレビュー中にコードを提案できるらしい

というのをTwitterで見かけたので試してみました。プルリクエストのレビュー欄で案内が出るので見たことがある人も多いかもしれません。検証のため、本当に雑な …

Macの文字ビューア（絵文字と記号）を事実上無効にする

Macでコード書いたりアプリ切り替えたり色々してると、こいつが出る時ないですか？このウィンドウは「Control ＋ Command ＋スペースバー」の同時に …

roo gemでxlsxファイルを読み込もうとしてundefined method `bytesize'

roo gemでxlsxファイルを読み込もうとしてundefined method `bytesize'

Rubyでxlsxファイルを読めるrooというgemでエクセルを読んでいる箇所がエラーになるようになりました。しかもローカル環境のMacでのみ発生し、AWSの …

トラックボールM570のクリックが効きにくくなったから分解してみた

愛用のトラックボールM570の左右クリックの効きが悪くなってきたので分解して様子をみてみることにした。M570は親指トラックボール。分解するにはT6というトル …

Gitでファイルがいつ削除されたかを特定する

前に触ったときにはあったはずのファイルが消えてるけどいつ消えたかわからん、という場合に使えるコマンドがありました。 ↓のようにgit logにファイルパスを渡す …