PIYO - Tech & Life -

ウェブサイトやブログ記事中の本文を抽出するgem

2014-03-08 gem Ruby

大元はこちらで、

Webページの本文抽出 (nakatani @ cybozu labs)

Ruby1.9対応され、gemになったものがこちら。

mono0x/extractcontent

Bundlerを使ってリポジトリ指定でインストールできます。

gem 'extractcontent', :git => 'https://github.com/mono0x/extractcontent.git'☄

使い方

html = open(url).read
body, title = ExtractContent.analyse(html)

これだけでタイトルと本文を持ってきてくれます。精度も悪くなさそう。

HTMLタグを残したい

純粋に文章のみを残すという作りになっているため、抽出された本文からはHTMLタグがなくなっています。画像も無くなってしまいます。

少し話がそれますが、この本文抽出の機能を使って、「あとで読む」つもりの記事の本文を1ファイルのHTMLにまとめて、それをPDFやepubにしてKindleで読むというハックをやりたいなと思っています。

そのためには本文はHTMLのままでなければいけません。見出しや画像、箇条書きなどはしっかり残っていて欲しいのです。そういうわけで、この部分に少し手を入れます。

extractcontent/lib/extractcontent.rb at master · mono0x/extractcontent

def self.analyse(html, opt=nil)
  # ...

  # 変更前
  [strip_tags(body[0], dom_separator), title]

  # 変更後
  [body[0], title]
end

タグを除去するメソッドを呼ばなければいいわけですね。

これで本文HTMLを抽出する準備ができました。スクリプトはまだ途中です。

LATESTS

patch-packgeでpackage.jsonの差分を含める

patch-packageっていうnpmパッケージありますよね？この記事↓が詳しいので紹介はだいぶ任せちゃうのですが、npmパッケージを手元でちょっとだけ直したいときに重宝する仕組みです。 https://bagelee.com/programming/javascript-2/patch-package/ 使い方はこ

バッテリー監視のMacアプリを作ったんだけど難しかった

久しぶりにMacアプリを作りました（5年ぶりぐらい）。難しかったです。 Macbook Proをドッキングステーション経由の給電で使ってるせいか、たまに接触が悪いのか充電できない状態になることがあります。気がついたら

フォント JetBrains Monoが素敵だったので導入しまくった

JetBrains Monoが素敵すぎていろんなエディタに設定して回ったという話です。 https://www.jetbrains.com/ja-jp/lp/mono/ まあ↑をみにいってくれればそれまでなのですが、以下のようにプログラミングに適したフォントでオープンだという特徴があります。高さを増

Hugoブログのタグをカラフルにしてみました

GW中にブログの見た目をだいぶいじりました。ブログ書こうにもなんとなくテンションがあがらないのを見た目を変えることで無理やりテンションを上げるという作戦です。久しぶりだったこともありローカルサーバーを

Soundflowerを使ってMacで再生中の音声をMacのサウンド入力にする

Macの画面収録と合わせて、Mac上で鳴っている音を録音したくなったことがあります。音を鳴らした状態で画面収録＋録音をするとMac標準のマイクで音を拾ってしまうので音が割れるなどして劣化します。微妙で