2015-03現在の、Javaで利用できるHTMLパーサライブラリってどんなのがあるか探してみた、調査メモ。参考URL集。
Javaで利用できるHTMLパーサライブラリの一覧、一番の参考URL集:
先に結論を書くと、今回は以下の要件に適してそうなパーサを探してみたのだが、唯一イケそうなTagSoupが2011年頃?のv1.2.1で止まってて、しょんぼりした。
特性としてどうしても個人が開発してOSSとしてリリースしてるものが多い・・・というかむしろ、それしかないっぽいので、開発者個人の事情によって開発が止まる可能性が高い。
事実として、今回の要件に適合しそうなライブラリのうち、ソースコードリポジトリへのコミットが2014年以降も確認できているものはHtmlCleanerとjsoupの2つしかない。
他人が開発したHTMLパーサを利用するということはその開発者に依存することになる。
ライブラリの開発動向を定期的にチェックし、いつか乗り換える時がくる、というのをリスクとして検討しておく必要がある。
・・・と、思いました。
以下、本文です。
Stack Overflow でも、いくつか「良いJavaのHTMLパーサ教えて!」という質問が立ってる。
いくつか調べてみた:
コメント