トップへ

プログラミングなしでWebサイトからデータを抽出できる「Parsers」

2019年01月28日 21:01  Techable

Techable

写真
ニュースサイトやショッピングサイトから、タイトルや価格など特定の情報だけを得たいことがあるだろう。「Parsers」は、Webサイトからデータを抽出するためのChrome拡張機能だ。

多くのプログラミング言語にも同様のツールが用意されているし、ほかにも同じことができるソフトはあるがParsersの特徴は簡単に要素を指定できる点だ。また、無料アカウントで、1サイトにつき1000ページぶんの情報が取得できるようだ。・選択するだけで要素を取得Parsersを利用すれば、Webサイトの指定した情報、たとえばタイトル、著者、サムネイ、価格…といった情報が個別に取得できる。

情報を取得するには、情報を取得したいサイトの任意の記事/製品ページ上で、Chrome拡張機能を立ち上げる。そこで取得したい情報を選択すると自動でフィールドに表示される。

ほしい情報のぶんだけフィールドを追加していき、「Start」を押すとスクレイピングが始まる。

リミット数までのページでスクレイピングが完了すると、フィールドごとにデータが閲覧できてExcel形式やCSV形式でダウンロードも可能だ。・登録なしでも利用可能登録なしで1サイトにつき10ページぶん、無料登録で1000ページぶんの情報が取得できるようだが、実際スクレイピングしてみるとサービスが混み合っているのかとても動作が遅く、完了しないこともあった。

そのためせっかちな方は、要素を細かく指定していく必要はあれど、「Data Miner」などのほかソフトを活用するのがよいだろう。

また、スクレイピングは対象サイトのサーバーに負荷をかけるものなので、1000ページをいっきにおこなうのはやりすぎ感もある。

なお、スクレイピングを禁止しているサイトもあるので、robots.txtなどで確認してからの活用をおすすめしたい。

Parsers