スクレイピング

【RでWebスクレイピング】をする際に知っておきたい、HTMLの知識

Webスクレイピングをする際に、HTMLの知識はひつようです。

また、HTMLの知識はRのみならず、他のことでも使えます。

ここで一度、振り返ってみましょう。

以外に忘れていることもあります。(うちもそうだった)

HTMLの基礎知識

HTMLはハイパーテキスト・マークアップ・ランゲージの略です。(なまえかっこよ)

うちたちがスマホやPCで検索して表示されるのは、【HTMLドキュメント】というものです。

  1. RでHTMLドキュメントをPCに取り込む
  2. DOMに変換される
  3. DOMに変換されたドキュメントから、必要な部分を検索・抽出

HTMLドキュメントをそのままRに取り込んでいるわけではないのですね。

タグ名

▼HTMLコード▼

HTML

▼【HTMLドキュメント】(ブラウザで表示されるやつ)▼

HTML

 

HTMLは<html>という開始タグ始まり、</html>という終了タグで終わります。

「html」はタグ名です。小文字で表記されます。

<head>タグ内に<title>タグが入っていますね。<title>タグで挟まれた文字「タイトル」がブラウザに表示されます。

また<body>タグ内に記載された本文が、ブラウザに表示されます。今回で言う、「タイトル」「見出し1」「リンク」です。

要素・属性・値の説明

webスクレイピングを実行する際に必要なものは、要素・属性・値です。

<head>

    <title>タイトル</title>

</head>

タイトル
要素名title
要素開始タグ、値、終了タグのセットのこと

<a href=”https://momokogumi.com”>リンク</a>

属性href
https://momokogumi.com
a要素の値リンク

まとめ:要素・属性・値が重要

まとめ

  • うちたちが目にするのはHTMLドキュメント
  • 要素・属性・値が重要

HTML以外もCSSの知識も必要になります。その記事はまた後日に。

ゼロから始めるR言語に戻る

あわせて読みたい
R言語
【随時更新】ゼロから始めるR言語【2018/3/30日更新】RとRStudioのインストールからグラフ・図・分析、テキストマイニング、スクレイピングなどをやっていきます。ネットでRを勉強したい人は是非ご覧ください。...

以上さぎのみや(@gumimomoko)でした。今日もあなたの毒を抜きました。少しは体が軽くなりましたか?

Twitterでも発信中

あくまでHTMLの最低限の知識です。他にもRやwebスクレイピングのことをツイートしてます。

HTMLに関する本

¥2,138
(2018/08/21 02:48:00時点 Amazon調べ-詳細)

ABOUT ME
さぎのみや
さぎのみや
Unity専門メディアである【ユニシャー】→「https://unity-code.com」を運営している人です。大森靖子さんが大好きなので《超書手》と名乗っています。 →Polcaで応援Amazonほしいものリスト
ゲーム開発を手助けるメディア「Unishar-ユニシャー」
  • Unityを勉強したい
  • とりあえずUnityを使ってゲームを作りたい

このような悩みを解決してくれる、アクセス急上昇中のUnityメディア「Unishar-ユニシャー」

Unityでのゲーム開発に役立つことばかりです。

Unity専門メディア「Unishar-ユニシャー」→