おすすめノイズキャンセリングヘッドホンはこちら
スクレイピング

【RでWebスクレイピング】をする際に知っておきたい、HTMLの知識

Webスクレイピングをする際に、HTMLの知識はひつようです。

また、HTMLの知識はRのみならず、他のことでも使えます。

ここで一度、振り返ってみましょう。

以外に忘れていることもあります。(うちもそうだった)

HTMLの基礎知識

HTMLはハイパーテキスト・マークアップ・ランゲージの略です。(なまえかっこよ)

うちたちがスマホやPCで検索して表示されるのは、【HTMLドキュメント】というものです。

  1. RでHTMLドキュメントをPCに取り込む
  2. DOMに変換される
  3. DOMに変換されたドキュメントから、必要な部分を検索・抽出

HTMLドキュメントをそのままRに取り込んでいるわけではないのですね。

タグ名

▼HTMLコード▼

HTML

▼【HTMLドキュメント】(ブラウザで表示されるやつ)▼

HTML

 

HTMLは<html>という開始タグ始まり、</html>という終了タグで終わります。

「html」はタグ名です。小文字で表記されます。

<head>タグ内に<title>タグが入っていますね。<title>タグで挟まれた文字「タイトル」がブラウザに表示されます。

また<body>タグ内に記載された本文が、ブラウザに表示されます。今回で言う、「タイトル」「見出し1」「リンク」です。

要素・属性・値の説明

webスクレイピングを実行する際に必要なものは、要素・属性・値です。

<head>

    <title>タイトル</title>

</head>

タイトル
要素名title
要素開始タグ、値、終了タグのセットのこと

<a href=”https://momokogumi.com”>リンク</a>

属性href
https://momokogumi.com
a要素の値リンク

まとめ:要素・属性・値が重要

まとめ

  • うちたちが目にするのはHTMLドキュメント
  • 要素・属性・値が重要

HTML以外もCSSの知識も必要になります。その記事はまた後日に。

ゼロから始めるR言語に戻る

あわせて読みたい
R言語
【随時更新】ゼロから始めるR言語【2018/3/30日更新】RとRStudioのインストールからグラフ・図・分析、テキストマイニング、スクレイピングなどをやっていきます。ネットでRを勉強したい人は是非ご覧ください。...

以上さぎのみや(@gumimomoko)でした。今日もあなたの毒を抜きました。少しは体が軽くなりましたか?

Twitterでも発信中

あくまでHTMLの最低限の知識です。他にもRやwebスクレイピングのことをツイートしてます。

HTMLに関する本

ABOUT ME
さぎのみや
さぎのみや
「物事の本質を見抜く」をテーマに発信している19才の理系大学生ブロガー。「R」・「本」・「行動経済学」のことを中心に発信中。グミは100種類以上食べてきました。アイコンは可愛いですけど、男です。お仕事依頼はTwitterからお願いします。 →Polcaで応援Amazonほしいものリスト
おすすめ音楽アプリ「AWA」
  • 新たな音楽の扉が開く
  • 4300万楽曲
  • 最高の音質
  • 参加アーティスト多数

今だけ有料プランが3か月無料です!

詳しくみる