Make HTML page (text) suitable for text analysis in R

up vote
0
down vote

favorite

I would like to do some text analytics on text from following web page:
https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html

I don't know how to convert this HTML to tidy text object (every row in text is every row in dataframe).
For example, just applying html_text() function doesn't help:

url <- "https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html"

p <- rvest::read_html(url, encoding = "UTF-8") %>%

  rvest::html_text()

p

since I don't have separated rows.

asked Nov 8 at 16:42

Mislav

411317

1

Just split your data by the new line character: read_html(url, encoding = "UTF-8") %>% html_text() %>% {strsplit(., "rn")[[1]]}
– MrFlick
Nov 8 at 17:18

add a comment |

up vote
0
down vote

favorite

I would like to do some text analytics on text from following web page:
https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html

I don't know how to convert this HTML to tidy text object (every row in text is every row in dataframe).
For example, just applying html_text() function doesn't help:

url <- "https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html"

p <- rvest::read_html(url, encoding = "UTF-8") %>%

  rvest::html_text()

p

since I don't have separated rows.

asked Nov 8 at 16:42

Mislav

411317

1

Just split your data by the new line character: read_html(url, encoding = "UTF-8") %>% html_text() %>% {strsplit(., "rn")[[1]]}
– MrFlick
Nov 8 at 17:18

add a comment |

up vote
0
down vote

favorite

I would like to do some text analytics on text from following web page:
https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html

I don't know how to convert this HTML to tidy text object (every row in text is every row in dataframe).
For example, just applying html_text() function doesn't help:

url <- "https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html"

p <- rvest::read_html(url, encoding = "UTF-8") %>%

  rvest::html_text()

p

since I don't have separated rows.

asked Nov 8 at 16:42

Mislav

411317

I would like to do some text analytics on text from following web page:
https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html

I don't know how to convert this HTML to tidy text object (every row in text is every row in dataframe).
For example, just applying html_text() function doesn't help:

url <- "https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html"

p <- rvest::read_html(url, encoding = "UTF-8") %>%

  rvest::html_text()

p

since I don't have separated rows.

r nlp tidytext

asked Nov 8 at 16:42

Mislav

411317

asked Nov 8 at 16:42

Mislav

411317

asked Nov 8 at 16:42

Mislav

411317

asked Nov 8 at 16:42

Mislav

411317

asked Nov 8 at 16:42

Mislav

411317

1

Just split your data by the new line character: read_html(url, encoding = "UTF-8") %>% html_text() %>% {strsplit(., "rn")[[1]]}
– MrFlick
Nov 8 at 17:18

add a comment |

1

Just split your data by the new line character: read_html(url, encoding = "UTF-8") %>% html_text() %>% {strsplit(., "rn")[[1]]}
– MrFlick
Nov 8 at 17:18

Just split your data by the new line character: read_html(url, encoding = "UTF-8") %>% html_text() %>% {strsplit(., "rn")[[1]]}
– MrFlick
Nov 8 at 17:18

add a comment |

1 Answer
1

active

oldest

votes

up vote
2
down vote

accepted

That site has some very well-structured HTML with the headers and the body text of the section each given their own align attributes. We can use that to extract your text by section:

library(rvest)

library(tidyverse)  



pg <- read_html("https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html")



html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 

  map_df(~{

    data_frame(

      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>% 

        html_text(trim=TRUE),

      section_text = html_text(.x, trim=TRUE)

    )

  }) 

## # A tibble: 38 x 2

##    section    section_text                                                                                      

##    <chr>      <chr>                                                                                             

##  1 Članak 1.  "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u rnčlanku 4. sta…

##  2 Članak 2.  "U članku 8. stavku 2. točki 1. riječ: »standardi« briše se.rnU stavku 3. druga rečenica mijenj…

##  3 Članak 3.  "U članku 20. stavku 2. riječi: »na području Republike Hrvatske« zamjenjuju se rnriječima: »na …

##  4 Članak 4.  "U članku 32. stavku 5. točki 1. i 3. riječ: »naprava« zamjenjuje se riječju: rn»uređaja«.rnU…

##  5 Članak 5.  U članku 39. stavku 1. riječi: »stavka 1.« brišu se.                                              

##  6 Članak 6.  "U članku 44. stavku 5. dodaje se rečenica koja glasi:rn»U slučaju sumnje, u drugim slučajevima…

##  7 Članak 7.  "U članku 52. stavku 3. riječ: »korištenja« zamjenjuje se riječju: rn»iskorištavanja«."         

##  8 Članak 8.  U članku 86. iza riječi: »koji je« dodaje se riječ: »u«.                                          

##  9 Članak 9.  "U članku 98. u stavku 1. riječ: »tehnoloških« zamjenjuje se riječju: rn»tehničkih«.rnStavak …

## 10 Članak 10. "U članku 109. dodaje se stavak 3. koji glasi:rn»(3) Odredbe iz članka 20. ovoga Zakona o iscrp…

## # ... with 28 more rows

You'll need to double check that the above didn't miss anything. Even if it did it should be straightforward to expand upon the answer.

You can get individual lines broken out using the above as well:

html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 

  map_df(~{

    data_frame(

      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>% 

        html_text(trim=TRUE),

      section_text = html_text(.x, trim=TRUE)

    )

  }) %>% 

  mutate(section_text = stri_split_lines(section_text)) %>% 

  unnest(section_text)

## # A tibble: 334 x 2

##    section   section_text                                                                     

##    <chr>     <chr>                                                                            

##  1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u "

##  2 Članak 1. članku 4. stavak 2. mijenja se i glasi:                                          

##  3 Članak 1. "»(2) Odredbe iz ovoga Zakona o definicijama pojedinih autorskih imovinskih "    

##  4 Članak 1. "prava, o pravu na naknadu za reproduciranje autorskog djela za privatno ili "   

##  5 Članak 1. "drugo vlastito korištenje, o pravu na naknadu za javnu posudbu, kao i o "       

##  6 Članak 1. "iscrpljenju prava distribucije, iznimkama i ograničenjima autorskih prava, "    

##  7 Članak 1. "početku tijeka i učincima isteka rokova trajanja autorskog prava, autorskom "   

##  8 Članak 1. "pravu u pravnom prometu te o odnosu autorskog prava i prava vlasništva "        

##  9 Članak 1. "primjenjuju se na odgovarajući način i za srodna prava, ako za njih nije što "  

## 10 Članak 1. posebno određeno ili ne proizlazi iz njihove pravne naravi.«                     

## # ... with 324 more rows

The tidytext package has examples of how to perform further cleanup transformations to facilitate text mining.

answered Nov 8 at 17:27

hrbrmstr

58.1k584143

add a comment |

Your Answer

StackExchange.ifUsing("editor", function () {
StackExchange.using("externalEditor", function () {
StackExchange.using("snippets", function () {
StackExchange.snippets.init();
});
});
}, "code-snippets");

StackExchange.ready(function() {
var channelOptions = {
tags: "".split(" "),
id: "1"
};
initTagRenderer("".split(" "), "".split(" "), channelOptions);

StackExchange.using("externalEditor", function() {
// Have to fire editor after snippets, if snippets enabled
if (StackExchange.settings.snippets.snippetsEnabled) {
StackExchange.using("snippets", function() {
createEditor();
});
}
else {
createEditor();
}
});

function createEditor() {
StackExchange.prepareEditor({
heartbeatType: 'answer',
convertImagesToLinks: true,
noModals: true,
showLowRepImageUploadWarning: true,
reputationToPostImages: 10,
bindNavPrevention: true,
postfix: "",
imageUploader: {
brandingHtml: "Powered by u003ca class="icon-imgur-white" href="https://imgur.com/"u003eu003c/au003e",
contentPolicyHtml: "User contributions licensed under u003ca href="https://creativecommons.org/licenses/by-sa/3.0/"u003ecc by-sa 3.0 with attribution requiredu003c/au003e u003ca href="https://stackoverflow.com/legal/content-policy"u003e(content policy)u003c/au003e",
allowUrls: true
},
onDemand: true,
discardSelector: ".discard-answer"
,immediatelyShowMarkdownHelp:true
});

}
});

draft saved

draft discarded

Sign up or log in

StackExchange.ready(function () {
StackExchange.helpers.onClickDraftSave('#login-link');
});

Post as a guest

Name

Required, but never shown

StackExchange.ready(
function () {
StackExchange.openid.initPostLogin('.new-post-login', 'https%3a%2f%2fstackoverflow.com%2fquestions%2f53212312%2fmake-html-page-text-suitable-for-text-analysis-in-r%23new-answer', 'question_page');
}
);

Post as a guest

Name

Required, but never shown

1 Answer
1

active

oldest

votes

1 Answer
1

active

oldest

votes

up vote
2
down vote

accepted

That site has some very well-structured HTML with the headers and the body text of the section each given their own align attributes. We can use that to extract your text by section:

library(rvest)

library(tidyverse)  



pg <- read_html("https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html")



html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 

  map_df(~{

    data_frame(

      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>% 

        html_text(trim=TRUE),

      section_text = html_text(.x, trim=TRUE)

    )

  }) 

## # A tibble: 38 x 2

##    section    section_text                                                                                      

##    <chr>      <chr>                                                                                             

##  1 Članak 1.  "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u rnčlanku 4. sta…

##  2 Članak 2.  "U članku 8. stavku 2. točki 1. riječ: »standardi« briše se.rnU stavku 3. druga rečenica mijenj…

##  3 Članak 3.  "U članku 20. stavku 2. riječi: »na području Republike Hrvatske« zamjenjuju se rnriječima: »na …

##  4 Članak 4.  "U članku 32. stavku 5. točki 1. i 3. riječ: »naprava« zamjenjuje se riječju: rn»uređaja«.rnU…

##  5 Članak 5.  U članku 39. stavku 1. riječi: »stavka 1.« brišu se.                                              

##  6 Članak 6.  "U članku 44. stavku 5. dodaje se rečenica koja glasi:rn»U slučaju sumnje, u drugim slučajevima…

##  7 Članak 7.  "U članku 52. stavku 3. riječ: »korištenja« zamjenjuje se riječju: rn»iskorištavanja«."         

##  8 Članak 8.  U članku 86. iza riječi: »koji je« dodaje se riječ: »u«.                                          

##  9 Članak 9.  "U članku 98. u stavku 1. riječ: »tehnoloških« zamjenjuje se riječju: rn»tehničkih«.rnStavak …

## 10 Članak 10. "U članku 109. dodaje se stavak 3. koji glasi:rn»(3) Odredbe iz članka 20. ovoga Zakona o iscrp…

## # ... with 28 more rows

You'll need to double check that the above didn't miss anything. Even if it did it should be straightforward to expand upon the answer.

You can get individual lines broken out using the above as well:

html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 

  map_df(~{

    data_frame(

      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>% 

        html_text(trim=TRUE),

      section_text = html_text(.x, trim=TRUE)

    )

  }) %>% 

  mutate(section_text = stri_split_lines(section_text)) %>% 

  unnest(section_text)

## # A tibble: 334 x 2

##    section   section_text                                                                     

##    <chr>     <chr>                                                                            

##  1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u "

##  2 Članak 1. članku 4. stavak 2. mijenja se i glasi:                                          

##  3 Članak 1. "»(2) Odredbe iz ovoga Zakona o definicijama pojedinih autorskih imovinskih "    

##  4 Članak 1. "prava, o pravu na naknadu za reproduciranje autorskog djela za privatno ili "   

##  5 Članak 1. "drugo vlastito korištenje, o pravu na naknadu za javnu posudbu, kao i o "       

##  6 Članak 1. "iscrpljenju prava distribucije, iznimkama i ograničenjima autorskih prava, "    

##  7 Članak 1. "početku tijeka i učincima isteka rokova trajanja autorskog prava, autorskom "   

##  8 Članak 1. "pravu u pravnom prometu te o odnosu autorskog prava i prava vlasništva "        

##  9 Članak 1. "primjenjuju se na odgovarajući način i za srodna prava, ako za njih nije što "  

## 10 Članak 1. posebno određeno ili ne proizlazi iz njihove pravne naravi.«                     

## # ... with 324 more rows

The tidytext package has examples of how to perform further cleanup transformations to facilitate text mining.

answered Nov 8 at 17:27

hrbrmstr

58.1k584143

add a comment |

up vote
2
down vote

accepted

That site has some very well-structured HTML with the headers and the body text of the section each given their own align attributes. We can use that to extract your text by section:

library(rvest)

library(tidyverse)  



pg <- read_html("https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html")



html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 

  map_df(~{

    data_frame(

      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>% 

        html_text(trim=TRUE),

      section_text = html_text(.x, trim=TRUE)

    )

  }) 

## # A tibble: 38 x 2

##    section    section_text                                                                                      

##    <chr>      <chr>                                                                                             

##  1 Članak 1.  "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u rnčlanku 4. sta…

##  2 Članak 2.  "U članku 8. stavku 2. točki 1. riječ: »standardi« briše se.rnU stavku 3. druga rečenica mijenj…

##  3 Članak 3.  "U članku 20. stavku 2. riječi: »na području Republike Hrvatske« zamjenjuju se rnriječima: »na …

##  4 Članak 4.  "U članku 32. stavku 5. točki 1. i 3. riječ: »naprava« zamjenjuje se riječju: rn»uređaja«.rnU…

##  5 Članak 5.  U članku 39. stavku 1. riječi: »stavka 1.« brišu se.                                              

##  6 Članak 6.  "U članku 44. stavku 5. dodaje se rečenica koja glasi:rn»U slučaju sumnje, u drugim slučajevima…

##  7 Članak 7.  "U članku 52. stavku 3. riječ: »korištenja« zamjenjuje se riječju: rn»iskorištavanja«."         

##  8 Članak 8.  U članku 86. iza riječi: »koji je« dodaje se riječ: »u«.                                          

##  9 Članak 9.  "U članku 98. u stavku 1. riječ: »tehnoloških« zamjenjuje se riječju: rn»tehničkih«.rnStavak …

## 10 Članak 10. "U članku 109. dodaje se stavak 3. koji glasi:rn»(3) Odredbe iz članka 20. ovoga Zakona o iscrp…

## # ... with 28 more rows

You'll need to double check that the above didn't miss anything. Even if it did it should be straightforward to expand upon the answer.

You can get individual lines broken out using the above as well:

html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 

  map_df(~{

    data_frame(

      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>% 

        html_text(trim=TRUE),

      section_text = html_text(.x, trim=TRUE)

    )

  }) %>% 

  mutate(section_text = stri_split_lines(section_text)) %>% 

  unnest(section_text)

## # A tibble: 334 x 2

##    section   section_text                                                                     

##    <chr>     <chr>                                                                            

##  1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u "

##  2 Članak 1. članku 4. stavak 2. mijenja se i glasi:                                          

##  3 Članak 1. "»(2) Odredbe iz ovoga Zakona o definicijama pojedinih autorskih imovinskih "    

##  4 Članak 1. "prava, o pravu na naknadu za reproduciranje autorskog djela za privatno ili "   

##  5 Članak 1. "drugo vlastito korištenje, o pravu na naknadu za javnu posudbu, kao i o "       

##  6 Članak 1. "iscrpljenju prava distribucije, iznimkama i ograničenjima autorskih prava, "    

##  7 Članak 1. "početku tijeka i učincima isteka rokova trajanja autorskog prava, autorskom "   

##  8 Članak 1. "pravu u pravnom prometu te o odnosu autorskog prava i prava vlasništva "        

##  9 Članak 1. "primjenjuju se na odgovarajući način i za srodna prava, ako za njih nije što "  

## 10 Članak 1. posebno određeno ili ne proizlazi iz njihove pravne naravi.«                     

## # ... with 324 more rows

The tidytext package has examples of how to perform further cleanup transformations to facilitate text mining.

answered Nov 8 at 17:27

hrbrmstr

58.1k584143

add a comment |

up vote
2
down vote

accepted

That site has some very well-structured HTML with the headers and the body text of the section each given their own align attributes. We can use that to extract your text by section:

library(rvest)

library(tidyverse)  



pg <- read_html("https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html")



html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 

  map_df(~{

    data_frame(

      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>% 

        html_text(trim=TRUE),

      section_text = html_text(.x, trim=TRUE)

    )

  }) 

## # A tibble: 38 x 2

##    section    section_text                                                                                      

##    <chr>      <chr>                                                                                             

##  1 Članak 1.  "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u rnčlanku 4. sta…

##  2 Članak 2.  "U članku 8. stavku 2. točki 1. riječ: »standardi« briše se.rnU stavku 3. druga rečenica mijenj…

##  3 Članak 3.  "U članku 20. stavku 2. riječi: »na području Republike Hrvatske« zamjenjuju se rnriječima: »na …

##  4 Članak 4.  "U članku 32. stavku 5. točki 1. i 3. riječ: »naprava« zamjenjuje se riječju: rn»uređaja«.rnU…

##  5 Članak 5.  U članku 39. stavku 1. riječi: »stavka 1.« brišu se.                                              

##  6 Članak 6.  "U članku 44. stavku 5. dodaje se rečenica koja glasi:rn»U slučaju sumnje, u drugim slučajevima…

##  7 Članak 7.  "U članku 52. stavku 3. riječ: »korištenja« zamjenjuje se riječju: rn»iskorištavanja«."         

##  8 Članak 8.  U članku 86. iza riječi: »koji je« dodaje se riječ: »u«.                                          

##  9 Članak 9.  "U članku 98. u stavku 1. riječ: »tehnoloških« zamjenjuje se riječju: rn»tehničkih«.rnStavak …

## 10 Članak 10. "U članku 109. dodaje se stavak 3. koji glasi:rn»(3) Odredbe iz članka 20. ovoga Zakona o iscrp…

## # ... with 28 more rows

You'll need to double check that the above didn't miss anything. Even if it did it should be straightforward to expand upon the answer.

You can get individual lines broken out using the above as well:

html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 

  map_df(~{

    data_frame(

      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>% 

        html_text(trim=TRUE),

      section_text = html_text(.x, trim=TRUE)

    )

  }) %>% 

  mutate(section_text = stri_split_lines(section_text)) %>% 

  unnest(section_text)

## # A tibble: 334 x 2

##    section   section_text                                                                     

##    <chr>     <chr>                                                                            

##  1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u "

##  2 Članak 1. članku 4. stavak 2. mijenja se i glasi:                                          

##  3 Članak 1. "»(2) Odredbe iz ovoga Zakona o definicijama pojedinih autorskih imovinskih "    

##  4 Članak 1. "prava, o pravu na naknadu za reproduciranje autorskog djela za privatno ili "   

##  5 Članak 1. "drugo vlastito korištenje, o pravu na naknadu za javnu posudbu, kao i o "       

##  6 Članak 1. "iscrpljenju prava distribucije, iznimkama i ograničenjima autorskih prava, "    

##  7 Članak 1. "početku tijeka i učincima isteka rokova trajanja autorskog prava, autorskom "   

##  8 Članak 1. "pravu u pravnom prometu te o odnosu autorskog prava i prava vlasništva "        

##  9 Članak 1. "primjenjuju se na odgovarajući način i za srodna prava, ako za njih nije što "  

## 10 Članak 1. posebno određeno ili ne proizlazi iz njihove pravne naravi.«                     

## # ... with 324 more rows

The tidytext package has examples of how to perform further cleanup transformations to facilitate text mining.

answered Nov 8 at 17:27

hrbrmstr

58.1k584143

That site has some very well-structured HTML with the headers and the body text of the section each given their own align attributes. We can use that to extract your text by section:

library(rvest)

library(tidyverse)  



pg <- read_html("https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html")



html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 

  map_df(~{

    data_frame(

      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>% 

        html_text(trim=TRUE),

      section_text = html_text(.x, trim=TRUE)

    )

  }) 

## # A tibble: 38 x 2

##    section    section_text                                                                                      

##    <chr>      <chr>                                                                                             

##  1 Članak 1.  "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u rnčlanku 4. sta…

##  2 Članak 2.  "U članku 8. stavku 2. točki 1. riječ: »standardi« briše se.rnU stavku 3. druga rečenica mijenj…

##  3 Članak 3.  "U članku 20. stavku 2. riječi: »na području Republike Hrvatske« zamjenjuju se rnriječima: »na …

##  4 Članak 4.  "U članku 32. stavku 5. točki 1. i 3. riječ: »naprava« zamjenjuje se riječju: rn»uređaja«.rnU…

##  5 Članak 5.  U članku 39. stavku 1. riječi: »stavka 1.« brišu se.                                              

##  6 Članak 6.  "U članku 44. stavku 5. dodaje se rečenica koja glasi:rn»U slučaju sumnje, u drugim slučajevima…

##  7 Članak 7.  "U članku 52. stavku 3. riječ: »korištenja« zamjenjuje se riječju: rn»iskorištavanja«."         

##  8 Članak 8.  U članku 86. iza riječi: »koji je« dodaje se riječ: »u«.                                          

##  9 Članak 9.  "U članku 98. u stavku 1. riječ: »tehnoloških« zamjenjuje se riječju: rn»tehničkih«.rnStavak …

## 10 Članak 10. "U članku 109. dodaje se stavak 3. koji glasi:rn»(3) Odredbe iz članka 20. ovoga Zakona o iscrp…

## # ... with 28 more rows

You'll need to double check that the above didn't miss anything. Even if it did it should be straightforward to expand upon the answer.

You can get individual lines broken out using the above as well:

html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 

  map_df(~{

    data_frame(

      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>% 

        html_text(trim=TRUE),

      section_text = html_text(.x, trim=TRUE)

    )

  }) %>% 

  mutate(section_text = stri_split_lines(section_text)) %>% 

  unnest(section_text)

## # A tibble: 334 x 2

##    section   section_text                                                                     

##    <chr>     <chr>                                                                            

##  1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u "

##  2 Članak 1. članku 4. stavak 2. mijenja se i glasi:                                          

##  3 Članak 1. "»(2) Odredbe iz ovoga Zakona o definicijama pojedinih autorskih imovinskih "    

##  4 Članak 1. "prava, o pravu na naknadu za reproduciranje autorskog djela za privatno ili "   

##  5 Članak 1. "drugo vlastito korištenje, o pravu na naknadu za javnu posudbu, kao i o "       

##  6 Članak 1. "iscrpljenju prava distribucije, iznimkama i ograničenjima autorskih prava, "    

##  7 Članak 1. "početku tijeka i učincima isteka rokova trajanja autorskog prava, autorskom "   

##  8 Članak 1. "pravu u pravnom prometu te o odnosu autorskog prava i prava vlasništva "        

##  9 Članak 1. "primjenjuju se na odgovarajući način i za srodna prava, ako za njih nije što "  

## 10 Članak 1. posebno određeno ili ne proizlazi iz njihove pravne naravi.«                     

## # ... with 324 more rows

The tidytext package has examples of how to perform further cleanup transformations to facilitate text mining.

answered Nov 8 at 17:27

hrbrmstr

58.1k584143

answered Nov 8 at 17:27

hrbrmstr

58.1k584143

answered Nov 8 at 17:27

hrbrmstr

58.1k584143

answered Nov 8 at 17:27

hrbrmstr

58.1k584143

add a comment |

draft saved

draft discarded

draft saved

draft discarded

Sign up or log in

StackExchange.ready(function () {
StackExchange.helpers.onClickDraftSave('#login-link');
});

Post as a guest

Name

Required, but never shown

Post as a guest

Name

Required, but never shown

Sign up or log in

StackExchange.ready(function () {
StackExchange.helpers.onClickDraftSave('#login-link');
});

Post as a guest

Name

Required, but never shown

Sign up or log in

StackExchange.ready(function () {
StackExchange.helpers.onClickDraftSave('#login-link');
});

Post as a guest

Name

Required, but never shown

Sign up or log in

StackExchange.ready(function () {
StackExchange.helpers.onClickDraftSave('#login-link');
});

Post as a guest

Name

Required, but never shown

Name

Required, but never shown

Name

Required, but never shown

This page is only for reference, If you need detailed information, please check here

搜尋此網誌

Xtykutl