Make HTML page (text) suitable for text analysis in R











up vote
0
down vote

favorite












I would like to do some text analytics on text from following web page:
https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html



I don't know how to convert this HTML to tidy text object (every row in text is every row in dataframe).
For example, just applying html_text() function doesn't help:



url <- "https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html"
p <- rvest::read_html(url, encoding = "UTF-8") %>%
rvest::html_text()
p


since I don't have separated rows.










share|improve this question


















  • 1




    Just split your data by the new line character: read_html(url, encoding = "UTF-8") %>% html_text() %>% {strsplit(., "rn")[[1]]}
    – MrFlick
    Nov 8 at 17:18















up vote
0
down vote

favorite












I would like to do some text analytics on text from following web page:
https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html



I don't know how to convert this HTML to tidy text object (every row in text is every row in dataframe).
For example, just applying html_text() function doesn't help:



url <- "https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html"
p <- rvest::read_html(url, encoding = "UTF-8") %>%
rvest::html_text()
p


since I don't have separated rows.










share|improve this question


















  • 1




    Just split your data by the new line character: read_html(url, encoding = "UTF-8") %>% html_text() %>% {strsplit(., "rn")[[1]]}
    – MrFlick
    Nov 8 at 17:18













up vote
0
down vote

favorite









up vote
0
down vote

favorite











I would like to do some text analytics on text from following web page:
https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html



I don't know how to convert this HTML to tidy text object (every row in text is every row in dataframe).
For example, just applying html_text() function doesn't help:



url <- "https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html"
p <- rvest::read_html(url, encoding = "UTF-8") %>%
rvest::html_text()
p


since I don't have separated rows.










share|improve this question













I would like to do some text analytics on text from following web page:
https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html



I don't know how to convert this HTML to tidy text object (every row in text is every row in dataframe).
For example, just applying html_text() function doesn't help:



url <- "https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html"
p <- rvest::read_html(url, encoding = "UTF-8") %>%
rvest::html_text()
p


since I don't have separated rows.







r nlp tidytext






share|improve this question













share|improve this question











share|improve this question




share|improve this question










asked Nov 8 at 16:42









Mislav

411317




411317








  • 1




    Just split your data by the new line character: read_html(url, encoding = "UTF-8") %>% html_text() %>% {strsplit(., "rn")[[1]]}
    – MrFlick
    Nov 8 at 17:18














  • 1




    Just split your data by the new line character: read_html(url, encoding = "UTF-8") %>% html_text() %>% {strsplit(., "rn")[[1]]}
    – MrFlick
    Nov 8 at 17:18








1




1




Just split your data by the new line character: read_html(url, encoding = "UTF-8") %>% html_text() %>% {strsplit(., "rn")[[1]]}
– MrFlick
Nov 8 at 17:18




Just split your data by the new line character: read_html(url, encoding = "UTF-8") %>% html_text() %>% {strsplit(., "rn")[[1]]}
– MrFlick
Nov 8 at 17:18












1 Answer
1






active

oldest

votes

















up vote
2
down vote



accepted










That site has some very well-structured HTML with the headers and the body text of the section each given their own align attributes. We can use that to extract your text by section:



library(rvest)
library(tidyverse)

pg <- read_html("https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html")

html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>%
map_df(~{
data_frame(
section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>%
html_text(trim=TRUE),
section_text = html_text(.x, trim=TRUE)
)
})
## # A tibble: 38 x 2
## section section_text
## <chr> <chr>
## 1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u rnčlanku 4. sta…
## 2 Članak 2. "U članku 8. stavku 2. točki 1. riječ: »standardi« briše se.rnU stavku 3. druga rečenica mijenj…
## 3 Članak 3. "U članku 20. stavku 2. riječi: »na području Republike Hrvatske« zamjenjuju se rnriječima: »na …
## 4 Članak 4. "U članku 32. stavku 5. točki 1. i 3. riječ: »naprava« zamjenjuje se riječju: rn»uređaja«.rnU…
## 5 Članak 5. U članku 39. stavku 1. riječi: »stavka 1.« brišu se.
## 6 Članak 6. "U članku 44. stavku 5. dodaje se rečenica koja glasi:rn»U slučaju sumnje, u drugim slučajevima…
## 7 Članak 7. "U članku 52. stavku 3. riječ: »korištenja« zamjenjuje se riječju: rn»iskorištavanja«."
## 8 Članak 8. U članku 86. iza riječi: »koji je« dodaje se riječ: »u«.
## 9 Članak 9. "U članku 98. u stavku 1. riječ: »tehnoloških« zamjenjuje se riječju: rn»tehničkih«.rnStavak …
## 10 Članak 10. "U članku 109. dodaje se stavak 3. koji glasi:rn»(3) Odredbe iz članka 20. ovoga Zakona o iscrp…
## # ... with 28 more rows


You'll need to double check that the above didn't miss anything. Even if it did it should be straightforward to expand upon the answer.



You can get individual lines broken out using the above as well:



html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 
map_df(~{
data_frame(
section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>%
html_text(trim=TRUE),
section_text = html_text(.x, trim=TRUE)
)
}) %>%
mutate(section_text = stri_split_lines(section_text)) %>%
unnest(section_text)
## # A tibble: 334 x 2
## section section_text
## <chr> <chr>
## 1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u "
## 2 Članak 1. članku 4. stavak 2. mijenja se i glasi:
## 3 Članak 1. "»(2) Odredbe iz ovoga Zakona o definicijama pojedinih autorskih imovinskih "
## 4 Članak 1. "prava, o pravu na naknadu za reproduciranje autorskog djela za privatno ili "
## 5 Članak 1. "drugo vlastito korištenje, o pravu na naknadu za javnu posudbu, kao i o "
## 6 Članak 1. "iscrpljenju prava distribucije, iznimkama i ograničenjima autorskih prava, "
## 7 Članak 1. "početku tijeka i učincima isteka rokova trajanja autorskog prava, autorskom "
## 8 Članak 1. "pravu u pravnom prometu te o odnosu autorskog prava i prava vlasništva "
## 9 Članak 1. "primjenjuju se na odgovarajući način i za srodna prava, ako za njih nije što "
## 10 Članak 1. posebno određeno ili ne proizlazi iz njihove pravne naravi.«
## # ... with 324 more rows


The tidytext package has examples of how to perform further cleanup transformations to facilitate text mining.






share|improve this answer





















    Your Answer






    StackExchange.ifUsing("editor", function () {
    StackExchange.using("externalEditor", function () {
    StackExchange.using("snippets", function () {
    StackExchange.snippets.init();
    });
    });
    }, "code-snippets");

    StackExchange.ready(function() {
    var channelOptions = {
    tags: "".split(" "),
    id: "1"
    };
    initTagRenderer("".split(" "), "".split(" "), channelOptions);

    StackExchange.using("externalEditor", function() {
    // Have to fire editor after snippets, if snippets enabled
    if (StackExchange.settings.snippets.snippetsEnabled) {
    StackExchange.using("snippets", function() {
    createEditor();
    });
    }
    else {
    createEditor();
    }
    });

    function createEditor() {
    StackExchange.prepareEditor({
    heartbeatType: 'answer',
    convertImagesToLinks: true,
    noModals: true,
    showLowRepImageUploadWarning: true,
    reputationToPostImages: 10,
    bindNavPrevention: true,
    postfix: "",
    imageUploader: {
    brandingHtml: "Powered by u003ca class="icon-imgur-white" href="https://imgur.com/"u003eu003c/au003e",
    contentPolicyHtml: "User contributions licensed under u003ca href="https://creativecommons.org/licenses/by-sa/3.0/"u003ecc by-sa 3.0 with attribution requiredu003c/au003e u003ca href="https://stackoverflow.com/legal/content-policy"u003e(content policy)u003c/au003e",
    allowUrls: true
    },
    onDemand: true,
    discardSelector: ".discard-answer"
    ,immediatelyShowMarkdownHelp:true
    });


    }
    });














     

    draft saved


    draft discarded


















    StackExchange.ready(
    function () {
    StackExchange.openid.initPostLogin('.new-post-login', 'https%3a%2f%2fstackoverflow.com%2fquestions%2f53212312%2fmake-html-page-text-suitable-for-text-analysis-in-r%23new-answer', 'question_page');
    }
    );

    Post as a guest















    Required, but never shown

























    1 Answer
    1






    active

    oldest

    votes








    1 Answer
    1






    active

    oldest

    votes









    active

    oldest

    votes






    active

    oldest

    votes








    up vote
    2
    down vote



    accepted










    That site has some very well-structured HTML with the headers and the body text of the section each given their own align attributes. We can use that to extract your text by section:



    library(rvest)
    library(tidyverse)

    pg <- read_html("https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html")

    html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>%
    map_df(~{
    data_frame(
    section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>%
    html_text(trim=TRUE),
    section_text = html_text(.x, trim=TRUE)
    )
    })
    ## # A tibble: 38 x 2
    ## section section_text
    ## <chr> <chr>
    ## 1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u rnčlanku 4. sta…
    ## 2 Članak 2. "U članku 8. stavku 2. točki 1. riječ: »standardi« briše se.rnU stavku 3. druga rečenica mijenj…
    ## 3 Članak 3. "U članku 20. stavku 2. riječi: »na području Republike Hrvatske« zamjenjuju se rnriječima: »na …
    ## 4 Članak 4. "U članku 32. stavku 5. točki 1. i 3. riječ: »naprava« zamjenjuje se riječju: rn»uređaja«.rnU…
    ## 5 Članak 5. U članku 39. stavku 1. riječi: »stavka 1.« brišu se.
    ## 6 Članak 6. "U članku 44. stavku 5. dodaje se rečenica koja glasi:rn»U slučaju sumnje, u drugim slučajevima…
    ## 7 Članak 7. "U članku 52. stavku 3. riječ: »korištenja« zamjenjuje se riječju: rn»iskorištavanja«."
    ## 8 Članak 8. U članku 86. iza riječi: »koji je« dodaje se riječ: »u«.
    ## 9 Članak 9. "U članku 98. u stavku 1. riječ: »tehnoloških« zamjenjuje se riječju: rn»tehničkih«.rnStavak …
    ## 10 Članak 10. "U članku 109. dodaje se stavak 3. koji glasi:rn»(3) Odredbe iz članka 20. ovoga Zakona o iscrp…
    ## # ... with 28 more rows


    You'll need to double check that the above didn't miss anything. Even if it did it should be straightforward to expand upon the answer.



    You can get individual lines broken out using the above as well:



    html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 
    map_df(~{
    data_frame(
    section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>%
    html_text(trim=TRUE),
    section_text = html_text(.x, trim=TRUE)
    )
    }) %>%
    mutate(section_text = stri_split_lines(section_text)) %>%
    unnest(section_text)
    ## # A tibble: 334 x 2
    ## section section_text
    ## <chr> <chr>
    ## 1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u "
    ## 2 Članak 1. članku 4. stavak 2. mijenja se i glasi:
    ## 3 Članak 1. "»(2) Odredbe iz ovoga Zakona o definicijama pojedinih autorskih imovinskih "
    ## 4 Članak 1. "prava, o pravu na naknadu za reproduciranje autorskog djela za privatno ili "
    ## 5 Članak 1. "drugo vlastito korištenje, o pravu na naknadu za javnu posudbu, kao i o "
    ## 6 Članak 1. "iscrpljenju prava distribucije, iznimkama i ograničenjima autorskih prava, "
    ## 7 Članak 1. "početku tijeka i učincima isteka rokova trajanja autorskog prava, autorskom "
    ## 8 Članak 1. "pravu u pravnom prometu te o odnosu autorskog prava i prava vlasništva "
    ## 9 Članak 1. "primjenjuju se na odgovarajući način i za srodna prava, ako za njih nije što "
    ## 10 Članak 1. posebno određeno ili ne proizlazi iz njihove pravne naravi.«
    ## # ... with 324 more rows


    The tidytext package has examples of how to perform further cleanup transformations to facilitate text mining.






    share|improve this answer

























      up vote
      2
      down vote



      accepted










      That site has some very well-structured HTML with the headers and the body text of the section each given their own align attributes. We can use that to extract your text by section:



      library(rvest)
      library(tidyverse)

      pg <- read_html("https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html")

      html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>%
      map_df(~{
      data_frame(
      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>%
      html_text(trim=TRUE),
      section_text = html_text(.x, trim=TRUE)
      )
      })
      ## # A tibble: 38 x 2
      ## section section_text
      ## <chr> <chr>
      ## 1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u rnčlanku 4. sta…
      ## 2 Članak 2. "U članku 8. stavku 2. točki 1. riječ: »standardi« briše se.rnU stavku 3. druga rečenica mijenj…
      ## 3 Članak 3. "U članku 20. stavku 2. riječi: »na području Republike Hrvatske« zamjenjuju se rnriječima: »na …
      ## 4 Članak 4. "U članku 32. stavku 5. točki 1. i 3. riječ: »naprava« zamjenjuje se riječju: rn»uređaja«.rnU…
      ## 5 Članak 5. U članku 39. stavku 1. riječi: »stavka 1.« brišu se.
      ## 6 Članak 6. "U članku 44. stavku 5. dodaje se rečenica koja glasi:rn»U slučaju sumnje, u drugim slučajevima…
      ## 7 Članak 7. "U članku 52. stavku 3. riječ: »korištenja« zamjenjuje se riječju: rn»iskorištavanja«."
      ## 8 Članak 8. U članku 86. iza riječi: »koji je« dodaje se riječ: »u«.
      ## 9 Članak 9. "U članku 98. u stavku 1. riječ: »tehnoloških« zamjenjuje se riječju: rn»tehničkih«.rnStavak …
      ## 10 Članak 10. "U članku 109. dodaje se stavak 3. koji glasi:rn»(3) Odredbe iz članka 20. ovoga Zakona o iscrp…
      ## # ... with 28 more rows


      You'll need to double check that the above didn't miss anything. Even if it did it should be straightforward to expand upon the answer.



      You can get individual lines broken out using the above as well:



      html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 
      map_df(~{
      data_frame(
      section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>%
      html_text(trim=TRUE),
      section_text = html_text(.x, trim=TRUE)
      )
      }) %>%
      mutate(section_text = stri_split_lines(section_text)) %>%
      unnest(section_text)
      ## # A tibble: 334 x 2
      ## section section_text
      ## <chr> <chr>
      ## 1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u "
      ## 2 Članak 1. članku 4. stavak 2. mijenja se i glasi:
      ## 3 Članak 1. "»(2) Odredbe iz ovoga Zakona o definicijama pojedinih autorskih imovinskih "
      ## 4 Članak 1. "prava, o pravu na naknadu za reproduciranje autorskog djela za privatno ili "
      ## 5 Članak 1. "drugo vlastito korištenje, o pravu na naknadu za javnu posudbu, kao i o "
      ## 6 Članak 1. "iscrpljenju prava distribucije, iznimkama i ograničenjima autorskih prava, "
      ## 7 Članak 1. "početku tijeka i učincima isteka rokova trajanja autorskog prava, autorskom "
      ## 8 Članak 1. "pravu u pravnom prometu te o odnosu autorskog prava i prava vlasništva "
      ## 9 Članak 1. "primjenjuju se na odgovarajući način i za srodna prava, ako za njih nije što "
      ## 10 Članak 1. posebno određeno ili ne proizlazi iz njihove pravne naravi.«
      ## # ... with 324 more rows


      The tidytext package has examples of how to perform further cleanup transformations to facilitate text mining.






      share|improve this answer























        up vote
        2
        down vote



        accepted







        up vote
        2
        down vote



        accepted






        That site has some very well-structured HTML with the headers and the body text of the section each given their own align attributes. We can use that to extract your text by section:



        library(rvest)
        library(tidyverse)

        pg <- read_html("https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html")

        html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>%
        map_df(~{
        data_frame(
        section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>%
        html_text(trim=TRUE),
        section_text = html_text(.x, trim=TRUE)
        )
        })
        ## # A tibble: 38 x 2
        ## section section_text
        ## <chr> <chr>
        ## 1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u rnčlanku 4. sta…
        ## 2 Članak 2. "U članku 8. stavku 2. točki 1. riječ: »standardi« briše se.rnU stavku 3. druga rečenica mijenj…
        ## 3 Članak 3. "U članku 20. stavku 2. riječi: »na području Republike Hrvatske« zamjenjuju se rnriječima: »na …
        ## 4 Članak 4. "U članku 32. stavku 5. točki 1. i 3. riječ: »naprava« zamjenjuje se riječju: rn»uređaja«.rnU…
        ## 5 Članak 5. U članku 39. stavku 1. riječi: »stavka 1.« brišu se.
        ## 6 Članak 6. "U članku 44. stavku 5. dodaje se rečenica koja glasi:rn»U slučaju sumnje, u drugim slučajevima…
        ## 7 Članak 7. "U članku 52. stavku 3. riječ: »korištenja« zamjenjuje se riječju: rn»iskorištavanja«."
        ## 8 Članak 8. U članku 86. iza riječi: »koji je« dodaje se riječ: »u«.
        ## 9 Članak 9. "U članku 98. u stavku 1. riječ: »tehnoloških« zamjenjuje se riječju: rn»tehničkih«.rnStavak …
        ## 10 Članak 10. "U članku 109. dodaje se stavak 3. koji glasi:rn»(3) Odredbe iz članka 20. ovoga Zakona o iscrp…
        ## # ... with 28 more rows


        You'll need to double check that the above didn't miss anything. Even if it did it should be straightforward to expand upon the answer.



        You can get individual lines broken out using the above as well:



        html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 
        map_df(~{
        data_frame(
        section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>%
        html_text(trim=TRUE),
        section_text = html_text(.x, trim=TRUE)
        )
        }) %>%
        mutate(section_text = stri_split_lines(section_text)) %>%
        unnest(section_text)
        ## # A tibble: 334 x 2
        ## section section_text
        ## <chr> <chr>
        ## 1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u "
        ## 2 Članak 1. članku 4. stavak 2. mijenja se i glasi:
        ## 3 Članak 1. "»(2) Odredbe iz ovoga Zakona o definicijama pojedinih autorskih imovinskih "
        ## 4 Članak 1. "prava, o pravu na naknadu za reproduciranje autorskog djela za privatno ili "
        ## 5 Članak 1. "drugo vlastito korištenje, o pravu na naknadu za javnu posudbu, kao i o "
        ## 6 Članak 1. "iscrpljenju prava distribucije, iznimkama i ograničenjima autorskih prava, "
        ## 7 Članak 1. "početku tijeka i učincima isteka rokova trajanja autorskog prava, autorskom "
        ## 8 Članak 1. "pravu u pravnom prometu te o odnosu autorskog prava i prava vlasništva "
        ## 9 Članak 1. "primjenjuju se na odgovarajući način i za srodna prava, ako za njih nije što "
        ## 10 Članak 1. posebno određeno ili ne proizlazi iz njihove pravne naravi.«
        ## # ... with 324 more rows


        The tidytext package has examples of how to perform further cleanup transformations to facilitate text mining.






        share|improve this answer












        That site has some very well-structured HTML with the headers and the body text of the section each given their own align attributes. We can use that to extract your text by section:



        library(rvest)
        library(tidyverse)

        pg <- read_html("https://narodne-novine.nn.hr/clanci/sluzbeni/full/2007_07_79_2491.html")

        html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>%
        map_df(~{
        data_frame(
        section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>%
        html_text(trim=TRUE),
        section_text = html_text(.x, trim=TRUE)
        )
        })
        ## # A tibble: 38 x 2
        ## section section_text
        ## <chr> <chr>
        ## 1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u rnčlanku 4. sta…
        ## 2 Članak 2. "U članku 8. stavku 2. točki 1. riječ: »standardi« briše se.rnU stavku 3. druga rečenica mijenj…
        ## 3 Članak 3. "U članku 20. stavku 2. riječi: »na području Republike Hrvatske« zamjenjuju se rnriječima: »na …
        ## 4 Članak 4. "U članku 32. stavku 5. točki 1. i 3. riječ: »naprava« zamjenjuje se riječju: rn»uređaja«.rnU…
        ## 5 Članak 5. U članku 39. stavku 1. riječi: »stavka 1.« brišu se.
        ## 6 Članak 6. "U članku 44. stavku 5. dodaje se rečenica koja glasi:rn»U slučaju sumnje, u drugim slučajevima…
        ## 7 Članak 7. "U članku 52. stavku 3. riječ: »korištenja« zamjenjuje se riječju: rn»iskorištavanja«."
        ## 8 Članak 8. U članku 86. iza riječi: »koji je« dodaje se riječ: »u«.
        ## 9 Članak 9. "U članku 98. u stavku 1. riječ: »tehnoloških« zamjenjuje se riječju: rn»tehničkih«.rnStavak …
        ## 10 Članak 10. "U članku 109. dodaje se stavak 3. koji glasi:rn»(3) Odredbe iz članka 20. ovoga Zakona o iscrp…
        ## # ... with 28 more rows


        You'll need to double check that the above didn't miss anything. Even if it did it should be straightforward to expand upon the answer.



        You can get individual lines broken out using the above as well:



        html_nodes(pg, xpath = ".//p[@align='center']/following-sibling::p[@align='justify']") %>% 
        map_df(~{
        data_frame(
        section = html_node(.x, xpath=".//preceding-sibling::p[@align='center'][1]") %>%
        html_text(trim=TRUE),
        section_text = html_text(.x, trim=TRUE)
        )
        }) %>%
        mutate(section_text = stri_split_lines(section_text)) %>%
        unnest(section_text)
        ## # A tibble: 334 x 2
        ## section section_text
        ## <chr> <chr>
        ## 1 Članak 1. "U Zakonu o autorskom pravu i srodnim pravima (»Narodne novine«, br. 167/03.) u "
        ## 2 Članak 1. članku 4. stavak 2. mijenja se i glasi:
        ## 3 Članak 1. "»(2) Odredbe iz ovoga Zakona o definicijama pojedinih autorskih imovinskih "
        ## 4 Članak 1. "prava, o pravu na naknadu za reproduciranje autorskog djela za privatno ili "
        ## 5 Članak 1. "drugo vlastito korištenje, o pravu na naknadu za javnu posudbu, kao i o "
        ## 6 Članak 1. "iscrpljenju prava distribucije, iznimkama i ograničenjima autorskih prava, "
        ## 7 Članak 1. "početku tijeka i učincima isteka rokova trajanja autorskog prava, autorskom "
        ## 8 Članak 1. "pravu u pravnom prometu te o odnosu autorskog prava i prava vlasništva "
        ## 9 Članak 1. "primjenjuju se na odgovarajući način i za srodna prava, ako za njih nije što "
        ## 10 Članak 1. posebno određeno ili ne proizlazi iz njihove pravne naravi.«
        ## # ... with 324 more rows


        The tidytext package has examples of how to perform further cleanup transformations to facilitate text mining.







        share|improve this answer












        share|improve this answer



        share|improve this answer










        answered Nov 8 at 17:27









        hrbrmstr

        58.1k584143




        58.1k584143






























             

            draft saved


            draft discarded



















































             


            draft saved


            draft discarded














            StackExchange.ready(
            function () {
            StackExchange.openid.initPostLogin('.new-post-login', 'https%3a%2f%2fstackoverflow.com%2fquestions%2f53212312%2fmake-html-page-text-suitable-for-text-analysis-in-r%23new-answer', 'question_page');
            }
            );

            Post as a guest















            Required, but never shown





















































            Required, but never shown














            Required, but never shown












            Required, but never shown







            Required, but never shown

































            Required, but never shown














            Required, but never shown












            Required, but never shown







            Required, but never shown







            Popular posts from this blog

            Schultheiß

            Verwaltungsgliederung Dänemarks

            Liste der Kulturdenkmale in Wilsdruff