Reproducible Research with R
For academics, Reproducible research by means of a fully scripted process from raw data to final output, is a killer feature of the R ecosystem, and can ensure that you avoid the kind of mistakes that invariably happen when you do things manually:
Poster presented at a scientific conference – we suspect the author did not use a fully-scripted RRR workflow.
The interwoven R code and Quarto markdown (in RStudio), which may reference bibliographic data (Zotero, BibTeX, CSL), is knitted into one of a number for difference output formats, including Open Document Format, PDF, Microsoft Word, and HTML.
The final step of transforming the markdown into an output format, is handled by the program Pandoc.
On the following four tabs, look at the original quarto document and the result of rendering to three of the most common output formats:
A snippet of the raw quarto document, containing a YAML which references bibliographic data, an R chunk and some quarto markdown.
The same quarto document rendered to PDF format (based on the generic LaTeX template called KOMA)
The manuscript rendered to a Microsoft Word document, based on a custom Word template which specifies double line distance, line numbering, etc.
The manuscript rendered to HTML format, which is probably the easiest (and fastest) output format for everyday coding.
- Replication refers to testing the reliability of a prior research finding with different data.
- Robustness refers to testing the reliability of a prior research finding using the same data and a different analysis strategy.
- Reproducibility refers to testing the reliability of a prior research finding using the same data and same analysis strategy.
..based on Annual Review of Psychology
We recommend the book “Reproducible Research with R and RStudio” by Christopher Gandrud. It is available online, in the SDU library and from the book shop.
In the following pages, you can read about building a submission-ready manuscript, from raw-data, via Quarto and R code, to rendered output such as publication-ready plots, word documents, etc:
- How to build a research manuscript by integrating R code and Quarto markdown
- How to control the layout of the output document (pdf, docx, etc)
- How to integrate your references and citation styles
How to generate and integrate graphics and plots- How to collaborate with your colleagues and manage document versions
How to ensure good reproducibility or your research, from comments to version control.
For akademikere, er Reproducible research via en 100% kodet arbejdsgang fra rådata til færdigt output, en killer feature ved R økosystemet, som kan sikre at du undgår den slags banale fejl som uundgåeligt sker når du gør tingene manuelt:
Poster præsenteret ved en videnskabelig konference – vi gætter på at forfatterne ikke arbejdede i et RRR workflow.
Den integrerede R kode og Quarto markdown (i RStudio), som eventuelt gør brug af bibliografiske data (Zotero, BibTeX, CSL) kan flettes sammen til et antal forskellige output formater, inkl. Open Document Format, PDF, Microsoft Word, og HTML.
Det sidste trin af konverteringen af markdown til output format, håndteres af programmet Pandoc.
På de følgende fire faneblade kan du se det oprindelige quarto dokument og resultatet af konvertering til tre af de mest hyppigt anvendte output formater:
En stump af det oprindelige Quarto dokument, med en YAML der indeholde referencer til forskellige bibliograpfiske data, en R ‘chunk’ og noget Quarto markdown tekst.
Det samme Quarto dokument ’render’et til PDF (baseret på den generiske LaTeX skabelon KOMA)
Manuskriptet konverteret til at Microsoft Word dokument, baseret på en skræddersyet skabelon med dobbelt linjeafstand, linjenumre, etc.
Manuskriptet konverteret til HTML, som formentligt er det nemmeste (og hurtigste) at arbejde med i dagligdagen.
- Replikation refererer til at teste pålideligheden af en tidligere forskningsfund med andre data.
- Robusthed refererer til at teste pålideligheden af en tidligere forskningsfund med de samme data og en anden analysemetode.
- Reproducerbarhed refererer til at teste pålideligheden af en tidligere forskningsfund med de samme data og samme analysemetode.
..baseret på Annual Review of Psychology
Vi anbefaler bogen “Reproducible Research with R and RStudio” af Christopher Gandrud. Den er tilgængelig online, på SDU-biblioteket og i boghandlen.
På de følgende sider kan du læse om, hvordan du bygger et submissionsklart manuskript fra rådata via Quarto og R-kode til gengivet output som publikationsegnede grafer, Word-dokumenter osv.:
- Hvordan man opbygger et forskningsmanuskript ved at integrere R-kode og Quarto-markdown
- Hvordan man styrer layoutet af outputdokumentet (pdf, docx osv.)
- Hvordan man integrerer referencer og citationstyles
Hvordan man genererer og integrerer grafik og plots
- Hvordan man samarbejder med kolleger og håndterer dokumentversioner
Hvordan man sikrer god reproducerbarhed af din forskning, fra kommentarer til versionskontrol.