Quantitative Text Analysis and Textual Similarity in R

Offert par
Coursera Project Network
Dans ce Projet Guidé, vous :

Tokenize the dataset and convert the data into a document feature matrix Calculate cosine similarity across documents and plot the output

Clock1 hour
BeginnerDébutant
CloudAucun téléchargement requis
VideoVidéo en écran partagé
Comment DotsAnglais
LaptopOrdinateur de bureau uniquement

By the end of this project, you will learn about the concept of document similarity in textual analysis in R. You will know how to load and pre-process a data set of text documents by converting the data set into a corpus and document feature matrix. You will know how to calculate the cosine similarity between documents and explore and plot the output of your calculation.

Les compétences que vous développerez

  • cosine similarity
  • Text Analysis
  • Document Similarity
  • Data Visualization (DataViz)
  • Text Corpus

Apprendrez étape par étape

Votre enseignant(e) vous guidera étape par étape, grâce à une vidéo en écran partagé sur votre espace de travail :

  1. Load textual data into R and turn it into a corpus object and understand the concept of calculating document similarity in textual analysis

  2. Extract meta-data from text document filenames and subset the data frame to exclude unwanted data

  3. Tokenize and clean the dataset and convert the data into a document feature matrix

  4. Calculate cosine similarity across documents and plot the output

Comment fonctionnent les Projets Guidés

Votre espace de travail est un bureau cloud situé dans votre navigateur, aucun téléchargement n'est requis.

Votre enseignant(e) vous guide étape par étape dans une vidéo en écran partagé

Foire Aux Questions

Foire Aux Questions

D'autres questions ? Visitez le Centre d'Aide pour les Étudiants.