머신 러닝을 위한 상위 10개 Reddit 데이터 세트

블로그

인터넷의 첫 페이지로 알려진 Reddit은 사용자가 거의 모든 것을 게시할 수 있는 포럼/소셜 미디어 사이트입니다. Facebook, Twitter 또는 Instagram과 달리 대부분의 Reddit 사용자는 익명으로 유지됩니다. Reddit 중재자는 subreddit으로 알려진 하위 포럼을 엄격하게 검열하고 관리합니다. 그러나 익명성은 사람들이 원하는 방식으로 원하는 것을 말할 수 있도록 합니다. 따라서 Reddit 댓글과 게시물은 수많은 자연어 처리(NLP) 모델을 테스트하고 훈련하는 데 적합합니다. 이러한 모델 중 일부에는 콘텐츠 조정 모델 및 감정 분류기가 포함됩니다.



경고: 아래 데이터 세트 중 일부는 콘텐츠 조정 모델 교육을 위해 특별히 컴파일되었습니다. 따라서 데이터에 노골적인 내용이 포함될 수 있습니다.






  1. Cryptocurrency Reddit 주석 데이터 세트 – 이 데이터 세트에는 하위 레딧 r/cryptocurrency의 주석이 포함되어 있습니다. 데이터는 2017년 11월부터 2018년 3월까지 5개월 동안 게시된 댓글로 구성됩니다.



  2. Donald Trump Comments on Reddit – Donald Trump를 언급하는 Reddit에서 크롤링한 수천 개의 댓글이 포함된 간단한 데이터세트입니다.



  3. Reddit 댓글 점수 예측 – 이 데이터 세트는 Reddit 댓글이 찬성 또는 반대를 받을지 여부를 예측할 수 있는 모델을 만드는 데 도움이 되도록 구축되었습니다. 데이터 세트에는 400만 개의 Reddit 댓글이 포함되어 있습니다.






  4. Daily News for Stock Market Prediction – 제목에서 알 수 있듯이 이 데이터 세트는 원래 주식 시장 변동을 예측할 수 있는 모델을 만들기 위해 만들어졌습니다. 데이터는 2008년 6월부터 2016년 7월까지 r/worldnews에서 크롤링한 뉴스와 Dow Jones Industrial Average 주식 데이터로 구성됩니다.

    플로우 크립토는 어디서 살 수 있나요?
  5. Reddit의 World News – r/worldnews 하위 레딧에서 가져온 이 데이터세트에는 2008년으로 거슬러 올라가 이 하위 레딧에 게시된 모든 뉴스에 대한 정보가 포함되어 있습니다. 데이터세트에는 생성 날짜, 찬성 및 반대, 제목, 작성자 및 뉴스에 성인용 콘텐츠가 포함되어 있는지 여부.

...

#머신러닝 #데이터과학 #데이터세트 #머신러닝 #ai

Lionbridge.ai

머신 러닝을 위한 상위 10개 Reddit 데이터 세트

'인터넷의 첫 페이지'에서 가져온 데이터를 사용하여 이 가이드에서는 머신 러닝을 위한 상위 10개 Reddit 데이터 세트를 소개합니다.