二、查看数据#

二、查看数据#

一、「China Daily」概况#

数据来源: chinadaily.com

覆盖日期: 2008-10-24 ~ 2024-06-29

所含字段: date, title, content, source, link, img, lang

记录条数: 847854

- 英文 697241

- 中文 150613

文件格式: csv

文件大小: 2648M

本文声明: 如有问题, 请加微信372335839,备注「姓名-学校-专业」

二、查看数据#

2.1 读取数据#

import pandas as pd

df = pd.read_csv('ChinaDaily.csv')

df

2.2 覆盖日期#

df['date'] = pd.to_datetime(df['date'], errors='coerce')

print('起: ', df['date'].min().strftime('%Y-%m-%d'))

print('止: ', df['date'].max().strftime('%Y-%m-%d'))

Run

起: 2008-10-24

止: 2024-06-29

2.3 所含字段#

for col in df.columns:

print(col)

Run

date #日期

title #标题

content #新闻内容

source #来源

link #新闻链接

img #新闻首图链接

lang #语言chinese、english

2.4 语言#

China Daily是双语网站, 数据集中大多为英文新闻,也含少量中文内容。 中英文新闻的记录数

df['lang'].value_counts()

Run

lang

english 697241

chinese 150613

2.5 月度发文量#

months = []

for date, month_df in df.groupby(pd.Grouper(key='date', freq='M')):

#print(date)

months.append((date, len(month_df)))

data = pd.DataFrame(months)

data.columns = ['date', 'count']

data

from plotnine import *

import matplotlib.pyplot as plt

from matplotlib.font_manager import FontProperties

#文泉驿微米黑.ttf位于代码同文件夹

font_prop = FontProperties(fname='文泉驿微米黑.ttf')

date_breaks = [d.strftime('%Y-%m') for d in pd.date_range(start = data['date'].min(),

end = data['date'].max(),

freq = '12M')]

date_labels = [d[:4] for d in date_breaks]

(

ggplot(data, aes(x='date', y='count'))

+geom_point()

+geom_line()

+theme(figure_size=(10, 6),

text = element_text(family = font_prop.get_name()),

plot_title = element_text(family = font_prop.get_name(), size=12)

)

+labs(title='China Daily月度发文量(2008.10 ~ 2024.06)',

x = '月度',

y = '发文量')

+scale_x_datetime(breaks=date_breaks, labels = date_labels)

)

注意#

如Excel打开csv乱码, 请百度搜【在 Excel 中正确打开 CSV UTF-8 文件】

三、数据用途#

新闻数据集 可提取丰富的指标,包括但不限于 经济政策不确定性指数 、环境政策不确定性、 媒体关注度指数、文本相似度、情感分析。此外, 可训练词向量,开发新的概念词典。数据带时间, 参照前面指标, 依主体、日期、指标进行计算, 可构造面板数据,构建新的指标指数。因此在经济学、管理学、新闻传播学、公共管理、社会学等领域均有较高的研究价值。

相关参考文献

[1]洪永淼,刘俸奇,薛涧坡.政府与市场心理因素的经济影响及其测度[J].管理世界,2023,39(03):30-51.

[2]刘景江,郑畅然,洪永淼.机器学习如何赋能管理学研究?——国内外前沿综述和未来展望[J].管理世界,2023,39(09):191-216.

[3]张一帆,林建浩,樊嘉诚.新闻文本大数据与消费增速实时预测——基于叙事经济学的视角[J].金融研究,2023,(05):152-169.

[4]Huang, Yun, and Paul Luk. "Measuring economic policy uncertainty in China." China Economic Review 59 (2020): 101367

[5]欧阳资生,陈世丽,杨希特,刘凤根,周学伟.经济政策不确定性、网络舆情与金融机构系统性风险[J].管理科学学报,2023,26(04):62-86.

[6]逯东,宋昕倍.媒体报道、上市公司年报可读性与融资约束[J].管理科学学报,2021,24(12):45-61.

[7]彭涛,黄福广,孙凌霞.经济政策不确定性与风险承担:基于风险投资的证据[J].管理科学学报,2021,24(03):98-114.

[8]庞锐.采纳与内化:多重制度压力如何影响河长制创新扩散——基于省级政府的定向配对事件史分析[J].公共管理学报,2023,20(02):25-37+165-166.

精选内容#

LIST | 可供社科(经管)领域使用的数据集汇总

LIST | 社科(经管)数据挖掘文献资料汇总

推荐 | 文本分析库cntext2.x使用手册

付费视频课 | Python实证指标构建与文本分析

数据集(英文)| USA Today新闻数据集(2012~2024)

数据集 | 企业家Entrepreneur杂志数据集(1996 ~ 2024)

代码 | 如何处理远超电脑内存的csv文件

代码 | 使用「新闻数据」构造概念词提及量「面板数据」

可视化 | 人民日报语料反映七十年文化演变

代码 | 使用「新闻数据」测量 「经济政策不确定性EPU」指标


相关推荐

常见的5种食物,可能甲醛超标!教你3步识别,别再买错了
步兵班几人最好?中美传统9人制各有特色,美陆战队尝试大班制
全能影视是什么软件?看完这篇你就全明白了!
戴尔如何u盘装系统 戴尔u盘启动装系统教程
威高镜头笔怎么样(做工|设计|笔头|笔帽)
英超一共踢多少轮