主页 > 创业  > 

【数据集】ACM数据集

【数据集】ACM数据集

ACM(Association for Computing Machinery)数据集是计算机科学领域常用于研究学术论文、作者关系、引文网络、推荐系统、图神经网络(GNN)等任务的数据集之一。该数据集通常包含学术论文、作者、研究领域以及它们之间的关系,并在许多机器学习、数据挖掘和社交网络分析任务中广泛使用。


1. ACM数据集的版本和来源

ACM数据集的版本较多,不同版本的数据来源和内容可能有所不同,常见的版本包括:

ACM Citation Network Dataset:由Microsoft Academic Graph(MAG)或DBLP提取的ACM引用网络数据,包含论文及其引用关系。ACM Author-Paper Dataset:用于学术社交网络分析,包含作者、论文及其关系信息。ACM数据集(ACM-DBLP):用于异质图神经网络(Heterogeneous Graph Neural Networks, HGNN)研究,包括论文、作者和研究领域。
2. 数据结构

不同的ACM数据集包含不同的信息,以下是常见的数据组织形式:

(1) 节点类型

ACM数据集通常包含以下几类节点:

Paper(论文):包括论文ID、标题、摘要、发表年份、会议等信息。Author(作者):包括作者ID、姓名、单位等信息。Conference/Venue(会议或期刊):论文发表的会议或期刊信息。Field(研究领域):论文所属的计算机科学研究方向。 (2) 边类型(关系) (Author, writes, Paper):作者撰写论文的关系。(Paper, cites, Paper):论文引用其他论文的关系。(Paper, published_in, Conference):论文发表在会议上的关系。(Paper, belongs_to, Field):论文所属的研究领域。 (3) 典型数据格式

ACM数据集通常以CSV、JSON、Graph(图数据格式,如Neo4j、DGL、PyG)存储。常见的数据示例如下:

论文表 (Papers.csv) PaperIDTitleYearConferenceP001"Deep Learning for NLP"2018NeurIPSP002"Graph Neural Networks"2019ICMLP003"A Survey on Recommender Sys"2017WWW 作者表 (Authors.csv) AuthorIDNameAffiliationA001John SmithMITA002Alice BrownStanfordA003Bob JohnsonHarvard 论文-作者关系 (Paper_Author.csv) PaperIDAuthorIDP001A001P002A002P002A003 论文引用关系 (Paper_Citation.csv) CitingPaperIDCitedPaperIDP002P001P003P001
3. ACM数据集的用途

ACM数据集常用于以下研究领域:

(1) 论文推荐系统 基于协同过滤的推荐:使用论文-作者-领域关系构建推荐模型。基于图神经网络(GNN)的论文推荐:利用异构图神经网络(Heterogeneous GNN)建模论文、作者和领域之间的关系。 (2) 学术社交网络分析 研究作者合作关系,分析学术合作模式。识别学术领域的关键作者、影响力最大论文等。 (3) 计算机科学研究趋势分析 通过论文发表年份和研究领域分析不同方向的发展趋势。利用文本挖掘技术提取研究热点。 (4) 引文网络分析 分析论文的影响力和被引次数,研究学术传播模式。计算论文PageRank值,发现高影响力论文。 (5) 机器学习与深度学习实验 异构图表示学习:Heterogeneous Graph Embedding (如metapath2vec)。图神经网络:Graph Neural Networks (如 GCN, GAT, HAN) 在学术网络中的应用。
4. 相关研究与数据集下载

ACM数据集的不同版本可以从以下渠道获取:

Microsoft Academic Graph (MAG):Microsoft Academic Graph - Microsoft ResearchDBLP (计算机科学论文库):dblp: computer science bibliographyOGB (Open Graph Benchmark):Open Graph Benchmark | A collection of benchmark datasets, data-loaders and evaluators for graph machine learning in PyTorch.Graph Learning Benchmarks (GLB): graphlearning.io/
5. 代码示例

使用Python和NetworkX分析ACM引文网络的示例:

import pandas as pd import networkx as nx import matplotlib.pyplot as plt # 读取数据 papers = pd.read_csv("Papers.csv") # 论文数据 authors = pd.read_csv("Authors.csv") # 作者数据 citations = pd.read_csv("Paper_Citation.csv") # 论文引用关系 # 创建有向图 G = nx.DiGraph() # 添加论文节点 for _, row in papers.iterrows(): G.add_node(row["PaperID"], label="Paper", title=row["Title"]) # 添加引用关系 for _, row in citations.iterrows(): G.add_edge(row["CitingPaperID"], row["CitedPaperID"], relation="cites") # 绘制引文网络 plt.figure(figsize=(10, 8)) nx.draw_networkx(G, with_labels=True, node_size=500, font_size=8) plt.show()

该代码读取ACM数据集的论文和引文关系,并用 NetworkX 绘制引文网络。


数据集特点 异构性(Heterogeneity):ACM 数据集包含 论文-作者-会议-研究领域 之间的复杂关系,适用于 异构图分析。高质量学术数据:数据来源于 ACM、DBLP、Microsoft Academic Graph (MAG) 等权威数据库,适用于学术网络分析和推荐系统研究。大规模 & 小规模数据版本: 大规模 ACM-MAG 数据集 适用于大规模引文网络分析(论文数百万级)。小规模 ACM-DBLP 数据集 适用于 Heterogeneous Graph Neural Networks (HGNN) 研究(论文数万级)。 适用于机器学习 & 深度学习: 可用于 论文推荐系统、学术影响力分析、知识图谱构建。可用于 图神经网络(GNN)训练,如 GCN、GAT、HAN 等。


常用子集

下载地址:ACM Dataset | Papers With Code

ACM数据集包含了发表在KDD、SIGMOD、SIGCOMM、MobiCOMM和VLDB等顶级会议上的论文,并根据研究领域分为三大类:数据库(Database)、无线通信(Wireless Communication)和数据挖掘(Data Mining)。该数据集构建了一个异质图(heterogeneous graph),其中包含以下实体和关系:

论文(Paper):3025篇论文,每篇论文的特征通过关键词的词袋模型(bag-of-words)表示。

作者(Author):5835位作者,与论文之间存在撰写关系。

主题(Subject):56个主题,与论文之间存在分类关系。

数据集的核心特点:

异质图结构:

图中包含多种类型的节点(论文、作者、主题)和边(论文-作者、论文-主题)。

这种异质图结构适合用于图神经网络(GNN)等图数据分析任务。

论文特征:

每篇论文的特征通过关键词的词袋模型表示,即用一组关键词的向量来描述论文内容。

这种表示方法适用于文本挖掘、分类和推荐等任务。

类别划分:

论文被划分为三大类:数据库、无线通信和数据挖掘。

这种分类信息可用于监督学习任务,如论文分类或领域预测。

应用场景:

论文分类:基于论文的关键词特征和异质图结构,对论文进行领域分类。

作者推荐:通过分析作者与论文的关系,推荐潜在的合作者。

主题挖掘:从论文与主题的关系中挖掘热门研究领域或趋势。

图神经网络研究:作为异质图的典型数据集,用于验证图神经网络算法的性能。

数据集的挑战:

异质图复杂性:由于包含多种类型的节点和边,图的构建和分析较为复杂。

特征稀疏性:词袋模型表示的关键词特征可能较为稀疏,需要特征工程或嵌入表示来优化。

类别不平衡:三大类论文的数量可能不均衡,需注意分类任务中的数据平衡问题。


ACM数据集是学术论文推荐、学术网络分析和图机器学习研究的重要数据集,广泛用于学术社交网络分析、推荐系统、文本挖掘、知识图谱等领域。它不仅提供了学术论文的详细信息,还通过引文、作者和研究领域的关系构建了一个复杂的学术网络,适用于多种机器学习和数据挖掘任务。

标签:

【数据集】ACM数据集由讯客互联创业栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“【数据集】ACM数据集